让AI像人类一样操作电脑!Anthropic上新Claude 3.5 Sonnet模型新能力

10月23日消息,OpenAI竞争对手Anthropic宣布推出升级版的Claude 3.5 Sonnet和新款Claude 3.5 Haiku。

根据Anthropic介绍,升级版Claude 3.5 Sonnet获得了一项革命性的新技能:能够像人类一样操作电脑。同时,升级版Claude 3.5 Sonnet模型各项能力均超越之前版本,尤其在代码方面取得了特别显著的进步,进一步巩固其行业领先地位。

新款Claude 3.5 Haiku则在许多评估中与Anthropic之前最大的型号Claude 3 Opus的性能相匹配,其成本和速度与上一代Haiku相同。

升级后的Claude 3.5 Sonnet现在可供所有用户使用。从今天开始,开发者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用计算机测试版进行构建。新的Claude 3.5 Haiku将于本月晚些时候发布。

升级版Claude 3.5 Sonnet:超强编码能力,公测“计算机使用”功能

据介绍,升级版Claude 3.5 Sonnet在业界基准测试中表现卓越,在SWE-bench Verified编码测试的得分由33%跃升至49%,超越所有目前公开可用的模型。在TAU-bench(评估模型灵活运用工具和API综合能力的基准测试)中,其零售领域得分从62.6%提高到69.2%,航空领域从36.0%提高到46.0%。性能全面提升的同时,Claude 3.5 Sonnet的成本与之前版本保持一致。

另外,Anthropic早期的客户反馈表明,升级后的Claude 3.5 Sonnet代表了人工智能编码的重大飞跃。GitLab测试了DevSecOps任务的模型,发现它提供了更强的推理能力(跨用例高达10%),没有增加延迟,使其成为支持多步骤软件开发过程的理想选择。

同时,Anthropic在Claude 3.5 Sonnet公测版中引入了一项突破性的新功能:计算机使用。通过API接入,开发人员可以指导Claude使用计算机,就像人们看屏幕、移动光标、单击按钮和输入文本一样。

Anthropic表示,Claude 3.5 Sonnet是第一个在公测中提供“计算机使用”的AI模型。该功能现阶段是实验性的,预计随着时间的推移,这种能力会迅速提高。

Anthropic介绍,在“计算机使用”能力上,没有制作特定的工具来帮助Claude完成个人任务,而是教它一般的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。开发人员可以使用这个新兴功能来自动化重复流程,构建和测试软件,并执行研究等开放式任务。

Anthropic构建了一个API,允许Claude感知计算机界面并与之交互。开发人员可以集成此API,使Claude能够将指令(例如,“使用我的计算机和在线数据填写此表单”)转换为计算机命令(例如,检查电子表格;移动光标打开web浏览器;导航到相关网页;使用这些网页中的数据填写表单等等)。

效果方面,在评估人工智能模型像人一样使用计算机的能力的OSWorld上,Claude 3.5 Sonnet在屏幕截图(screenshot-only)类别中的得分为14.9%,明显高于次佳人工智能系统的7.8%。当提供更多步骤来完成任务时,Claude的得分为22.0%。

不过Anthropic也强调,Claude 3.5 Sonnet目前使用计算机的能力并不完美。人们毫不费力地执行的一些操作——滚动、拖动、缩放——目前给都Claude带来了挑战,鼓励开发人员从低风险任务开始探索。

据悉,Asana、Canva、Cognition、DoorDash、Replit和浏览器公司已经开始探索这些功能,执行需要几十个甚至几百个步骤才能完成的任务。例如,Replit正在使用Claude 3.5 Sonnet的“计算机使用”和UI导航功能来开发一个关键功能,该功能在为Replit Agent产品构建应用程序时对其进行评估。

下面是Claude 最新演示的 AI 操作电脑的视频截图

在这个演示中,Claude浏览了不同的标签页,收集了所需信息,并填写了一个表单,所有电脑操作均由Claude生成。

Claude 3.5 Haiku:最快速模型

新推出的Claude 3.5 Haiku是Anthropic下一代速度最快的模型。在与Claude 3 Haiku相同的成本和相似的速度下,Claude 3.5 Haiku在每个技能集上都有所提高,甚至在许多智能基准上超过了Anthropic上一代最大的型号Claude 3 Opus。

Claude 3.5 Haiku在编码任务上表现得尤为出色。例如,它在SWE bench Verified上的得分为40.6%,超过初代版Claude 3.5 Sonnet和GPT-4o。

凭借低延迟、改进的指令遵循和更准确的工具使用,Claude 3.5 Haiku非常适合面向用户的产品、专门的子代理任务,以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。

Anthropic介绍,Claude 3.5 Haiku将于本月晚些时候提供,并随后提供图像输入能力。

Anthropic是由前OpenAI员工创立的公司,亚马逊是Anthropic的重要投资者。今年3月,亚马逊宣布已完成对 Anthropic 的 40 亿美元投资,以深化推进生成式 AI 技术的发展。

Anthropic于2023年3月发布了Claude 3系列模型Claude 3 Haiku、Claude 3 Sonnet、 Claude 3 Opus,此后便按照各型号进行能力升级迭代。今年6月,Anthropic发布最强大模型Claude 3.5 Sonnet,拥有相比前代模型2倍的推理速度和1/5的调用成本。(果青)


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-10-23
让AI像人类一样操作电脑!Anthropic上新Claude 3.5 Sonnet模型新能力
OpenAI竞争对手Anthropic宣布推出升级版的Claude 3.5 Sonnet和新款Claude 3.5 Haiku。根据Anthropic介绍,升级版Claude 3.5 Sonnet获得了一项革命性的新技能:能够像人类一样操作电脑。同时,升级版Claude 3.5 Sonnet模型各项能力均超越之前版本,尤其在代码方面取得了特别显著的进步,进一步巩固其行业领先地位。 新款Claude 3.5 Haiku则在许多评估中与Anthropic之前最大的型号Claude 3 Opus的性能相匹配,其成本和速度与上一代Haiku相同。

长按扫码 阅读全文

Baidu
map