3月29日消息,昆仑万维2050全球研究院、新加坡南洋理工大学、苏黎世联邦理工学院研究团队联手开源了数字智能体全流程研发工具包AgentStudio,旨在为研究人员和开发者提供一个覆盖智能体完整开发流程的综合性平台,让开发者们能够轻松、高效、灵活地构建专属数字智能体。
AgentStudio所提供的工具涵盖数字智能体开发的全部流程,包括智能体观察与动作空间、跨平台的在线环境支持、交互式数据收集与评估、可扩展的任务套件、以及相应的图形界面。此外,研究团队还评估了多个多模态大模型完成数字世界任务的能力。
AgentStudio是一个完全免费的开源项目,项目团队希望通过这一开源努力,与人工智能社区携手加速智能体技术发展,促进前沿知识共享与合作。目前,AgentStudio相关论文、代码、数据、文档已全部公开。(链接在文末)
AgentStudio工具包的开发,正是基于当前人工智能领域对高效、可扩展智能体开发工具的迫切需求。该工具包不仅包括了智能体观察与动作空间的定义工具,还提供了跨平台的在线环境支持,使得开发者可以在不同的平台和设备上进行智能体的开发与测试。此外,AgentStudio还支持交互式数据收集与评估,以及可扩展的任务套件,极大地增强了其实用性和灵活性。
图注:AgentStudio架构及环境介绍
目前,全球有多种数字智能体开发工具包,支持不同的开发环境和应用领域。与现有工具相比,AgentStudio的主要优势在于:
可复现、多模态、跨平台的在线环境:AgentStudio支持通过Docker、VNC、FastAPI以及虚拟机等方式便捷地连接包括Windows、MacOS、Linux等各种操作系统与设备,相比现有环境更加注重真实落地场景。
统一的标准化的输入输出:为了支持智能体和尽可能多地各种软件进行交互,AgentStudio采用了最为通用的输入输出方式,既支持像人一样通过观察电脑屏幕的图像作为输入,操作键盘鼠标和命令行作为输出,也支持进行函数调用和使用API,达到通用计算机控制。
全面、可扩展、可组合的任务集:AgentStudio包含了在十余个应用上用于全面评估AI智能体完成指令的能力,全方位覆盖各种应用软件,如文档操作、邮件处理、日历使用、音乐播放、视频编辑器、代码编辑器等,涵盖复杂真实应用场景,同时包含了范围从单个底层操作到跨任务的组合性任务的不同难度的多级任务。AgentStudio基于该任务集,公开了相应的leaderboard。
完整的智能体数据收集与评估代码:AgentStudio的功能不仅包含了对智能体能力的评估,而且包含了完整开源的数据集收集代码,可用于人工标注数据集,也可用于智能体自行收集经验。
关注工具创造与使用:在开放域中的工具创造与使用是AI智能体的核心能力之一。以电脑为例,AgentStudio为智能体提供了最通用的三类工具:键盘、鼠标、与命令行,同时支持智能体进一步在交互过程中自行创造并复用新的工具,如用于创建、修改日历的工具集,实现智能体的不断自我提升。
交互式可视化界面: AgentStudio提供用户友好的轻量化GUI界面,帮助用户方便快捷地一键自动化创建任务并搜集数据。以下流程图将直观呈现使用AgentStudio创建任务并收集数据的过程。通过AgentStudio提供的用户友好的界面,用户可以实现跨平台的人工演示的录制,包括输入任务指令、通过交互界面得到坐标、编辑和运行代码、记录智能体轨迹等一系列功能,这些大幅简化了大规模数据收集的难度,为下一代智能体数据规模化提供了基础。
使用AgentStudio创建任务并收集数据以及与环境交互的过程
除了搭建工具包外,研究团队还评估了多个多模态大模型完成数字世界任务的能力。为了全面评估智能体的能力,AgentStudio的结果从多个维度入手:
图形界面grounding数据集:任务仅包含单步动作,指令为不需要规划的底层操作,主要关注智能体和图形界面交互的能力;
日常任务与组合性任务集:任务完成调用复杂API,或需要多步动作、并常常需要跨软件交互。该任务集用于衡量智能体完成日常任务、以及进行复杂动作规划的能力。
AgentStudio的评测结果还进一步分析了现有多模态模型在图形界面grounding数据集表现不佳的可能原因和相应的改进方法,并衡量了模型自我评估的能力,这些都对智能体的自我提升和真实落地至关重要。根据评测结果,研究团队在论文中还讨论了若干有前景的研究方向,包括更通用的图形界面grounding模型和算法、从视频演示中学习等。
从环境到智能体,从数据到评估,AgentStudio提供了一套完整的解决方案覆盖了构建智能体的全过程,将极大地加速了智能体的发展。AgentStudio的建立在研究团队对智能体、工具调用、代码解释器的深入理解与积累之上。
目前,研究人员已经开源了所有结果,包括环境的实现、智能体数据集、算法实现等,希望帮助人工智能社区搭建更多能够完成复杂任务的AI智能体。
欢迎感兴趣的研究与开发者们下载使用,并关注AgentStudio团队其他相关项目。
附:
论文标题:《AgentStudio: A Toolkit for Building General Virtual Agents》
论文链接:https://arxiv.org/abs/2403.17918
项目主页与文档:https://skyworkai.github.io/agent-studio/
开源代码:https://github.com/SkyworkAI/agent-studio
Leaderboard:https://huggingface.co/spaces/Skywork/agent-studio-leaderboard
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 蔚来宣布在中东北非市场开展业务 阿联酋将成为首发市场
- 张朝阳将开启5小时“数学马拉松” 推算自由下落的雨滴为何不伤人?
- 2024国庆新片票房破15亿:《志愿军:存亡之战》领跑
- 长城汽车回应网传“坦克 300 安全带断裂”:系改装所致,非产品质量问题
- 蔚来乐道回应L60 交付产能问题:“不会像其他友商一样做那么多库存”
- 比亚迪狂销超41万辆,新能源车9月销量出炉:理想、小鹏、零跑再创交付记录
- 雷军:国庆假期使用小米SU7智能驾驶 这四种极限场景须果断接管
- 112718人在线学习!松鼠Ai挑战吉尼斯世界纪录成功
- 新势力车企9月交付量:理想超5万,零跑超3万,小鹏、蔚来超2万辆
- OpenAI发布实时API公测版 3家语音API合作者揭晓
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。