AI智能体“看懂”屏幕，开源 GLM-PC 基座模型 CogAgent-9B 引领新潮流

人阅读

2024-12-27 08:46:34

作者：极客AI
相关关键词
- 智谱
- AI

标题：开源 GLM-PC 基座模型 CogAgent-9B：引领 AI 智能体“看懂”屏幕的新潮流

随着人工智能技术的不断发展，智能体（Agent）在各个领域的应用越来越广泛。近日，智谱技术团队开源了 GLM-PC 的基座模型 CogAgent-9B-20241220，该模型基于 GLM-4V-9B 训练，专用于智能体任务，凭借其强大的性能和广泛的适用性，引领了 AI 智能体“看懂”屏幕的新潮流。

CogAgent-9B-20241220 模型基于 GLM-4V-9B 训练，具有出色的 GUI 感知能力，能够根据用户指定的任意任务，结合历史操作，预测下一步的 GUI 操作。该模型仅需屏幕截图作为输入（无需 HTML 等文本表征），使其在各类基于 GUI 交互的场景中具有广泛的应用前景，如个人电脑、手机、车机设备等。

相较于 2023 年 12 月开源的第一版 CogAgent 模型，CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升。值得一提的是，该模型支持中英文双语的屏幕截图和语言交互，进一步拓展了其应用范围。

CogAgent 的输入仅包含三部分：用户的自然语言指令、已执行历史动作记录和 GUI 截图，无需任何文本形式表征的布局信息或附加元素标签（set of marks）信息。这一特性使得 CogAgent 在处理复杂 GUI 场景时具有更高的效率和准确性。

其输出涵盖以下四个方面：

思考过程（Status & Plan）：CogAgent 显式输出理解 GUI 截图和决定下一步操作的思考过程，这一功能使得用户能够直观地了解智能体的决策过程，增强了用户交互的体验。

下一步动作的自然语言描述（Action）：自然语言形式的动作描述将被加入历史操作记录，便于模型理解已执行的动作步骤。这一功能使得智能体不仅能够执行操作，还能够进行逻辑推理，提高了智能体的智能化程度。

下一步动作的结构化描述（Grounded Operation）：CogAgent 以类似函数调用的形式，结构化地描述下一步操作及其参数，这一功能使得智能体能够更加灵活地应对各种复杂的 GUI 场景，提高了智能体的泛用性。

下一步动作的敏感性判断：通过将动作分为“一般操作”和“敏感操作”两类，CogAgent 能够判断动作的风险性，从而避免可能带来难以挽回后果的操作，提高了智能体的安全性。

为了验证 CogAgent-9B-20241220 的性能，该模型在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等数据集上进行了测试，并与 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型进行了比较。实验结果表明，CogAgent 在多个数据集上取得了领先的结果，证明了其在 GUI Agent 领域强大的性能。

综上所述，开源 GLM-PC 基座模型 CogAgent-9B-20241220 的出现，为智能体领域带来了新的发展机遇。凭借其出色的 GUI 感知能力、广泛的适用性、丰富的输出功能以及优越的性能表现，CogAgent 有望在未来的智能体领域中发挥越来越重要的作用，引领 AI 智能体“看懂”屏幕的新潮流。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）