北大联手智元机器人发布OmniManip，革新3D机器人操作能力，开启新篇章

人阅读

2025-01-24 09:51:41

作者：极客AI
相关关键词

重塑3D机器人操作能力：北大与智元机器人引领OmniManip革新

随着科技的发展，机器人的应用场景日益广泛，尤其是在3D机器人操作领域。近日，北京大学与智元机器人团队联手推出的OmniManip架构，以其独特的创新性和卓越的性能，引发了业界的广泛关注。这一创新不仅有望革新3D机器人操作能力，更开启了一个全新的篇章。

OmniManip架构的核心，是以对象为中心的3D交互基元。它将视觉语言模型的高层次推理能力转化为机器人的低层次高精度动作，从而突破了现有技术的限制。这种以对象为中心的设计，将机器人的操作与对象的具体形态紧密结合，使得操作更加精确和灵活。

面对大模型幻觉问题和真实环境操作的不确定性，OmniManip引入了视觉语言模型规划和机器人执行的双重闭环系统设计，实现了操作性能的突破。这种设计思路，既充分利用了视觉语言模型的优势，又考虑了实际操作的现实需求，是一种非常具有前瞻性的解决方案。

OmniManip的关键设计之一，是基于视觉语言模型的任务解析。通过利用视觉语言模型强大的常识推理能力，将任务分解为多个结构化阶段，每个阶段明确指定了主动物体、被动物体和动作类型。这种分解方式，使得任务解析更加清晰和明确，为后续的机器人操作提供了坚实的基础。

此外，OmniManip还以物体为中心的交互基元作为空间约束。通过3D基座模型生成任务相关物体的3D模型和规范化空间，使视觉语言模型能够直接在该空间中采样3D交互基元，作为动作的空间约束，从而优化求解出主动物体在被动物体规范坐标系下的目标交互姿态。这种设计思路，充分体现了以物体为中心的思想，使得机器人操作更加贴近实际需求。

闭环视觉语言模型规划是OmniManip的另一个关键设计。通过将目标交互姿态下的主动/被动物体渲染成图像，供视觉语言模型评估和重采样，实现了视觉语言模型对自身规划结果的闭环调整。这种设计，使得机器人操作更加智能和灵活，为后续的执行提供了更好的基础。

而闭环机器人执行则是OmniManip的又一个重要环节。通过物体6D姿态跟踪器实时更新主动/被动物体的位姿，转换为机械臂末端执行器的操作轨迹，实现闭环执行。这种设计，使得机器人能够更好地适应各种复杂环境下的操作任务。

此外，OmniManip还具备通用泛化能力，不受特定场景和物体限制。这使得它能够广泛应用于各种场景，如数字资产自动标注/合成管道，实现大规模的机器人轨迹自动化采集。这一优势，无疑将大大拓展机器人的应用范围。

值得一提的是，智元机器人的团队已经将其应用于实际场景中，并取得了良好的效果。他们将开源泛化操作大规模数据集和对应的仿真评测基准，这无疑将推动整个行业的发展。

总的来说，OmniManip架构以其独特的创新性和卓越的性能，有望引领3D机器人操作领域的新一轮革新。而这一切，都离不开北京大学与智元机器人团队的共同努力和创新精神。我们期待着他们在这个领域取得更多的成果，为人类社会的发展做出更大的贡献。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）