从“紫东.太初”2.0看大模型发展之道：全模态进化实现更类人的智能

·极客观察（朱飞） 6月16日，在人工智能框架生态峰会2023上，“紫东.太初”全模态大模型重磅发布，给当前“百模大战”的局面再添一把火。

资料显示，该大模型是在千亿参数多模态大模型“紫东.太初”1.0基础上升级打造的2.0版本，在语音、图像和文本三模态的基础上，加入了视频、信号、3D点云等模态数据，研究突破了认知增强的多模态关联等关键技术，具备全模态理解能力、生成能力和关联能力。

也就是说，不同于以ChatGPT背后的GPT为代表的大型语言模型（LLM），“紫东.太初”2.0实现了更全的模态覆盖，不仅能够更加拟人，也更能够模拟机器人，得以在更多场景实现更类人的智能。

毋庸讳言，实现通用人工智能（AGI）一直是全球AI业界的终极目标。“紫东.太初”的迭代升级，实现了从“一专一能”到“多专多能”再到“全专全能”的持续进化，踏上了通向AGI的快车道。

立足多模态，全模态进化

人类在认知世界时，往往同时涉及语音、图像、文字等信息。有研究显示，人类获取信息有70%靠视觉，20%靠听觉，10%靠触觉或其他方式。面向万物互联的智能世界，机器将是智能的主角，这意味着机器设备想要实现更高水平的智能，就需要像人一样发展贯通图、文、音等多模态的大模型能力。

有鉴于此，“紫东.太初”自出生开始就立足多模态发展。2019年起，中国科学院自动化研究所（以下简称“自动化所”）即坚持以图、音、文多模态技术为核心，确立多模态大模型布局。通过整合所内图像、文本、语音等研究方向的优势资源开展攻关，自动化所于2021年9月成功打造“紫东太初”1.0多模态大模型，立志助推人工智能从“一专一能”迈向“多专多能”。

随着探索的深入，自动化所发现迈入数字经济时代，数据的范畴不断拓宽，不仅包含人类自身产生的语音、图像、文字等数据，还有机器产生的大量结构和非结构化数据，包括视频、信号、3D点云等，大模型需要支持更多的模态，向全模态持续进化。

以3D点云为例，随着自动驾驶技术发展驶入快车道，3D传感器的使用正在变得越来越普遍，激光雷达、毫米波雷达、相机、3D扫描仪等3D传感器可以从现实世界中获取物体和环境的几何、形状和比例信息，帮助AI更好地理解现实环境。相应地，AI大模型需要更好地感知、认知和处理这些三维信息，才能帮助汽车实现更高阶的自动驾驶能力。

“紫东.太初”2.0正为此而生，其从技术架构上实现了结构化和非结构化数据的全模态开放式接入，突破了认知增强的多模态关联等关键技术，在应用场景上支持多轮问答、文本创作、图像生成、3D理解、信号分析等跨模态任务，并具备全模态智能化标注能力，可实现对未知目标的自动发现。

全栈国产化，打造AGI底座

值得一提的是，在架构理念上与GPT天生不同的“紫东.太初”，在技术也采用了全栈国产化的基础软硬件，着力打造全栈国产化的通用人工智能底座，全面满足数智化转型升级浪潮下各行各业对安全合规和数据隐私等方面的严格要求。

具体而言，“紫东.太初”2.0以自动化所自研算法为核心，以昇腾AI硬件及昇思MindSpore AI框架为基础，依托武汉人工智能计算中心算力支持，在算法、算力，以及背后关键的AI框架基础软件设施等全维度实现了全栈国产化。

众所周知，ChatGPT及其背后的GPT大模型，已经先后遭遇欧洲、韩国等国家和地区的部分政府及企业禁用，AI大模型安全问题已经上升到新的高度。“紫东.太初”推动国产基础软硬件与大模型技术的适配，协同构建我国通用人工智能自主可控发展生态，意义不言而喻！

这一点在业内已经形成高度共识，就在本次人工智能框架生态峰会2023期间，18家AI顶级企业、学会、高校及科研院所共同发布《共建人工智能框架生态倡议》，通过政产学研用的共同努力，支撑中国人工智能框架生态走向新高度，推进中国人工智能产业新发展。

与此同时，上海人工智能研究院、上海市闵行区政府、临港集团、昇思开源社区联合启动上海昇思AI框架&大模型创新中心，首批吸引22家单位入驻。该中心将携手产业伙伴基于昇思MindSpore AI框架，支持全国范围的AI技术企业、高校与科研院所孵化大模型、科学智能技术研究，进而赋能企业，推动产业集聚。

毋庸讳言，人工智能框架作为AI根技术，可以为开发者提供强大的工具和资源，在包括大模型在内的AI创新背后扮演着至关重要的角色。昇思MindSpore作为源自中国、全球领先的人工智能框架，目前各项核心指标在所有AI框架中已排名中国第一、全球第二，有力推动着AI技术的发展和创新。

开放服务平台，赋能产业应用

业内人士都知道，大模型的训练十分昂贵。尤其是像“紫东.太初”这样的千亿级参数的全模态基础大模型，训练成本足以让很多企业望而止步。正如中科院自动化所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥所说，“底座大模型成本很高、技术门槛也高，训练一次基本需要上千万的电力费用。”因此如何利用好这样的底座大模型，是AI产业应用的重中之重。

在这方面“紫东.太初”也有独到之处。通过成立多模态人工智能产业联合体，打造“紫东.太初”人工智能开放服务平台等一系列举措，“紫东.太初”构建了“平台+生态”的发展模式，形成了多元主体共同参与“紫东.太初”研究实践的协同机制，以此提高整个产业生态的创新效率，大幅缩短从AI模型研发到AI应用落地的时间周期，减少因重复开发带来的资源浪费。

此番随着“紫东.太初”2.0的发布，基于“紫东.太初”2.0的最新全栈国产化、低代码一站式开发的“紫东.太初”开放服务平台已上线。该平台支持公有云、私有云一键部署，能够使能行业大模型高效率开发，面向更多领域发挥赋能价值，加速通用人工智能的实现。

王金桥指出，未来底座大模型的数量不会很多，更多的是基于底座模型、围绕行业的解决方案。企业可通过大模型和行业场景的结合，生产和优化自己的模型，实现低代码的开发，让大模型更高效地利用。

资料显示，目前数十家企业基于“紫东.太初”底座大模型，结合自身的行业知识（Know-How），已在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域开始了一系列引领性、示范性的应用。

写在最后：

综上，在“百模大战”的当下，“紫东.太初” 从1.0到2.0，从多模态向全模态进化，基于全栈国产化技术打造AGI底座，通过开放服务平台赋能产业应用，走出了一条特色的大模型发展之道。

这种全模态大模型通过进一步打通感知、认知乃至决策的交互屏障，使人工智能进一步感知世界、认知世界，从而延伸出更加强大的通用能力，实现更类人的智能，无疑将加速AI产业落地，加速迈向AGI时代！

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

从“紫东.太初”2.0看大模型发展之道：全模态进化实现更类人的智能

下一篇