零一万物正式发布API开放平台加速大模型应用进入长文本和多模态时代

人阅读

2024-03-14 10:30:26

来源：
相关关键词

·人工智能 3月14日，零一万物宣布正式发布 Yi 大模型 API 开放平台，并即日起为开发者提供通用 Chat、200k 超长上下文、多模态交互等模型。目前，Yi 大模型 API 名额限量开放中，新用户注册即赠60元。

亮点功能方面，Yi-34B-Chat-0205支持通用聊天、问答、对话、写作、翻译等功能；Yi-34B-Chat-200K提供200K 上下文，多文档阅读理解、超长知识库构建小能手；Yi-VL-Plus提供多模态模型，支持文本、视觉多模态输入，中文图表体验超过 GPT-4V。

其中，零一万物重点介绍了Yi-34B-Chat-200K和Yi-VL-Plus 多模态模型的亮点功能，并放出两者结合的实际案例。

200K 模型，支持输入 30 万汉字

· 加速大模型应用进入“长文本时代”。200K 模型支持处理约 30 万个中英文字符，（例如，可以轻松处理整本《哈利•波特与魔法石》小说），适合用于多篇文档内容理解、海量数据分析挖掘和跨领域知识融合等，为各行各业提供了极大的便利。例如，金融分析师可以用它快速阅读报告并预测市场趋势、律师可以用它精准解读法律条文、科研人员可以用它高效提取论文要点、文学爱好者可以用它快速掌握作品精髓等，应用场景非常广泛。

· 大海捞针评测升至99.8%。“大海捞针”测试的设计是：将一个目标句子（针）放进一个随机文档语料库（大海），然后提出一个只能使用“针”（目标句子）中的信息才能回答的问题来测试模型的回忆能力。在“大海捞针”测试中，Yi-34B-Chat-200K的性能提高了10.5%，从89.3%提升到99.8%。

Yi-VL-Plus 多模态模型，中文图表体验超过GPT4V

零一万物开发的多模态模型 Yi-VL-Plus，可支持文本、视觉多模态输入，面向实际应用场景大幅增强：

· 增强Charts, Table, Inforgraphics, Screenshot 识别能力，支持复杂图表理解、信息提取、问答以及推理。中文图表体验超过GPT4V。

· 在 Yi-VL 基础上进一步提高了图片分辨率，模型支持 1024*1024 分辨率输入，显著提高生产力场景中的文字、数字 OCR 的准确性。

· 保持了 LLM 通用语言、知识、推理、指令跟随等能力。

在中文图表识别功能评测中，Yi-VL-Plus模型能准确识别图表对应数据，而 GPT-4V则识别错3处数据

Yi-VL-Plus模型在一些中文图表理解场景，比GPT-4V准确率更高

与此同时，零一万物还是放出了Yi-34B-Chat-200K和Yi-VL-Plus 多模态模型的实际应用案例，展示了强大的能力。

· Yi-34B-Chat 200K + 多模态模型解读 Yi-tech-report 论文

· Yi-34B-Chat-200K 对经典文学作品《呼啸山庄》进行复杂角色和角色关系的归纳总结

该小说篇幅庞大（中文字数约 30 万字），且人物关系错综复杂，但它仍能精准地梳理和总结出人物之间的关系，展示了它在处理超长上下文时出色的复杂内容理解和分析能力。

此外，零一万物还表示，近期将为开发者提供更多更强模型和 AI 开发框架，预期亮点功能包括：

· 推出一系列的模型 API，覆盖更大的参数量、更强的多模态，更专业的代码/数学推理模型等；
· 突破更长的上下文，目标 100万 tokens；支持更快的推理速度，显著降低推理成本；
· 基于超长上下文能力，构建向量数据库、RAG、Agent 架构在内的全新开发者 AI 框架。旨在提供更加丰富和灵活的开发工具，以适应多样化的应用场景。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）