近日,豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时,豆包的模型能力也引发行业关注。
在火山引擎的一份产品资料中,豆包模型团队公布了一期内部测试结果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,相比上一代模型云雀Skylark2的64.5分提升了19%,也优于同期测试的其他国产模型。
此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀Skylark2在内的九款国产大语言模型。除了云雀Skylark2 以外,其他模型均为各家厂商最新发布的高级版本,通过API调用进行测试。
图:豆包模型团队内部测试结果
评测结果显示,在评估代码能力的两个评测集 HumanEval和 MBPP上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。
此外,豆包模型在数学能力、语言理解能力,以及综合评测集 CMMLU和 CEval的评测上也有不错的表现,得分排在前三。综合11个公开评测集上的测试成绩,豆包通用模型-pro的总分为76.8分。根据OpenAI公布的测试成绩,GPT-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。
据悉,豆包模型在5月15日刚刚推出,尚未加入到第三方机构测试中。预计未来一到两个月内,很多第三方评测机构将会陆续披露该模型的评测结果。与模型同名的AI对话助手“豆包”,官方公布的月活用户数已经达到2600万,用户可以自由体验测试。
此前,智源研究院公布了覆盖全球91个语言模型的评测报告。在偏重考察中文能力的主观评测中,云雀Skylark2排名第一,中文能力超过 GPT-4。
图:智源研究院语言模型评测结果(模型为4月20日之前的版本)
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 中国网络空间安全协会:建议系统排查英特尔产品网络安全风险
- TechWeb微晚报:新一代iPad mini发布 3999元起售,ASML股价暴跌16%
- 零一万物新旗舰模型 Yi-Lightning超越 GPT-4o,李开复详解背后原因
- 比亚迪成立30周年发福利抽60台新车:最高大奖是仰望U8
- 美政府和微软公司拒绝回应中方“伏特台风”虚假叙事揭露
- 奇富科技QFSRC启动首届大学生网络安全技能大赛 奖金池10万元
- 蔚来旗舰行政轿车ET9正式申报:明年一季度上市
- 比亚迪夏MPV实车亮相,预计年内上市
- 京东发言人:刘强东章泽天夫妇遭有组织造谣抹黑,已报案
- WPS AI伴写获用户好评:是以人类为主,AI 为辅的写作工具
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。