9月19日消息,继SuperCLUE中文大模型评测基准8月榜单发布之后,国内又一权威评测体系FlagEval(天秤)公布最新9月榜单评测结果。
FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。FlagEval 大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。
据悉,在9月评测中,FlagEval进行了评测框架升级,细化「安全与价值观」与「推理能力」。依据最新版的能力框架,FlagEval 团队同步更新了智源自建的 Chinese Linguistics & Cognition Challenge (CLCC) 主观评测数据集题库v2.0,题目数量扩充3倍,采用“多人‘背靠背’评测+第三方仲裁”的方式保证评测结果的一致性。
基于最新 CLCC v2.0主观评测数据集,FlagEval(天秤)9月榜重点评测了近期大热的 7 个开源对话模型。从整体结果来看,Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅,准确率均超过 65%。
在基座模型榜单中,Baichuan 2、Qwen、InternLM、Aquila 的客观评测结果表现均超越同参数量级的 Llama 及 Llama2 模型。
在 SFT 模型榜单中,Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B 名列前三。
另外,值得注意的是,在客观评测两个榜单中,Baichuan 2均表现出优异性能,基础模型测试在中英文领域均全面超越Llama2。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 开学了,认识的第一个学长竟然是AI
- GPT-o1模型实测:“物化生”水平超人类博士? 推理能力碾压GPT-4o
- 华为HarmonyOS NEXT正式版即将发布:引领自主可控的操作系统新时代
- TechWeb微晚报:余承东谈中国足球,法拉第未来给贾跃亭涨薪
- 华强北商家预测iPhone 16系列价格趋势:发售即破发
- 小米汽车升级配置丰富选择,SU7系列新增多项个性化选装
- 上海联通率先启动5G-A品质服务体验:下行速率高达3Gbps,加速迈进5.5G时代
- iPhone 16系列预售爆火的背后:一次黄牛搅动的狂欢
- TikTok与字节跳动面临关键法庭听证,挑战美国禁令以保护1.7亿用户权益
- 创维集团宣布13亿元出售乐金显示(中国)10%股权,LG Display子公司全面控股
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。