国产大模型十大维度PK,讯飞星火以93分稳居第一

在技术迸发、智慧涌现的AI时代,中国企业从不会缺席!如果说ChatGPT是生成式AI爆发的“导火索”,那么接连而来的国产大模型就像装满火药的战船,在奋勇冲锋中炸开了一道又一道关口,整体缩短甚至局部超越了与ChatGPT的航距。目前为止,业界比较认可的国产大模型分别有讯飞星火、文心一言、通义千问和360智脑等,而令大家好奇的是,这些国产大模型之间孰强孰弱?近期,老牌知名科技媒体IT之家重磅推出了四款主流大模型的横向测评,其中诸多测试结果令人意想不到。

国产大模型十大维度PK,讯飞星火以93分稳居第一

此次IT之家对国产大模型进行了10个维度的评测,每个维度单项得分10分,累计总分100分。这样的打分机制非常公平,10个维度也依次体现了大模型的场景应用。根据测试结果,讯飞星火以总分93分的成绩一骑绝尘,并且在“终端支持”、“语言理解能力”、“代码编写能力”、“多轮对话能力”“AI助手功能”等单项获满分。百度的文心一言则以84分的总成绩紧随其后,360智脑和通义千问总分与讯飞星火有较大的差距。

具体到测试单项,在终端支持能力上,讯飞星火是目前唯一“五端全覆盖”的国产大模型,五端分别指安卓、iOS、小程序、PC和H5,几乎涵盖了移动端和桌面端的所有设备。用户既可以在上班的时候,将讯飞星火当成AI辅助工具,又可以在移动办公或出差的时候,随时打开讯飞星火寻求“支援”,随时随地获得大模型能力的加持。

在语言理解能力测试上,这向来就是讯飞星火的“主战场”,自AI语音起家,讯飞背靠认知智能全国重点实验室与五大声学实验室,在自然语言理解技术上拥有深厚沉淀。在IT之家的测试中,多次采用“一语双关”或“一语多意”的词汇来检测理解能力,结果讯飞星火都 理解了语言背后的深层意图,并给出了很有逻辑性且精炼的回答。

在多轮对话能力测试中,IT之家采用唐诗宋词来“考”大模型,结果360智脑把白居易描写草原的诗强行说成描写月亮,犯了“张冠李戴”的错误。而讯飞星火不仅能识别描写月亮的诗词,还自行创作了两首描写月亮的诗,创作水平真不赖。而在代码编写能力上,讯飞星火更展现了极高的“天赋”,生成的代码不仅规范简洁,还直接通过了程序运行工具的检测,可以完美执行。讯飞星火也成为了IT之家在测试中四款大模型中唯一一款生成代码“可用”的大模型,表现突出。

据了解,讯飞星火自5月首发以来,历经6月9日的V1.5迭代,又将要在8月15日迎来新一轮迭代,其官方宣布8月15日将升级代码能力、开放多模态能力,并在知识问答能力等方面持续提升。即便目前讯飞星火在代码能力上已经非常出色,但依然有巨大的向上空间,未来或许人人都可以借助AI之力化身“码农”,这不禁让人们充满了期待。

通过IT之家对四大国产AI模型的横评,几乎可以肯定地说,讯飞星火是目前最好用、最聪明的国产大模型之一,并且未来还有巨大的提升空间,最终要跟ChatGPT“掰一掰”手腕。

如今,国内大模型发展局面已经逐渐明朗,国产大模型梯队也渐渐形成,很高兴看到企业在大模型赛道呈现你追我赶的态势,因为这也成为了实现中国“智慧涌现”的强大引擎。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

Baidu
map