ChatGPT火爆出圈带火了通用人工智能大模型,据不完全统计,截至2023年8月,仅国内发布的大模型就多达156个,在这些大模型中,表现优异者有,滥竽充数者也有。
就去年8月份新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》、《麻省理工科技评论》发布的大模型评测报告、12月新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告3.0》等来看,在当前的国内各主流大模型,综合性能排名前四的分别有以下几个:
《人工智能大模型体验报告2.0》评测结果
《麻省理工科技评论》评测结果
《人工智能大模型体验报告3.0》评测结果
1.科大讯飞星火认知大模型
在《人工智能大模型体验报告2.0》中,以1013的综合性能得分排名第一;
在《麻省理工科技评论》的大模型评测报告中,以81.5的得分荣获中国“最聪明”大模型称号;
在《人工智能大模型体验报告3.0》中,以1775的高分蝉联冠军,并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。
科大讯飞星火大模型发布于2023年5月6日,具备文本生成、语言理解、知识问答、逻辑推理、数学、代码、多模态等七大核心能力。其后,星火大模型多次升级迭代,目前最新版本为3.0。
10月份,为深入了解相关大模型的实际应用情况,国务院发展研究中心国研经济研究院开展了一项大模型行业应用能力测评研究,旨在评估大模型不同行业下的表现情况,分析潜在的应用场景和模式,对比我国大模型与国际一流大模型的行业表现,并在此基础上提出我国大模型产业高水平发展的政策建议。
选取的大模型包括:星火大模型3.0版、ChatGPT、GPT-4和国内某大模型。
测评行业方面选择了知识密集型的生产性服务业(法律服务与工业设计)、个性化需求高的生活性服务业(医疗、教育与零售)以及部分制造业(汽车工程、计算机),并基于临床执业医师资格考试、中医执业医师资格考试、国家统一法律职业资格考试、机动车检测维修专业技术人员执业资格、全国计算机技术与软件专业技术资格等权威职业资格考试构建了测评题目,以评估大模型在行业知识、技能掌握水平、生产经营场景理解能力等维度的表现。
评测结果显示,星火大模型的综合能力达到国际一流水平,所有7个测评行业中表现均大幅超越ChatGPT,并在部分行业优于GPT-4,在与国内某大模型的比较中也表现优异。
特别是在医疗、法律、教育行业,讯飞星火大模型表现格外突出,中文领域知识和语言理解能力已分别超越GPT4表现5.3%和4.1%,在教育领域基础能力的表现与GPT4的表现差距小于1%。
2.百度文心一言
在《人工智能大模型体验报告2.0》和《麻省理工科技评论》发布的大模型评测报告中,百度文心一言分别以1010、72.5的得分位列第二,性能表现仅次于讯飞星火大模型。
据了解,百度文心一言发布于3月16日,主要能力包括文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成。
百度创始人、董事长兼 CEO李彦宏在发布会上表示,虽然文心一言在内测中并不完美,但是市场有需求必须推出来。
文心一言的技术原理是基于自然语言处理技术和 学习技术。它通过建立海量的语料库和 学习算法,学习文章的句式、语言习惯、修辞手法、篇章结构、时态语态等方面的知识,从而可以根据用户输入的关键词和需求,自动生成符合语法和语义的文章段落和句子。
可实现的功能与科大讯飞星火、商汤商量等通用大模型类似。不仅能和用户聊天,还可以快速生成处理各种各样的文本内容,如文章、诗歌、歌词、代码、图片等。
2023 年10 月 17 日,文心一言升级到4.0版本,理解、生成、逻辑、记忆四大能力得到提升。
3.商汤商量
在《人工智能大模型体验报告2.0》中和智谱AI-ChatGLM并列第三,综合得分983分,在《麻省理工科技评论》发布的大模型评测报告中排名第三,得分68.3。在《人工智能大模型体验报告3.0》中得分1746,排名第二,并在定量实测的情商维度上,位居全部10款大模型第一,与在定性评估中,与讯飞星火大模型、智谱AI-ChatGLM一起选大模型市场未来领袖象限。
“商量”的寓意是“商量商量,都能解决”。
“商量”一名,实际上点出了ChatGPT类模型的核心,即用户在多轮对话中,通过“魔法”调教,挖掘大模型解决问题的能力。
据悉,商汤商量于今年4月正式推出,是国内最早推出的基于千亿参数大语言模型的产品之一,并一直不断迭代更新。
围绕大模型及研发体系商汤以SenseCore商汤AI大装置为基础,建立了一套工程化的体系来支撑大模型的快速迭代,软件、系统和硬件都在以服务大模型快速迭代为目标做研发配合,实现了敏捷、低成本、大批次地做模型迭代,有助于商汤发现大模型最好、最有效的生产配方。
4.智谱AI-ChatGLM
在《人工智能大模型体验报告2.0》中和商汤商量并列第三,综合得分983分,在《人工智能大模型体验报告3.0》中得分1729,排名第三,在定性评估中,与讯飞星火大模型、智谱AI-ChatGLM一起入选大模型市场未来领袖象限。
ChatGLM 是由清华大学创新领军工程博士张鹏带领下的团队开发的一个开源且支持中英双语的类 ChatGPT 大语言模型,发布于3月18日。
10月27日,智谱AI在2023中国计算机大会(CNCC)上推出了全新的ChatGLM3大模型,这款最新的模型采用了创新的多阶段增强预训练方法,以实现更加充分的训练效果。
智谱AI的首席执行官张鹏亲自进行了新品发布,并通过实时演示展示了产品的最新功能。据介绍,通过使用更丰富的训练数据和优化的训练方案,ChatGLM3的性能得到了显著提升。与之前的ChatGLM2相比,MMLU提升了36%,CEval提升了33%,GSM8K提升了179%,BBH提升了126%。
此外,ChatGLM3还进行了针对GPT-4V的迭代升级,引入了一些全新的功能。其中包括具备多模态理解能力的CogVLM-看图识语义,在10余个国际标准图文评测数据集上取得了领先水平;代码增强模块Code Interpreter能够根据用户需求生成并执行代码,自动完成数据分析、文件处理等复杂任务;网络搜索增强模块WebGLM-接入搜索增强,能够自动查找互联网上与问题相关的资料,并在回答时提供参考的相关文献或文章链接。
小结:
尽管2023年,国内大模型发展突飞猛进,涌现出不少标杆产品,在行业应用方面表现优异,但我们也必须看到,人工智能技术的发展是一个持续的过程,需要不断地进行技术研发和创新。
探索赋能不同行业场景的落地方式将成为我国大模型企业快速发展的重要方向,而行业应用价值也将成为评判大模型的核心指标。唯有出现成千上万个解决生产、生活真实需求的AI原生应用,大模型才能真正深入社会经济的各个角落,助力各行各业的产业升级,推动中国经济的快速复苏,深刻改变人们的生活方式。
据公开数据,全球范围内人工智能将持续高速增长,市场规模持续扩大,预计到2032年,全球人工智能市场规模将达到1.3万亿美元。
在充满活力和机遇的时代背景下,人工智能大模型的兴起将持续引领科技进步,无论是在技术创新、商业应用还是在产业变革的推动方面,大模型都将发挥重要作用。伴随着应用领域的不断扩展,为各产业发展带来新的可能性。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )