大模型行业越来越热闹。国外,马斯克为Twitter抢购1万块GPU筹备大模型项目、亚马逊大力投资大型语言模型和生成式 AI、OpenAI推出了ChatGPT iOS版本;国内,百度发布文心一言、阿里发布通义千问,王小川、王慧文、闫俊杰等“有背景”的创业者跑步进场。
相较于 学习而言,大模型让AI的认知能力更上一层楼,进而实现所谓的“智能涌现”,催生出ChatGPT、AutoGPT、AIGC等新型应用,让AI全面进入工业化大生产阶段。英伟达创始人、CEO黄仁勋说:AI的“iPhone时刻”来临。在激动人心的“iPhone时刻”,行业缺什么?
百模大战,AI的门槛一下变高了
跟当年的AI创业以及互联网创业生态不同,大模型成为“头号玩家”的游戏,活跃的玩家要么是大厂,要么是有资金加持的“有背景”创业者,“草根创业者”尚未出现。
大模型具有“巨量数据、巨量算法、巨量算力”三大“巨量”特征,对任何企业包括巨头来说,打造一个大模型都不是一件容易的事情,需要收集海量数据、需要采买海量算力、需要进行大量研发,金钱、时间、人力投入同样“巨量”。ChatGPT是创业公司OpenAI做的,这家公司在2015年成立后低调耕耘8年,且有微软等巨头/大佬支持,底层硬件投入高达10亿美元以上,每次训练消耗的电力足够3000辆特斯拉汽车每辆跑20万英里。
“巨量”特征让大模型研发门槛极高,但任何技术生态要走向繁荣都离不开社会化创新。移动互联网的崛起源自于iOS和安卓的出现,但也离不开应用市场数百万开发者的创新。同理,大模型上“长出”的应用也都得靠开发者来定义,让AI大模型为所有开发者(技术服务商、企业、组织、个体开发者等)所用,是加速大模型产业发展的关键。
截至目前,大模型还处在“只听其声不闻其人”的阶段,大厂的大模型已在开放,但需要使用者有较高的人才、算力等资源配置,当下市面上急缺一款让开发者乃至大学生等群体“人人可用”的大模型。
62亿参数规格,大模型也能“小而美”
最近我在朋友圈看到有人分享了一个轻量级开源大模型:中英双语对话模型 ChatGLM-6B,它的最大特点是轻量化,支持在单张消费级显卡上进行部署推理使用,这让它具备人人可用的基础——千亿规格的大模型往往需要成百上千张显卡才能部署。
ChatGLM-6B来自智谱AI这家公司,它由清华技术成果转化而来。2022年8月,智谱AI旗下的千亿级参数模型GLM-130B中英双语稠密模型正式向研究界和工业界开放——“130B”是130 billion的缩写,即1300亿参数。据官网介绍称,GLM-130B与BERT、GPT-3和T5有着不同的架构,是一个包含多目标函数的自回归预训练模型,具有双语支持、高精度和快速推理等特性。
2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。在与 OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(作为公平对比,只对比无指令提示微调模型)中表现不错。
2023年3月14日,智谱AI基于GLM-130B推出的千亿对话模型 ChatGLM 开始内测,ChatGLM对标ChatGPT,具备问答和对话功能且针对中文进行了优化,第三方评测显示其具备ChatGPT3.5至少70%的能力水平。同一天,智谱AI还开源了62亿参数 的ChatGLM-6B 模型。根据官方Blog显示,ChatGLM-6B 采取跟GLM-130B一样的架构与技术,其将参数规格从千亿精简到62亿,具有如下特征:
第一,轻量级。结合模型量化技术,ChatGLM-6B参数大幅精简,INT4 量化级别下最低只需 6GB 显存,支持在单张消费级显卡上进行本地部署,部署门槛与推理成本大幅降低。
第二,中英双语对话。进行了充分的中英双语预训练,经过约 1T 标识符的中英双语训练,辅以监督微调、 反馈自助、人类反馈强化学习等训练方式,它更能对齐人类意图,进而拥有不错的智能表现。
第三,国产自主。GLM-130B对国产信控生态有较好的支持,可在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。ChatGLM-6B作为国产自主的轻量级大模型也支持信控平台,可助力我国AI技术特别是大模型自主化。
截至目前ChatGPT、文心一言、通义千问的体验门槛都很高,而ChatGLM-6B支持公众体验(http://open.bigmodel.ai/trialcenter),简单注册后,我体验了一下它的能力。对近期AI型圈沸沸扬扬的口水战,它回答得很得体:
我打算做一个华为最新折叠屏手机Mate X3的评测,让ChatGLM-6B帮忙写一个提纲,结果中规中矩,思路没问题:
写诗这样的常规任务不在话下:
商业文案创作比如取名、想广告词都可以做,“喝蜜雪,不舔盖”,很有创意了:
体验中大部分时候ChatGLM-6B的表现相比ChatGPT、文心一言、通义千问并不逊色,考虑到它是一个只有62亿参数的“轻量版”大模型,哪怕“逊色”也都可以原谅了。特别值得一提的是,智谱AI针对取标题、写文章等不同场景进行了调优,让它在满足对应AIGC需求时有更出色的表现:
ChatGLM-6B的参数规格只有62亿,因此也存在一些不容回避的问题,比如在面对许多事实性知识任务时可能会生成不正确的信息,不擅长逻辑类问题(如数学、编程)的解答,对多轮对话的支持很一般。
要真正拥有人的智商,AI大模型依然任重道远。AI大模型的完整称呼是“AI预训练大模型”,“预训练”的字面意思很容易理解:预先训练好,这样应用开发者可得到相对现成的训练结果,基于此直接开发AI应用,不再需要从0到1训练数据、建立模型。它通过堆叠数据集“贪婪式”地训练模式,拥有较强的通用性,理论上可泛化到多种应用场景,而小样本或零样本的技术实现,则可让应用开发者快速基于其构建工程应用。
显而易见,ChatGLM-6B的出现体现出了大模型预训练与泛化通用的精髓,它的理念是“有舍才有得”,弱化一些能力,但降低了部署门槛,让开发者、研究者在本地计算机上进行大模型的微调、部署、训练成了可能,进而可更好地支持大模型落地到海量场景。
在前几天的一次公开活动上,智谱AI CEO张鹏曾表达一个观点,“AIGC产业基座是预训练大模型,原因在于两个方面:第一、通用泛化能力,为AI研发降本增效,这是非常关键的特性;第二,融入更多知识,让大模型能更好模拟人的智能。但与此同时也面临着一些挑战,比如成本高昂、训练数据巨大,周期长等。”ChatGLM-6B 的开源正是智谱AI实现通用泛化、降低AI研发门槛与成本的实践。
开源一个月后,ChatGLM-6B 的Huggingface 全球下载量已超过75万,持续两周位列Huggingface 全球模型趋势榜榜首,GitHub 星标数达到1.7万。“小而美”的ChatGLM-6B 在开源社区走热是大模型热的缩影。
ChatGLM-6B让大模型技术“人人可用”
ChatGLM-6B 通过轻量化的模式实现大模型的通用泛化,解决了大模型“高不可攀”这一开发者的痛点。在日益蓬勃的大模型产业中,有着独特占位的ChatGLM-6B将在AI技术普惠中扮演重要角色。具体来说,它将给大模型产业带来如下好处:
1、降低大模型使用门槛。更多开发者可轻松部署大模型,一方面, ChatGLM-6B是开源的,开发者可深入大模型底层一探究竟,只有搞清楚大模型的运转机制才能更好地利用好大模型技术。另一方面,开发者可基于 ChatGLM-6B进行上层应用创新,开发出我们今天想都想不到的创新AI应用,在工业化阶段再切换到GLM-130B这样的千亿级大模型上。
2、降低大模型的训练成本。大模型训练成本高昂且耗能,基于开源的ChatGLM-6B,开发者不再需要搭建庞大的算力体系,在训练推理时也不需要耗费惊人的电力资源、所需时间周期将大幅缩短,进而更高效、低碳、经济地应用大模型技术,加速AI工业化大生产。
3、有利于大模型的教育普及。乔布斯当年曾说人人都要会编程,未来人人则要学会使用AI工具。在教育场景,计算机相关专业的大学生以及对编程有兴趣的青少年,只要有一台搭载显卡的计算机就能轻松地部署ChatGLM-6B,可以尽早了解并学会应用大模型这一基础技术。
个人觉得,“ChatGLM-6B+GLM-130B”的组合模式给AI大模型产业落地提供了一个新的范式:轻量级大模型扮演普惠的角色,让更多人轻松“入门”,学习、理解、熟悉大模型技术,进行创新应用的开发、验证、测试等。到了应用阶段,如有必要再使用GLM-130B这样的千亿级工业化大模型部署产品,面向客户与用户提供商业化服务。
写在最后:
AI大模型技术掀起新一轮产业革命,人类社会的生产力、生产资料与生产关系都将被重新定义,人们的生活与工作方式、企业的经营模式以及社会的治理方式都在被重构。在这样的大变局下,AI大模型已成为“国之重器”。
在技术浪潮涌来时,国际形势正波诡云谲,大国竞争日益激烈,科技是核心角力场,不论是十四五规划纲要还是二十大均明确要增强科技创新引领作用,实现高水平科技自立自强。在这样的时代背景下,大模型成了跟芯片一样的制高点,我国必须要有自己的底层大模型技术,更需要有自己的完整的大模型应用与产业生态。
这几天,王小川与百度的口水战在大模型行业引发热议,其实争论“我国大模型距离ChatGPT的差距究竟是2个月还是2年”没什么意义,我国大模型技术距离GPT还有客观的差距,推动大模型技术精进和产业落地,是大模型玩家们的责任,行业更需要ChatGLM-6B这样的可落地的解决方案,它大幅降低了AI开发门槛,未来还可结合低代码等技术实现“人人都会大模型开发”,这才是AI大模型技术普惠的必经之路,也是我国AI大模型实现赶超的关键。
在官方博客上,ChatGLM团队有一段朴素的文字:
“我们一直在探索、尝试和努力,GLM 系列模型取得了一丝进展,但我们离国际顶尖大模型研究和产品(比如 OpenAI 的 ChatGPT 及下一代 GPT 模型)都还有明显差距。中国大模型研究在原创算法、AI 芯片和产业上的追赶与突破需要大家的一起努力,更需要我们对下一代 AI 人才的培养与锻炼。很幸运的是,GLM 团队在过去几年探索的过程中,有一群有情怀、有能力、有格局的年轻人加入我们并肩作战,快乐开卷,大家一起焦虑,一起熬夜,一起成长,一起创造。通用人工智能探索,我们一直在路上,努力前行。”
我觉得还是很扎心的。大模型热潮中,浑水摸鱼、蹭热点、搞炒作的玩家不少,但也有一些脚踏实地的团队正在研发大模型技术,想方设法在推动大模型落地,只争朝夕地追赶先行者,他们,值得被尊敬。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。