11月15日消息,近日,创新工场董事长兼 CEO 李开复创办的AI大模型创业公司“零一万物”推出 Yi-34B 和 Yi-6B 两大开源大模型。
然而在 Yi-34B 的 Hugging Face 开源主页上,有开发者质疑该模型使用了 Meta LLaMA 的架构,只对两个张量(Tensor)名称进行了修改等等。
对此,零一万物正式公开了对 Yi-34B 训练过程的说明。李开复也转发了该说明,并表示:“零一万物 Yi-34B 模型训练的说明也回应这两天大家对于模型架构的探讨。全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2-> Yi,行业逐渐形成大模型的通用标准 (就像做一个手机app开发者不会去自创 iOS、Android 以外的全新基础架构)。01.AI 起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步”。
以下为:零一万物对 Yi-34B 训练过程的说明
就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于Transformer的架构,做attention,activation,normalization,positional embedding等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT/LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。
模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。
零一万物在训练模型过程中,沿用了GPT/LLaMA的基本架构,由于LLaMA社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从3PB原始数据精选到3T token高质量数据)。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。
零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了Group Query Attention(GQA)、Multi-Head Attention(MHA)、Vanilla Attention 并选择了GQA,实验了Pre-Norm和Post-Norm在不同网络宽度和 上的变化,并选择了Pre-Norm,使用了 RoPE ABF作为positional embedding等。也正是在这些实验与探索过程中,为了执行对比实验的需要,模型对部分推理参数进行了重新命名。
在零一万物初次开源过程中,我们发现用和开源社区普遍使用的LLaMA 架构会对开发者更为友好,对于沿用LLaMA部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。
我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布Chat Model之后,我们将择期发布技术报告,Yi Open-source会尽最大努力虚心学习,持续进步。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- TechWeb一周热点汇总:华为Mate 70定档11月26日,字节跳动上调年终激励
- 四部门:深入整治“信息茧房”问题,严禁利用算法实施大数据“杀熟”
- 张朝阳对话基普乔格:跑步像经营一家企业,每个细节要做到极致
- 英伟达CEO黄仁勋香港科技大学最新演讲:机器人时代即将到来
- 蔚来法务部回应收购谣言:公安机关已立案调查
- 阅文集团与大英图书馆达成三年合作,10部网文入藏大英图书馆
- 又10部网文入藏大英图书馆,《诡秘之主》《全职高手》《庆余年》在列
- 滴滴张博卸任CTO 未来将专注自动驾驶业务
- TechWeb微晚报:苹果开发全新Siri,尊界尺寸可能超越99.99%的轿车
- 毫末智行回应裁员:正常组织调整,比例很小
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。