标题:DeepSeek引发热议:技术成本挑战与算力未来的辩论
DeepSeek的出现无疑在AI大模型领域引发了一场热议。凭借其惊人的性能表现和低成本训练模式,DeepSeek迅速吸引了全球关注,热度一直不减。然而,随之而来的,是其成本、技术以及为未来作为大模型基础设施的算力引发了争议。
首先,我们来看DeepSeek的成本问题。DeepSeek在原始报告中详细解释了这笔成本的计算:在预训练阶段,每兆个token上训练DeepSeek-V3仅需要180K H800 GPU小时,也就是说,在拥有2048个H800 GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,耗费2664K GPU小时。加上上下文长度扩充所需的119K GPU小时和后制训练所需的5K GPU小时,DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。然而,知名的SemiAnalysis发布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的报告中指出,DeepSeek论文中提到的600万美元成本仅指预训练运行的GPU成本,这只是模型总成本的一小部分。他们在硬件上的花费远高于这个数字。例如,为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和GPU计算时间。例如DeepSeek的关键创新—多头潜在注意力机制(Multi-Head Latent Attention),就耗费了数月时间。这一点也得到了外媒的报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100 GPU,耗时26分钟就完成了训练,成功“打造”出了一个名为s1-32B的人工智能推理模型。由此可见,DeepSeek的成本并非如一些观点所认为的那样低廉。
接下来是技术问题。关于DeepSeek是否使用了蒸馏技术,这是目前争议的另一个焦点。最先提出质疑的是OpenAI和微软,他们向媒体证实,已掌握疑似DeepSeek通过“蒸馏”(distillation)技术,利用OpenAI专有模型来训练其AI大模型。尽管蒸馏是一项常见的技术手段,能够将OpenAI中的大量数据迅速提炼重点并快速理解和应用,但这种模式只能让DeepSeek接近OpenAI,而难以真正超越OpenAI。这一点也得到了蔡恒进教授的观点支持。他认为DeepSeek在生成模型的成本在报告中已经写的很清晰了,过于纠结前期的投入,有多少实际成本是不重要的,特别是对于国内产业成本很低的情况下,前期做研究的成本也会比美国低很多。此外,蒸馏业内通行做法,是非公婆各有理。
最后是算力问题。基于我们前述成本的优势,有业内观点认为DeepSeek的出现打破了英伟达等科技巨头“堆积算力”的路径。也就是说,美国AI巨头们认定的那个靠钱、靠更高算力芯片才能堆出来的更好的模型,不需要那么高昂的门槛了。然而蔡恒进教授对此持有不同观点。他认为DeepSeek的发展走出了另一条路,即不一定要提升很高的参数规模就能实现很高的性能,可能对算力需求至少降到10倍以上。“堆算力”本身没有错,但随着Deepseek的出现我们会发现这条路的性价比不高。DeepSeek-V3极低的训练成本预示着AI大模型对算力投入的需求将大幅下降。然而也有观点认为DeepSeek表现固然优秀,但其统计口径只计算了预训练,数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。
回顾这场热议,我们不禁要问:DeepSeek引发热议究竟是技术的胜利还是成本的挑战?是算力的未来还是技术的瓶颈?这一切都取决于我们如何看待和理解DeepSeek。我们不能忽视的是DeepSeek在技术上的创新和突破,也不能低估其对于未来AI发展的影响。与此同时,我们也应看到其面临的成本和技术挑战,以及对于算力需求的潜在变化。这些变化将如何影响未来的AI发展?让我们拭目以待。毕竟,“让子弹再飞一会”吧!
- 未来驾驶:2023年起,无智驾技术车辆将失去市场竞争力
- 360大佬周鸿祎送车活动掀起热潮:首月送出20辆小鹏汽车,月底再送20辆!
- iPhone SE 4下周发布,周鸿祎直播送车遭遇尴尬,科技圈晚间速递
- 台积电豪赌新产能:砸巨资扩产背后,新厂计划待确认揭秘
- 元宵送车直播尴尬:连拨两次电话,大奖错失良机?
- 中国汽车进口量连续四年下滑,2024年降幅达11.7%:市场拐点还是趋势逆转?
- 日产本田合并谈判破裂:自尊心成绊脚石,车企竞争白热化
- 宝马研发主管:固态电池路漫漫,提升整车效率成新焦点
- 英特尔发布安全报告:AMD、英伟达固件漏洞数惊人,AMD竟是4.4倍差距,英伟达GPU安全问题激增80%引关注
- 马斯克收购OpenAI引争议:奥尔特曼质疑收购意图或为拖延公司发展
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。