阿里云刘伟光：大幅降低大模型推理价格，加速AI应用爆发

5月21日消息（九九）业界普遍认为，随着大模型性能逐渐提升，AI应用创新正进入密集探索期，但推理成本过高依然是制约大模型规模化应用的关键因素。

在今天举行的阿里云（武汉）AI智领者峰会上，阿里云智能集团资深副总裁、公共云事业部总裁刘伟光抛出重磅炸弹：通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。

刘伟光表示：“作为中国第一大云计算公司，阿里云这次大幅降低大模型推理价格，就是希望加速AI应用的爆发。我们预计未来大模型API的调用量会有成千上万倍的增长。”

降价涉及9款商业化及开源系列模型

Qwen-Long是通义千问的长文本增强版模型，性能对标GPT-4，上下文长度最高达1千万tokens。0.0005元/千tokens的价格约为GPT-4价格的1/400，击穿全球底价。

除了输入价格降大幅降低，Qwen-Long输出价格也直降90%至0.002元/千tokens。相比之下，国内外厂商GPT-4、Gemini1.5 Pro、Claude 3 Sonnet及Ernie-4.0每千tokens输入价格分别为0.22元、0.025元、0.022元及0.12元，均远高于Qwen-long。

通义千问本次降价共覆盖9款商业化及开源系列模型。不久前发布的通义千问旗舰款大模型Qwen-Max，API输入价格降至0.04元/千tokens，降幅达67％。Qwen-Max是目前业界表现最好的中文大模型，在权威基准OpenCompass上性能追平GPT-4-Turbo，并在大模型竞技场Chatbot Arena中跻身全球前15。

公共云+API将成为企业使用大模型的主流方式

刘伟光认为，不管是开源模型还是商业化模型，公共云+API将成为企业使用大模型的主流方式，主要有三点原因：

一是公共云的技术红利和规模效应，带来巨大的成本和性能优势。阿里云可以从模型自身和AI基础设施两个层面不断优化，追求极致的推理成本和性能。阿里云基于自研的异构芯片互联、高性能网络HPN7.0、高性能存储CPFS、人工智能平台PAI等核心技术和产品，构建了极致弹性的AI算力调度系统，结合百炼分布式推理加速引擎，大幅压缩了模型推理成本，并加快模型推理速度。

即便是同样的开源模型，在公共云上的调用价格也远远低于私有化部署。以使用Qwen-72B开源模型、每月1亿tokens用量为例，在阿里云百炼上直接调用API每月仅需600元，私有化部署的成本平均每月超1万元。

二是云上更方便进行多模型调用，并提供企业级的数据安全保障。阿里云可以为每个企业提供专属VPC环境，做到计算隔离、存储隔离、网络隔离、数据加密，充分保障数据安全。目前，阿里云已主导或参与10多项大模型安全相关国际国内技术标准的制定。

三是云厂商天然的开放性，能为开发者提供最丰富的模型和工具链。阿里云百炼平台上汇聚通义、百川、ChatGLM、Llama系列等上百款国内外优质模型，内置大模型定制与应用开发工具链，开发者可以便捷地测试比较不同模型，开发专属大模型，并轻松搭建RAG等应用。从选模型、调模型、搭应用到对外服务，一站式搞定。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

阿里云刘伟光：大幅降低大模型推理价格，加速AI应用爆发

下一篇