智算中心“火了”,但为什么火了起来?

撰文 | 李里里

编辑 | 李信马

题图 | IC Photo

“算力”相关产业近期持续火爆,智算中心的建设,也正在遍地开花。

据《全球计算力指数评估报告》显示,全球算力排名美国和中国分列前两位,同处于领跑者的位置,而在代表先进产业的 AI 算力上,中国以 AI 服务器指出规模同比增长 44.% 的增幅超过美国,位列全球第一。

据中国信息通信研究院测算,截至2021年底,中国算力核心产业规模超过1.5万亿元,关联产业规模超过8万亿元。其中,云计算市场规模超过3000亿元,互联网数据中心(服务器)市场规模超过1500亿元,AI 核心产业规模超过4000亿元。

智算中心,简单来说就是专门服务于人工智能的数据计算中心,能够为人工智能计算提供所需的专用算力。随着智能推荐、自动驾驶、智能制造等领域发展迅速,超大规模人工智能(AI)模型对算力的需求不断提高,智算中心的建设也纷纷被提上日程。

7月30日,在中国首届算力大会上,工业和信息化部副部长张云明表示:“算力已经成为继热力、电力之后新的关键生产力。”据不完全统计,从2021年1月1日到2022年2月15日,全国共有至少26个城市在推动或刚刚完成当地智算中心的建设,其中投入使用的有8个,包括南京、合肥等地的智算中心。除了这些投入使用的,全国至少还有18个城市签约、开工、招标、计划建设智算中心项目,包括深圳、长沙的项目都已经开工建设。

8月30日,阿里云宣布正式启动张北超级智算中心,其建设规模为12 EFLOPS(每秒1200亿亿次浮点运算)AI算力,可以为AI大模型训练、自动驾驶、空间地理等人工智能探索应用提供强大的智能算力服务。智算中心用来满足AI计算需求,张北超级智算中心投入使用后,其算力规模超过了谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球最大的智算中心。

阿里云同步宣布了将启动另一座位于乌兰察布的智算中心,建设规模为3 EFLOPS(每秒300亿亿次浮点运算)AI算力。2020年,中国工程院院士、浪潮集团执行总裁王恩东就曾提出,智算中心正在成为经济社会运行的重要基础设施,而如今,这一预测已然成为现实。

为什么要发展智算中心?

在8月30日的发布会上,阿里云智能全球销售总裁蔡英华谈到了近年来的两个观察:第一,是数字化转型带来了大量的数据,有机构预测2025年中国的数据量将达到48.6ZB,这驱动着我国算力基础设施升级;第二,除了算力供给的总量在提升,算力供给的结构也在发生变化,十三五期间,我国算力总规模增长近5倍,其中通用算力增长接近3倍,但智能算力的增长接近百倍,智能算力在融合算力中的占比达到了40%,未来可能会更多。

据中国信通院数据统计,2016年至2021年,我国数字经济规模从22.6万亿元增至45.5万亿元,增长1.01倍,总量稳居世界第二,占GDP的比重39.8%。2021年全年,我国数据产量达到6.6ZB(1ZB约等于1万亿GB),占全球数据总产量(67ZB)的9.9%,仅次于美国而位列全球第二;且近三年来,数据产量保持每年30%左右的增速。

根据IDC、清华大学和浪潮信息联合发布的《2021-2022全球计算力指数评估报告》,国家的算力指数每提高1个百分点,数字经济和GDP将分别增长3.3‰和1.8‰。国家工业信息安全发展研究中心此前发布的《新一代人工智能算力基础设施发展研究报告》认为,现阶段人工智能已经成为世界各国竞争角逐的焦点。智算中心作为人工智能产业发展的重要底层基础设施形态,每单位功耗所能产生的计算的能力、智能的能力,远远高于传统的算力中心,也因此被推向发展新高地。

目前我国的智算中心基本采用了高标准建设,算力高的像张北超级智算中心,少的也有100P,比如哈尔滨和郑州的智算中心(1P相当于每秒运算能力为一千万亿次,100P大约相当于5万台高性能电脑的算力)。

“我们看到AI,或者说以数据为核心的AI场景智能化应用的使用趋势在增加。”阿里云智能副总裁、行业解决方案销售部总经理霍嘉表示,智算中心的价值,本质上来自于人工智能丰富的应用场景。智能计算和通用计算的区别,在于通用计算主要面向传统的计算处理任务,或者离线大数据的计算,而智能计算可以满足许多领域对人工智能、机器学习、 学习的新需求,比如科研、 自动驾驶、生物制药、智能制造、数字孪生、空间治理等一系列的场景,“可能很多时候大家没有意识到在使用智能化的服务,其实打开高德导航的时候,背后全部是数据智能化应用,比如随时提醒你改变一条道路。”

相比传统数据中心,智算中心能满足更具针对性的需求,以及更大的计算体量和更快的计算速度。从硬件上来看,传统数据中心多采用通用计算的CPU,而智算中心中更多的是GPU等进行人工智能训练的芯片;软件上,智算中心会部署不同的人工智能框架,用于分配计算任务提高效率,并且提供了人工智能应用开发工具。

比如张北超级智算中心由飞天智算平台支撑建设,据阿里云表示,其算力效率的核心指标“千卡并行计算效率”由传统架构的40%提升至90%,算力资源利用率提高到3倍以上,AI训练效率提升了11倍,推理效率提升了6倍。蔡英华表示,智算不仅在于规模大,没有体系化的核心技术能力,堆硬件是堆不出算力的,更无法带来实际的产业价值。

在阿里巴巴内部,飞天智算平台支撑了达摩院前沿AI和电商智能技术的发展,并服务了小鹏汽车、深势科技、上汽集团、中国气象局、南方电网等机构和企业。其中,达摩院大模型M6仅使用512张GPU,在10天内就完成了10万亿参数模型训练,阿里巴巴拍立淘训练速度提升了200倍,10亿张图片全量训练时间从2.5个月缩短到8小时;小鹏汽车在乌兰察布建设智算中心“扶摇”,算力规模达600PFLOPS,是国内最大的自动驾驶智算中心,将自动驾驶模型训练提速近170倍;深势科技将集群性能优化提升超过100%,让分子动力学仿真模拟训练效率提升了5倍。

今年8月初,浪潮信息总裁彭震曾表示:“根据全球服务器出货量估算,从2020年到2025年全球算力规模将提高30倍,用于 学习的人工智能算力规模每隔三四个月就翻一番。数字化、智慧化时代对于算力的需求几乎是无穷尽的。”

这也意味着,智算中心的纷纷落地还在前期阶段,未来仍有增长空间。

要高效,也要绿色

不过,智算中心的建设并没有那么容易。

智能计算不同于通用型计算,需要海量数据对AI模式进行训练,算力被损耗在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有40%左右。传统智算中心达到一定规模之后,增加算力资源反而会降低算力输出的能力。这导致了智能算力成本高昂,制约了产业发展。

在张北和乌兰察布的两座超级智算中心,阿里云通过体系化的核心技术自研,改变了智能计算的损耗难题。据了解,基于阿里云磐久基础设施的融合算力和大数据AI一体化平台整体解决方案,可以实现“一云多芯”,以最高10倍IO优化和5倍通信性能优化,实现90%的千卡并行计算效率。其中在通信技术上,阿里云自研了Solar-RDMA网络,实现端对端最低2微秒延迟,并配合了自研的无阻塞通信技术。此外在AI开发层,大数据+AI一体化平台在模型训练环节,提供分布式训练框架,可以将训练效率提升了11倍以上。一站式的通用推理优化工具可将推理效率提升6倍以上。

计算效率之外,另一个重要的问题是能耗,由于在数字化的过程中,算力会使用巨量的电力,如何在双碳背景下降低能耗,近期被反复提及。在9月13日的《零碳制造论坛》上,国家信息中心信息化和产业发展部主任单志广表示:“其实,数字技术本身并不是完全绿色化的,现在ICT的碳排放占比为2.3%左右,虽然碳排放总量不高,但增速非常快,据相关机构数据表明,其速度超过60%,到2040年总量会达到14%,超过现在排第三的建筑业。此外,2021年我国数据中心的整个用电量也达到了2160多亿度,比2020年增加了44%,整个数据中心占了整个数字产业30%多的碳排放。所以降碳的需求也是非常大的。”

据工信部发布的《新型数据中心发展三年行动计划(2021-2023年)》等政策,算力设施的建设方针和能耗管理逐渐趋于严格,如2023年新建大型及以上数据中心电能利用率(PUE)将被要求降到1.3以下。

阿里云大计算产品研发负责人曹政也对此表示:“在建设智数中心时,首先从IDC角度,你要有非常绿色的能耗,能降低成本,保证绿色发展。”据了解,通过自然风冷、液冷等绿色技术的应用,阿里云让智算中心的能耗持续降低,PUE最低可达1.09。

“我们在液冷领域应该已经有了六七年的研发,现在液冷我们与其他家不太一样的是,可以根据不同类型的服务器架构做自适应,现在我们单芯片功耗越来越高了,AI的加速芯片密度和热量达到一定程度没法扩展,这种情况下,不上液冷是不可能持续的,这是很现实的技术的要求。” 曹政表示。

智算中心在张北和乌兰察布的落地,也与两地得天独厚的气候与地质离不开关系。不过,阿里云智能副总裁、行业解决方案销售部总经理霍嘉透露:“我们今天的数据中心建设,不是只在北方,在上海也已经启动了华东智算中心的建设,随着产业的发展,会有更多的智算中心,不单在中国,可能是在全球的很多地方都会有。其实现在也有一些客户在跟我们沟通一些海外,帮他们做智算中心的一些事情。

当前发展数字经济是国家战略,政策支持力度不断加大,“东数西算”全面铺开,云计算、数据中心等基建投资不断加码。据IDC预测,2025年中国AI算力市场规模将达到701.8亿元,占整体服务器市场近三成。彭震曾表示,智算中心的建设会围绕开放标准、集约高效、普适普惠三个原则,未来发展主要有三个趋势:更加开放多元的架构与标准体系;通过算力、算法的基建化和一体化,让服务更加的高效;建立智算生态,让智算中心更好用。

工信部副部长张云明也表示,下一步工信部将要加速推进高端芯片、核心算法等算力关键核心技术的研发突破,攻克关键技术,支持企业、科研机构开展联合攻关,增强算力产业链、供应链自主可控能力,并在绿色低碳发展等方面发力。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2022-09-26
智算中心“火了”,但为什么火了起来?
最大不止于“大”

长按扫码 阅读全文

Baidu
map