编者按:政府要服务社会公共产业,适合建“综合医院”;企业要服务自身专项需求,适合建“专科医院”。
随着数字经济进入新发展阶段,算力已成为核心资源之一。据有关资料统计,我国各类算力中心总量超过46万个,总面积逾1000万平米,且未来将保持一定概率的增长。
然而,尽管算力这个词在近年来很“火”,但其背后的含义,却很少有人真正了解。“算力”受到关注,但背后的技术领域依然小众、认知门槛高,“如果连算力概念都不了解,那么企业、政府在规划算力中心时难免吃大亏,甚至出大事。”
基于这个问题,AI科技评论与某超算中心主任进行了访谈,在本文中讨论了算力中心建设的要点,并分析该如何正确理解算力,以及厘清该领域经常被误会的地方。
1、对立统一
算力中心有多种,大致可分为数据中心、超算中心、智算中心等,而它们都可以用云的形式来提供服务。
其中数据中心在互联网企业中常用到,用于处理数据密集、通讯密集的事务性任务,比如手机app应用的后台数据数理。超算中心更偏重于科学计算等计算密集型的任务。最后,智算中心则应用于特定的大规模AI任务。
超算和智算之间更容易被混淆,但要区分它们其实也很简单,“我们可以把超算看成综合医院,把智算看成专科医院。”综合医院、专科医院都有其存在的价值,并在动态意义上可以互相转化,由此也暗示超算和智算的对立统一关系。
对立
“很多媒体对算力中心存在许多误解,甚至都算不上是误解,很多时候连基本概念都没有搞清楚。”
近期,某人工智能计算中心宣布建成投运,不少媒体报道指出该智算中心的算力规模达到1000P,“AI算力峰值性能相当于5万台高性能计算机。”
专家表示,媒体这种说法并不专业,就像说飞机飞的比100座山还高。“一座山的高度可能是100米,可能是8848米。一台高性能计算机,可能有10个节点,也可能有10000个节点。”
另外,人们可能会认为,该智能计算中心的算力已经超越了曾获得超算TOP500榜单第一的富岳(537PFLOPS)。
但实际上,超算采用“FLOPS”即每秒浮点运算数为算力单位,而智能计算的算力单位一般会采用“OPS”即每秒操作次数为算力单位,两者是完全不同的度量单位。
此外,智能计算的性能结果(单位OPS)通常是基于半精度及整型运算测试(AI基准)得到的,超算的性能结果(单位FLOPS)则是基于双精度、单精度浮点运算测试(Linpack)得到的。
对于超算和智算之间性能的比较,专家持比较严苛的观点,其表示1000POPS性能可能相当于0 PFLOPS,“这里面涉及到能与不能的问题。具体还要看运算精度,而运算精度最终是影响到可执行的任务类型的。就好比,我们不能说十个牙科诊所相当于一个综合医院。”
计算机的精度类型包括双精度、单精度、半精度以及整数类型等,随着精度减小,其表示的数值范围依次大幅度降低,同时对应硬件能胜任的任务也越来越聚焦到特定领域。
注释:【100P双精度性能超算】和【1000P半精度浮点性能智算】执行任务对比
注释:不同精度可执行任务对比
“在AI推理、AI训练、模拟这个维度上,芯片的应用上限由其底层构造所决定,即使采用软件优化也无法再往上提升。”
此外,有些厂商还会模糊智能计算机的推理性能和训练性能,或者在同为FLOPS单位的情况下,掩盖运算精度细节。“比如近期被媒体广泛宣传的声称达到超算TOP500第五的国外超级计算机,其实更接近于智能计算机,它的性能数值其实也是基于低精度运算得到的。”
统一
由于精度上的限制,使得智能计算机受限为专用算力,一般仅支持单个场景,而无法提供平台性的服务。比如安防领域拥有海量视频,智算中心可以只做一个任务即视频处理,并且做10年乃至20年,它都能表现的很好。“但是,让智算中心去跑需要运行数万不同类型软件的任务,那就是勉为其难了。”
因此,智算中心并不适用于公共服务型的算力中心,而更适用于企业。
超级计算机则是一种通用算力,更加擅长高精度计算,可胜任行星模拟、新材料开发、分子药物设计、基因分析等科学计算任务,以及能源、气象、工程仿真、生物基因、智慧城市等。
当然,超算的胜任任务还包括人工智能,我们可以深入到芯片层面来比较。如果底层芯片采用的是CPU+GPU,那么其既能打造成超算,也可以打造成智算。因为GPU既能做双精度运算,从而通用性很好,可用于科学计算,也可用于AI的模拟、训练、推理。
而如果底层芯片采用的是CPU+专用芯片比如AI芯片,那么其只能打造成智算。因为AI芯片无法做双精度浮点运算,双精度浮点运算大量涉及线性代数方程求解,“自然界的很多问题,包括科学问题、社会问题等,最后都可转化为线性代数方程求解问题。”
尽管总存在某一方向主导的局面,但专家认为,我们仍然应该两者兼顾,不能厚此薄彼。
超算和智算并不是互相排斥的存在,而是对立而统一的关系。也就是说,超算和智算应该作为两条路线分别发展,并在整体上协同,基于不同应用、服务对象建立不同的算力中心。超算相对更适合用于公共算力服务,智算更适合服务定向企业。
2降本增效
明确了算力中心多样性的整体布局理念之后,接下来要考虑的,自然是在每一条路线上发挥最大效用,即降本增效——提升算力中心的有效性。从方法论上,可以简单总结为“花更少的钱,做更多的事。”
降本
造价越高的算力中心,不代表性能同等地提高。以粤港澳大湾区的两家算力约等的计算中心项目为例,项目A的整体算力为1170POPS,造价约为5亿元;而使用同等精度芯片的项目B整体算力为2000POPS,性能略超前者,造价却达到了惊人的近30亿元。换算下来,两者每亿元算力分别为234POPS、66.7POPS,相差350%。
也就是说,不同的算力中心在性价比上可能差别特别大。算力中心由于市场化不足,政府获得的信息不对称,使得造价不透明,一定程度造成了公共财政资源的浪费。
此外,将性能和任务相匹配,即“因地制宜”,仍然是最省钱的方式。除了上述提到了智算更专用,超算更通用以外,反过来看,不同行业适合的算力中心类型也是不同的,主要基于两个维度,即通用和性能。
比如618、双11等购物节涉及的任务类型非常多,更适合用数据中心来处理;而像气候模拟、药物筛选等定义相对单一的任务则涉及大量的高精度计算,则必须用超级计算机来处理;在互联网大数据、人工智能应用场景下,超级计算机和智能计算机均能胜任。
智能计算机确实在向前发展,但专家再次强调,智能计算机所谓速度和能耗上的优势只是理论上的,而在实际应用中,智能计算机的表现不一定比超级计算机好。这背后的原因,即是“生态”——如何做更多的事。
增效
“由于专用芯片的市场占有率低,生态支持上不如通用芯片那么完善,因此其在实际运行中往往在性能、速度、功耗上不一定能超越通用芯片。智算当前面临的一大困难是生态建设,普及程度还很差。”
专家主要强调的是理论和实践的差距,而媒体宣传中可能瞄准的是另一些层面。生态一般更注重通用性和平台性层面,但最好不要笼统地对任何一种计算类型谈论生态,因为所谓通用性和平台性也是相对的。
“如今很多媒体经常说出诸如‘智算中心生态不行’的话语,这种表述既对,也不对。首先智能计算确实支持的应用很少,因此说它‘生态不行’是可以的。虽然智能计算只能用于特定AI应用,但如果在个别应用上达到一定的通用性,也能构成一种小生态。”
3求同存异
回顾历史,计算机的发展主要遵循两条路线,即专用和通用,并且这两个趋势经常交替出现。“在某一个时刻,我们可能更追求计算机的多任务即通用性能,直到碰到瓶颈,然后我们就会开始转向另一个方向,即牺牲一定的多样性,而追求某一专项任务的高性能。性能强、效率高、应用广泛(通用)一直是超级计算机的追求,而专用芯片也在不断地尝试拓宽自己的能力边界。”
因此,尽管智算的发展目前尚属幼稚,但正如超算就像综合医院、智算就像专科医院,“超算、智算两者各有其适用的领域,应该求同存异。”
近年来算力这个词不断地被大众所提及,在新基建的大背景下,这体现了社会对算力的真实需求。
“但是,对于从业人员而言,最重要的还是脚踏实地、一步一步地把基础性工作做好,让算力真正成为竞争力和生产力。”
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )