曾几何时,UDC水下数据中心,就像《流浪地球2》泡在水里的根服务器,是一个只存在于科幻电影、猎奇新闻中,或者是海外顶尖科研机构用来“炫技”的“黑科技”。
如今,UDC已经来到了我们身边,并且正在加速。
今年7月我去2024世界人工智能大会,在一家中国计算厂商的展台“C位”,看到了一台泡在水中、正在运行的电脑。
原来,该企业研发的特殊液体,能够与电路板兼容,而且不会腐化电路。依托相关材料打造的液冷服务器,可以抵御电子元器件的天敌——“水”,让水下数据中心成为可能。
据现场工作人员透露,目前该企业已经与苏州达成合作,正在湖中部署水下数据中心。一是可以作为当地“新质生产力”的标杆项目,展现在智能计算方面的区域实力;二是有特别好的节能减排降耗效果,可以为当地一些AI企业和应用提供绿色算力。
那怎么才能用到水底的算力呢?答案是,云。
从云上获取AI算力,凭借天然的成本优势、灵活租用的弹性优势,成为AI 初创企业的首选。建设更节能、更绿色、成本更低的“云”, UDC水下数据中心也走进了云计算厂商的视野。
2014年微软首次提出了水下数据中心概念,希望为沿海人口提供高速云服务。2018 年微软正式将 855 台服务器沉到海里,与Azure 云进行对比。我国目前也有海底数据中心,核心业务就是算力服务,以及跟腾讯、阿里等云厂家的大批量直接合作,为它们提供更具成本优势的云端算力。
本文就来聊一聊,水底下的云,到底怎么把算力价格“打下来”?
“AI的尽头是电力”。大模型的参数量达到万亿级别,驱动着智算中心的组网规模向五万卡,甚至是十万卡级演进。而一个十万卡集群,可能耗尽一个城市的电量。为了供养AI大模型,全城人都不能开空调、看电视,这未免也太赛博朋克了。
不仅我们不愿意出现这种情况,其实云厂商也不愿意。有调研显示,水电费支出占到了数据中心运营成本的50%以上,而智算中心GPU的密度进一步增加,电量负荷会倍数增长,直接导致云厂商的成本激增。
为了减少电费,云厂商们可谓是想尽了办法。
有人把数据中心放到了乌兰察布、青海,有人放到了湖边(阿里巴巴千岛湖数据中心),有人放进了山洞(腾讯、华为),有人直接搬去了北极圈(Facebook Node Pole 数据中心、芬兰哈米纳港Google数据中心),还有人放到了海上(Google海上漂浮数据中心)、海底(微软Project Natick数据中心)。
万变不离其宗,就是减少依靠空调等电力设备降温的风冷,多靠自然环境中的空气或水,进行自然冷却。
而这些自然冷却方案中,水底下的云无疑是最有“减电”竞争力的。
显然,相比陆地数据中心,水下环境的复杂度更高,布线、维护更为麻烦,而且服务器本来就怕水,对水下数据中心的防水、防腐性能挑战更大,为什么还能成为一种选择?
水下数据中心的成本“第一刀”,就把自然冷却效果打到了“地板价”。
作为冷却效果最极致的解决方案,水下数据中心直接利用了水体的低温特性,比其他物质(如空气冷却、风力冷却)吸收更多热量,大幅减少了额外的冷却需求。
同时,由于水下环境本身就提供了有效的冷却,因此可以减少对空调系统的依赖和能耗。
可以说,利用水流带走热量,水下数据中心节能降耗的成本优势最为显著。
在陆地上建数据中心,自然要占用土地空间,除了土地成本之外,一些天然气温较低的寒冷内陆城市和地区,基础设施条件一般也没有沿海地区发达,比如北极圈,导致TCO总体拥有成本上升。
尤其是随着超万卡集群的到来,对陆地上的数据中心/智算中心配套设施,比如供电、承重、机房洁净度和走线架设计等提出了极高要求。
《面向超万卡集群的新型智算技术白皮书(2024年)》显示,由于超万卡集群的算力密度更高、功耗密度更高,线缆的布放量也随之增大,一个 1.8 万卡的智算集群,需要布放 10 万量级的线缆,这将对走线架的宽度和承重带来新的挑战。
可以说,陆地数据中心/智算中心的总体成本正在走高。
与之相比,水底数据中心的建设成本正在下降,二者之间的“剪刀差”越来越小。
一方面,由于湖泊、海洋的空间较大,建设方的选址范围更广,相比内陆地区,水下数据中心的土地成本更可控。
此外,水下数据中心往往采用高度集成、紧耦合、密封式数据舱,一些在陆地数据中心中是必需的设备,如冷却塔和压缩机等,在水下都不需要。设计得当的海底数据仓,故障率和运维成本更低。
2020年9月,微软将沉入海底两年的数据中心捞上来,评估发现,水下数据中心的服务器故障率,比传统数据中心更低,可靠性比陆地上的服务器高8倍。
这可能是因为,水下数据舱可以与多变的环境隔离,很少受到事故扰动。总之,广袤辽阔的水域,让无需与人类争夺土地资源的水下算力,价格“更香”了。
把服务器泡在水里,省水。这究竟是怎么一回事?
这就要提到一个指标:WUE(Water Usage Effectiveness),水资源利用效率。
很多人听说过PUE,却很少听过WUE,而想要推动环境可持续发展,实现碳中和,WUE也不得不降。
降低WUE,核心就是减少分子——输入数据中心的水量,主要由冷冻补水、冷却补水、加湿补水等生产用水组成。冷却过程中消耗的水资源越少,WUE就越高。
把数据中心泡在水里,就能减少生产用水吗?可以,而且甚至是0。
一方面,水下数据中心直接使用周围水体的低温来冷却服务器,无需蒸发散热,省去了传统数据中心中的冷却塔和冷水系统,用于冷却的水资源消耗等于0。
此外,水下数据中心冷却过程中蒸发的水分直接回到水体中,对于公共水源来说也几乎没有损失。一些干旱缺水的地区,如果利用湖泊、河流、地下水来降温,蒸发的水资源却未必能快速回到当地的水系之中,会给当地水环境带来负面影响。
2023年,美国亚利桑那州就因为担心水资源消耗问题,限制当地数据中心建设。国内,内蒙古乌兰察布市集宁区也出台了《关于禁止集宁区大数据企业使用地下水冷却降温的通知》,辖区内大数据企业一律禁止用地下水冷却降温。
而水下数据中心即使产生一些热蒸腾,也会很快被广阔的湖泊海洋而代谢掉,不会影响到当地的水循环。
水下数据中心虽然成本优势大,但AI云服务如果一味降本,可能会出现“降本增笑”的事故。
举个例子,西部数据中心的存算成本比东部更低,但一些东部企业考虑到传输时延、丢包率、业务可靠性等,宁肯多承担50%的成本,也要把数据放在东部,尤其是自动驾驶等对数据实时性要求较高的业务。这也是很多西部数据中心,上架率不高的重要原因。
水下数据中心的商业化困境在于,虽然价格低,但与AI需求没有充分适配,而AI又被云厂商看作是当下最关键的新增收入点。
水下的资源扩展性受限。云服务需要根据用户需求快速扩展资源,增加算力规模、存储空间,而水下数据舱的出厂、下水都有一定的时间周期(微软官网显示,Natick从工厂到运行要90天),而目前陆地上的智算中心,采用模块化建设只需一个月左右就能落成,能更快满足AI算力需求。
目前,微软也宣布暂停了Natick项目,据说要在后期加强安装、维修机器人等方面的研究,看来远离人类活动的水下环境,仍不适合大规模部署数据中心。
另外,对水下算力的纳管和管理,也给云厂商提出了挑战。目前水下算力的占比还比较小,云厂商要整合和管理这些异构资源,确保不同来源的算力可以无缝集成,实现最佳性能,并让用户便捷简单地使用这些资源,需要投入大量的资源进行技术和系统、平台的研发。
一些积累不够深厚的中小型云厂商,可能出现“酱油(管理平台)比鸡(算力)贵”的情况,并不能靠成本优势来提升综合竞争力。
徐志摩曾在《偶然》诗中写道:“我是天空中的一片云,偶尔投影在你的波心。”目前来看,AI云服务和水下数据中心,恐怕还无法长相厮守、成为彼此的唯一。
2024年5月,Natick项目第二期已经开始,反映出微软对云数据中心解决方案的持续追求,也让“水下数据中心”成为中国不能落后太远的一条赛道,更适合作为科技自立、科技强国的一张名片,与国资云、央国企云、科研云一同试点探索。
而商业化属性更强的云服务商,仍需要聚焦在陆地上。幸好中国地形地貌丰富、基础设施完善,有广阔天地来探索“极致性价比”。
从这个角度说,算力,从来不是一家计算企业或一个行业的事,而是一个举世参与的系统工程。算力即国力的时代,才刚刚开始。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。