百度之于阳泉,也许就像亚马逊之于西雅图。在阳泉云计算中心,我管窥到了中国步入ABC时代的宏大远景。
文/陈纪英
茨威格说,“世间一切伟大的壮举总是默默完成的,世间一切智者总是深谋远略的。”
那些闪耀的群星,往往深藏功名——支持全球208亿次互动、每分钟峰值高达10亿次的春晚红包活动不宕机的算力功臣、亚洲单体规模最大的数据中心,潜伏在山西小城阳泉。
当云计算与大数据、人工智能汇合,世界就发生了翻天覆地的智变:流水线上的质检女工因为AI质检机获得了解放,被智能安防追踪的罪犯再也逃不出恢恢法网;一条重新清澈起来的河流,一片被绿植再次覆盖的荒漠;自动驾驶汽车开始自由奔驰,拥堵的道路变得通畅无阻;高清视频不再卡顿,人脸识别开始普及;等等。
01
春晚不宕机和30万座图书馆
从阳泉上空往下俯瞰,会看到一片形似熊掌的楼群,这就是百度阳泉云计算中心。
在这座以深邃的煤层和苍凉的高原为底色的山西小城,一座亚洲单体规模最大、技术最先进的数据中心潜伏七年,多少有点类似扫地僧一般的荒诞感,就连阳泉本地人,往往也很难知晓它的价值和能量。
7亿百度APP用户每一次搜索,百度地图的每一次导航,小度音箱与主人的每次互动,由Apollo系统驱动的自动驾驶汽车的每一次转弯,可能都与阳泉云计算中心息息相关。
百度阳泉云计算中心,也在支持百度智能云对内对外提供覆盖内容、能源、金融、工业等领域的外部服务等等。在二手车领域,帮助优信实现了在线VR看车,让二手车的全国购落地;在金融领域,联手农业银行打造的农行金融大脑,成为业内智能金融的探索典范;在旅游领域,帮助携程率先实现在线旅游市场的智能化升级;在短视频领域,助力百度旗下好看视频提升运营效率,降低成本,依托AI能力赋能作者,实现火箭速度的高增长;等等。
在常态服务之外,如同惊涛骇浪一般的百度春晚红包活动,则是阳泉云计算中心的高光时刻。
今年春节,百度APP的全球观众互动次数达到208亿次,春晚数据流量为每秒峰值5000万次,每分钟峰值10亿次——互联网巨头都曾先后冠名春晚红包活动,但唯一不宕机的,只有百度。
这当然要依赖于人力:阳泉云计算中心的百度员工们,几乎全部值守;贵州籍高工黄同学,退掉了提前一个月抢来的机票;暖通高工李同学,离家只有三公里,但除夕和初一连续加班30多个小时,不入家门;20多家供应商的代表也在春节期间,从全国各地汇集阳泉,等等。
更依赖的是技术和规模。“百度成为扛住春晚流量的第一家互联网公司。看似偶然,其实是必然,背后依靠的其实就是百度深厚的技术底蕴,强大的技术硬核以及高效的工程能力。”百度系统部总监张炳华说。
百度系统部总监张炳华
第一,在规模上。
作为百度自建的第一个超大规模数据中心项目,阳泉云计算中心规划建筑面积超过20万平米,服务器装机能力超过28万台。
现已建成投产12万平方米,上线服务器超过15万台,有超过300万个CPU核,存储容量超过了6EB,可存储的信息量相当于30多万个中国国家图书馆的藏书总量——后者是亚洲最大、全球第三的图书馆。
这15万台服务器,通过大带宽、低时延、无损网络,连接成为一个一键运行、智能控制、远程操控的超级计算机。
AI 计算集群
第二,在速度上。
全球观众一块抢红包时,如何保证同步进行,一致体验?
在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过30ms(毫秒),从POP点覆盖用户的时延不超过10ms,从CDN覆盖用户的时延不超过2ms,确保用户全面覆盖和就近接入。
第三,在技术上。
作为数据中心的操盘手,张炳华很笃定也很自信,“阳泉云计算中心在国内是最大的,在全球也是领先的”。
在支持整机柜服务器的设计上,阳泉云计算中心领先了行业五六年。
行业内的惯常做法是架空地板下送风,其短板在于,服务器送到之后,需要现场一台一台上架安装,交付速度慢。但阳泉云计算中心早在2012年设计时,就全部按照整机柜交付模式设计,从卸货平台、走廊、电梯到机房全程实现无障碍交付设计。整机柜的交付效率,相比传统做法提升了20倍,春晚项目中,北京顺义机房创造了8小时安装1万台服务器的世界纪录。
而百度自主研发的“冰山”冷存储服务器,作为百度自研的高密度存储技术,实现单U18个大盘的存储密度,在业界单U存储密度最高——这是百度网盘实现大规模高速存储的基础。
而以X战警命名的X-MAN 组成的AI超级计算平台,理论算力比肩IBM研发的全球最强超算Summit——一台X-MAN服务器的计算性能,相当于几百台通用CPU服务器的算力。2016年X-MAN1.0发布以来,经历了3次架构升级,创造6项业界第一。
X-MAN构建的百度超级AI计算平台,是百度AI业务不断进化和领先的基石,如搜索、语音、图像、自然语言翻译、无人驾驶等AI场景的训练、加速、提升等等,预测准确率及训练耗时成倍级优化,图像搜索线性加速比倍级增长。
基于上述优势组成的金三角,百度才能扛出春晚红包数据带来的海啸一般的强大冲击。
春晚红包的荣耀已经结束,结束就是新的开始,春晚的新纪录,未来也不过是明天的新常态。
某种程度上,云计算中心的迭代,与信息时代向AI时代的进化同频共振,阳泉云计算中心,就是百度AI的基石。
以最普遍的图像识别为例,如何在几百上千种水果中识别出一个苹果?这背后需要基于算力,用人工智能 神经网络进行持续训练20万次,AI就能精准识别出“苹果”。
正如百度智能云产业智能化业务负责人李硕所说,“有了百度阳泉等数据中心超大规模的计算能力,不断降低的存储成本,加上人工智能的算法和行业的知识,这三者共同促进了人工智能的变革。”
百度智能云产业智能化业务负责人李硕
02
1.09的PUE和没有空调的机房
作为开国煤都的阳泉,2018年空气质量全国倒数第五——脆弱的生态面前,阳泉云计算中心必须绿色环保,衡量这一指标的关键标准就是PUE。
这个拗口的词汇意为电力使用效率,即数据中心总能耗与IT能耗之比,PUE值越接近于1,表示效率越高。
2018年,百度阳泉云计算中心年均PUE突破了1.10,达到1.09,能源效率国内第一,比全国数据中心平均1.73的水平,提升了88%,达到国际领先水平。
这意味着该数据中心每年节省电量可达2.5亿度,相当于13万户居民一年的用电量,加上利用的风能、太阳能,每年可减少二氧化碳减排约30万吨,相当于1600万棵树一年的二氧化碳吸收量。
而从成本维度来看,电能消耗在云计算中心的运营成本中,占比高达六七成,更高的能效,更低的耗电,也意味着成本可持续的大幅下降。
阳泉中心是怎么做到的?
如果你走进阳泉云计算中心,你会发现,它不太像互联网企业的基地,更像实体企业,穿着海蓝色工服的工程师穿梭其中,他们和智能调度中心,以及高性能服务器人机耦合,在保证安全、稳定、性能的基础上,不断把PUE值逼近1。
日夜不停运转的服务器,会产生大量热量——进入机房,一股热浪就会扑面而来,传统数据中心,通常依靠空调进行散热。
但你能想到吗,在阳泉云计算中心的机房,全年大部分时间几乎不用开冷水机组,而是利用室外冷源进行免费冷却。
- 由百度自主研发的AHU(Air Handle Unit)风墙冷却技术,全年绝大部分时间可以直接通过引进室外新风,进行风侧免费冷却。
- 百度自研的“蜂巢”预制模块,构建了真正意义上的零功耗空调末端,可以充分利用室外自然冷源进行免费冷却,通过提高整机柜服务器的送回风温度,进一步延长免费冷却时间,再加上仿真分析进行气流优化,可以实现机房内无热区、无死角。
- 基于不断迭代的设计,阳泉云计算中心全年超过96%时间实现自然冷却,每年可节约用电4730万度,比传统精密空调地板下送风的空调末端能耗降低90%。
- 这并非终点,百度2017年上线的X-MAN 2.0,作为国内首个采用液体冷却技术的GPU解决方案,规模应用后,可以全面实现无冷机运行——有趣的是,Google 2018年Q2发布的TPU3.0,也采用了相似技术。
- 除了硬件和设计创新外,阳泉云计算中心的超低能耗,还依赖于智能散热控制系统——提前30分钟预测室外湿球温度、IT负荷、设备性能等参数,自动输出当前情况下最佳系统运行策略,精确控制冷机、水泵等的开机台数和运行频率,实现制冷量与热负载的动态平衡,节省空调系统能耗,准确率达到99.3%。
对于一个数据中心来说,安全永远是第一位的,阳泉云计算中心的故障预警与定位系统,可以提前故障预判(硬盘、水泵),快速精准定位,缩短故障维修时间(比如网络,故障处理时间由30min减少到5min),而可自动迭代的故障预测系统,支持硬盘故障预测,准确率超过98%。
当然,尽管系统稳定,但为了确保万无一失,“N+1”的容灾备灾机制仍然必要,“你关掉任何一个数据中心,用户端都不会受影响”,李硕说。
由于系统运转良好,除了春晚等特殊活动,数据中心技术人员几乎很少加班,“截至4月8日,阳泉云计算中心已经安全运行了1744天。”
智能控制系统,还大幅降低了人力成本,未来,阳泉中心的服务器将提升到28万台,但人员编制不会增加,硕大的园区里,除了保洁保安等物业人员外,专业工程师和7*24值班工程师一共只有几十人。
负责运维管理和招聘的林经理开玩笑说,“我们这里的人很值钱,人均管理几亿资产”。
03
从煤都到AI之城
当算力成为AI时代的水电煤后,阳泉这所位于黄土高原东部边缘的煤都,也被反哺而“智变”。
阳泉云计算中心有三成员工来自阳泉本地,还有另外三成来自山西其他区域。
林经理还记得,2012年阳泉云计算中心筹建时,数据中心人才奇缺,“不论是阳泉、还是整个山西,甚至北京,都找不到多少合适的人,我们倾向于本地化校招,自主培养”。
年近30岁的阳泉人、高工李同学,就是2012年是林经理校招的第一批应届生。刚毕业时,李高工的职业选择,曾是同学中的异类,在这里,煤矿集团、电力系统才是更稳妥的优选项。
不过,现在,他比他的同学的成长更快、收入更高,让他成为了众人羡慕的对象。已经有不少李高工的同学,来到数据中心,或者打探如何跳槽到数据中心了,数据中心的职位,成为了阳泉高收入的标杆。
其实,刚毕业时,李高工并不想留在阳泉工作。他应聘百度,是希望能到北京工作——这种以煤矿立身的小城,对于年轻人,确实并无吸引力。
选择阳泉总要付出或大或小的代价,比如分离,比如孤独。
2012年进入百度时,林经理从没预想过要付出常年分居的代价。入职7年,孩子从两岁到上小学二年级了,如今,他每月依然有十几天呆在阳泉。
而李高工有时会感到孤独,在阳泉,技术人员还是太少,没地方线下交流,而随他定居阳泉的妻子,因为找不到就业机会,只能做全职主妇。
但林经理不后悔,“媳妇很支持,我也不后悔,我们各项指标都是国内是第一了”。百度的平台成就了自己。
一度对家乡有点失望的李高工,现在颇感自豪。连续五年春节值守加班,守护机房的绝对安全,保障用户的流畅体验,李高工觉得很值得。
孤注一掷、初心不悔,如同圣经中的使徒保罗,“那美好的仗我已经打过了;当跑的路我已经跑尽了;所信的道我已经守住了”,一切代价都因参与其中而变得可以接受了。
数据中心的落地,也在改变“煤都”,阳泉逐渐走入云端,变身为智慧城市。
去年12月,百度与阳泉签署了战略合作协议,双方进一步加深合作。未来,阳泉将成为西部首个AI之城,交通、环保、城管、医疗、旅游、物流、工业制造等领域,基于百度大脑、自动驾驶、智能交通等技术赋能,都要逐渐实现AI智变。
未来,类似李高工这样的AI就业新职人,在阳泉也会越来越多,百度正在帮助阳泉孵化一大批AI数据标注企业,带动一批AI解决方案企业落地阳泉——他或许不会再感到孤独了。
百度之于阳泉,也许就像亚马逊之于西雅图,后者得以成就全球的云计算之城——早在2013年,阳泉市就被住建部评为首批国家智慧城市试点。
如同不可见的黑洞,吸引力之大连光都无法逃离,ABC(AI、Big Data、Cloud Computing)的汹汹大势,也是无法逃逸的潮流,而存储、传输、运算着浩瀚数据的云计算中心,就如同隐藏着AI时代全部数据秘密的黑洞。我们在阳泉云计算中心,管窥到了中国步入ABC时代的宏大远景。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。