著名经济学家、世界经济论坛主席Klaus Schwab在《第四次工业革命转型的力量》一书中认为,这一轮工业革命的核心是智能化与信息化,进而形成一个高度灵活、人性化、数字化的产品生产与服务模式。
诚然如斯。如今,以AI为代表的数字化技术正在推动第四次工业革命,以期实现生产力的又一次飞跃。但经历多年数字化转型之后,用户们发现AI应用上依然面临着诸多挑战。越来越多用户意识到AI要想真正发挥威力,不仅仅涉及到机器学习、联邦学习、模型算法等,更与底部的数据平台息息相关。
用好AI还必须先从数据平台入手?没错!因为一个好的数据平台犹如为AI应用构建好大规模应用的基础,真正让AI通用性变强,从而为生产力注入智慧的力量。
为什么基础架构会遇到瓶颈
不可否认,AI的兴起给基础架构带来了极大变化。Gartner就预测,到2025年,由于人工智能市场的成熟,人工智能将成为推动基础架构决策的最主要因素之一,这将导致基础架构需求增长10倍。
具体来看,当前所有的AI应用都是由数据、算法和算力驱动,并且呈现出一些非常典型的特征:
首先,模型走向大型化和复杂化,带来了极大的数据量和数据处理需求。以OpenAI的GPT模型为例,2020年的GPT-3模型参数达到1750亿个,预训练数据量高达45TB,并且目前市场上诸多模型无论是规模、数据量、训练层数均是屡创新高,对于数据存储的需求也是肉眼可见地增加。
其次,AI应用实时性要求极高,使得像数据平台等基础设施迎来极大压力。例如,像自动驾驶如今成为各大汽车厂商的核心竞争力,一辆L4级的自动驾驶车辆每天诞生高达60TB的数据,谁能够更快训练出更高阶的自动驾驶技术,谁就能够在市场中处于竞争领先位置。
“传统的基础架构无法适应AI数据处理,在数据到达GPU之前,消耗了70%的时间做数据准备。”Hitachi Vantara中国区技术销售总监谢勇介绍道,“GPU、XPU等各种算力在不断提升,但数据存储处理能力却跟不上。”
Hitachi Vantara中国区技术销售总监谢勇
第三,越来越多智慧应用极度渴望多样性数据,AI模型需要多维度数据来不断训练与成长。比如,在金融领域,过去大部分都是基于服务流程中产生的过程数据;现在,很多金融机构为了让模型更加准确,往往会融入像地理信息的遥感数据、动物数据等,数据维度和丰富程度远胜以往。
“总体来看,AI应用在不断走向成熟,带来了数据指数级增长,但用户预算却不断缩减,很多用户在数据平台层遇到瓶颈。”谢勇如是说。
AI需要什么样的数据平台
如果说数据平台是AI应用的地基,那么这个地基的优劣直接决定着AI应用的效率和通用性。一旦AI效率和通用性问题得到解决,也即意味着数据生产力将产生质的变化。
从数据类型、数据处理流程和效率来看,由传统存储架构组成的数据平台的确是有着天然的各种“缺陷”。比如,在很多用户的实际环境中,依然是采用不同接口来接入到不同存储系统之中,很难在一个数据平台上满足不同数据类型对于性能的不同需求,并且容易形成多个数据孤岛;而从数据处理管道来看,存在多个数据孤岛之间来回拷贝的环节,不仅数据处理效率低下,而且性能无法满足AI应用的处理需求。
因此,为AI而生的数据平台应该是在性能、扩展性和易用性方面实现重塑,以满足AI应用对于数据处理的各种需求。事实上,以Hitachi Vantara HCSF (Hitachi Content Software for File) 为代表的新一代数据平台正是在这种趋势下脱颖而出,它让AI数据处理避免了分散管理流程,无需拷贝数据和复杂的性能调优,使得所有数据处理流程均在一个数据平台中进行,并且进行自动化的性能调优,实现性能、扩展性和易用性等方面质的提升。
以性能为例,HCSF采用具备专利的元数据和数据的全分布式架构,以及NVMe和高速网络设计,从而实现同时高效处理高吞吐/高IOPS/低延迟/高效元数据处理,性能比当前市场上所有全闪存NAS快十倍之多;在扩展性方面,HCSF具备从TB到EB级的扩展能力,还能从本地扩展到云端,并且能够实现跨NVMe和OBS的统一命名空间;在易用性方面,实现了从安装到数据协议接入、自动性能调优的简易化,让用户能够很快上手。
“ HCSF作为一个完整的数据平台,避免了传统架构多台设备并存带来的复杂性和数据孤岛,并且在数据接入、空间管理和云端协同方面均实现了极为简易的操作。AI应用的数据处理过程中不需要来回流动、迁移和复制。”Hitachi Vantara中国区资深解决方案顾问蔡慧阳介绍道,“在传统架构的数据平台下,管理复杂性、性能调优都往往需要专家级的技术人员,并且在元数据等层面存在极大缺陷。”
据悉,HCSF在交付方式上也非常灵活,可以提供软硬一体化或者纯软的方式来满足不同用户的需求。此外,Hitachi Vantara也与多家云服务商达成合作,将HCSF直接部署在云端,为客户提供更加灵活的选择。
深耕AI场景,HCSF经受多个行业考验
近年来,金融、科研、医学、制造、汽车等行业均在加速推动AI应用,像金融领域的智能投顾、智能风控,医学领域的精准医学、看片机器人,科研领域的基因研究、地理空间研究;汽车领域的自动驾驶等等,无不体现出AI和数据生产力的价值。
事实上,也正是这些行业用户率先在数据平台上意识到传统架构的不足,并且积极寻求新的数据平台。谢勇表示:“过去三年,很多行业用户均意识到AI应用的最大瓶颈并不是GPU卡,而是数据平台层。”
以某量化基金公司为例,拥有几百个节点的计算集群,采用最先机的GPU计算加速卡,以最先进的算力来跑量化模型,但三年实践下来,无论后端数据平台层如何优化,依然在性能、扩展性方面存在巨大不足。“类似这样的用户不在少数,他们均是在实践AI之后才意识到数据平台的重要性,并且均是通过HCSF解决了上述挑战。”
又如汽车领域的自动驾驶场景,很多车企通常部署了数百台配置先进GPU的计算集群进行自动驾驶训练,每提升一个级别,意味着数据量呈指数级的增长,L5级的自动驾驶甚至能够达到EB级的数据量,对于数据平台的性能、容量和扩展性极为考验。蔡慧阳介绍:“有车企在采用HCSF之后,一次训练与仿真测试时间从过去80个小时缩短为4个小时,EB级的扩展能力也让车企不再为容量担忧。”
“HCSF是专门为AI而生的数据平台,并且在多个行业的AI应用中获得了很好的实践。Hitachi Vantara推出HCSF的初衷就是以数据为中心,让更多行业客户可以更好地应用AI和提升数据生产力,从而实现运营效率的提升和商业创新。”谢勇最后表示道。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。