机器学习是当下使用最广泛的人工智能技术之一,与之相匹配的HPC平台也愈加受到市场重视,从超算TOP100的变迁中就可见一斑。
从下图中可以看出,2015年开始,面向数据分析和机器学习的超算平台开始快速增长,2017年更是占比超过50%。除了传统HPC的行业例如科学计算、地理信息等在构建基于机器学习的HPC,更多行业也开始构建基于机器学习的HPC系统,以竞争行业AI能力的领先地位。
超算TOP 100 市场趋势图
随着人工智能落地各行各业,如何构建面向机器学习的HPC系统,让AI模型的构建过程更加简单便利,快速实现AI的行业落地,助力企业快速占据行业领导者地位,商业价值极大。但需要关注的是,面向机器学习的HPC系统与传统HPC系统有着很大的差异,传统的HPC构建模式并不能很好适应机器学习需求。
为了加速机器学习的行业落地,在2019百度AI开发者大会上,百度智能云企业级AI开发平台BML联合ABC Storage私有云存储产品发布面向机器学习的HPC解决方案。
该方案可提供高效的端到端机器学习算法算力应用平台和面向机器学习的高性能存储平台,一站式完成数据预处理、模型训练与评估、发布预测服务等工作,快速实现行业数据的AI能力生产落地。
面向机器学习的HPC系统
面向机器学习的HPC系统和传统HPC系统有很大的差异,虽然从采购模式上和基础算力构建上类似,但是两者核心完全不同,主要差异性如下: 一是算法算力。算法框架是基于机器学习和 学习算法,算力中心更集中在GPU。 二是存储层。机器学习大量应用在计算机视觉领域,主要处理的数据是海量的图片、影像、语音等非结构化数据。传统HPC方案在非结构化数据处理上并不能适应基于 学习的HPC场景的需求,存储系统需要满足训练过程中数亿甚至百亿的图片、影像的存储和吞吐要求,性能、性能的稳定性都有全新的技术要求。
五大特点针对超算场景
百度智能云基于 学习的HPC方案,完全针对机器学习超算场景设计,具有高性能、高效率、易用、灵活、安全的特性:
高性能 系统采用全分布式架构,拥有高并发能力,支持超大规模场景。
高效率 AI训练是一个流程化系统,文件在流程中搬移的时间成本非常高。通过采用ABC Storage高性能存储软件引擎+Optane高效元数据管理介质+QLC SSD高性价比闪存,面向机器学习的HPC方案能覆盖所有流程,数据一次写入,整个生命周期不需要搬移,能持续提供高性能、高稳定的吞吐保障。
易用 操作简单,上手迅速,支持一站式开发部署,覆盖了AI开发&部署的全工作流程。一个平台就能完成发起训练任务、获取训练模型、启动预测服务等全流程环节。
灵活解耦 全面支持主流ML/DL框架,同时支持自定义第三方软件库及用户定义集群。 安全 机器学习的数据集通过大量人力标注,具有极高的商业价值。平台可以提供完整的数据权限控制,保障数据使用安全。
更多能力提供,优势明显
除了优于传统HPC系统的高性能、高稳定、安全灵活等特点,百度智能云面向机器学习的HPC解决方案还具备更强的兼容性与可扩展能力,以及完整的生态解决方案能力,能够面向不同特征的用户,提供完备的解决方案,加速AI在各行业落地。
与普通的HPC系统相比,百度智能云面向机器学习的HPC解决方案具有以下四大明显优势:
全面的功能和体验 提供机器学习和 学习开发能力,支持主流机器学习与 学习框架。此外,还提供交互式(Notebook)、可视化(拖拽)、自动化三种建模体验,让不同研发能力的客户都能快速实现模型的训练、评估和预测。
支持飞桨(PaddlePaddle)等主流 学习框架 实现资源的精细化管理和调度,支持GPU多机多卡和GPU虚拟化,同时支持百度飞桨(PaddlePaddle)最新版本、Tensorflow最新版本,并能就其他主流 学习框架按需灵活扩展。此外,通过内置图像/视频(CV类)模型生产线,能够以产线方式支持CV类模型的流程化、标准化、高效化开发生产。
开放上下层接口,集成方便 提供Open API/SDK接口,便于客户上层应用无缝对接,客户的自有模型、第三方模型都能快速导入并服务。产品分层设计、接口开放,便于与客户私有云、本地机器、大数据平台、运维平台等已有环境有效对接。
一体化交付服务 支持V100 GPU卡、百度自研GPU Box(Xman3.0),能够满足客户多种算力需求,集成百度智能云专业且丰富的硬件供应与交付经验,能力覆盖全面,一条龙服务缩短交付周期。
存储的挑战交给ABC Storage
基于机器学习的AI能力需要大量的算力和数据样本集,结合算法模型反复针对数据进行训练,才能提供商用的AI能力模型。在训练过程,存储性能和稳定性尤为关键。
性能方面 百度智能云针对该场景,采用Optane+QLC SSD的硬件方案,结合百度智能云私有云存储ABC Storage的高性能对象存储引擎,在5台存储集群规模下,即可满足200台GPU服务器针对100亿小文件的并发吞吐要求。
稳定性方面 ABC Storage采用Optane作为元数据管理存储介质,可以保障在文件数量增长以及读写混合等综合场景下,提供高性能稳定的吞吐能力。
值得一提的是,ABC Storage支持InfiniBand网络,也是面向机器学习首推支持InfiniBand的全闪对象解决方案。作为HPC场景中不可或缺的高性能网络系统,能提供更低延迟和更快网络故障恢复速度的InfiniBand网络是HPC的重要保障。
百度智能云面向机器学习的HPC平台,以自身优异的性能及完整的方案解决能力,已经为众多领域的客户带来实际价值。随着人工智能与各产业的结合向纵深发展,优秀AI平台的价值将日益凸显。
未来,百度智能云基于 学习的HPC方案将把握前沿技术,不断完善与创新,通过端到端的高效、开放、生态化的能力,助推更多企业和研究机构的智能化升级。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。