自从2021年2月履新英特尔公司的第八任CEO,帕特·基尔格(Pat Gelsinger)就从混合云与计算软件CEO转而成为世界上最大的“芯公司”CEO。作为全球第一大芯片设计与制造商,英特尔自从1993年推出奔腾处理器以来,就一直占据了全球PC与服务器芯片市场的第一大市场份额,近年来还向通信、物联网、网络、人工智能、5G、自动驾驶等领域进行持续的创新。然而,与微软一样错过了移动时代的英特尔,能否在云计算时代乘“云”破浪?
在由阿里云主办的2021杭州云栖大会上,英特尔公司全面展示了自基尔格成为英特尔CEO以来的重大创新,以及与阿里云等超大规模云服务商的 合作成果。可以说,令人眼前一亮的“芯”成果,让业界对“智”在混合云与计算时代的英特尔又充满了期待和信心!从混合计算到未来数据中心再到边缘计算等硬件创新,以及AI、视觉、混合云等软件创新,可以看到基辛格给英特尔带来的显著变化,英特尔再次展示了从“芯”出发的“智”向与决心。
面向数字化的硬核创新
在2021杭州云栖大会·“智在此芯 全栈赋能”英特尔论坛上,英特尔市场营销集团副总裁中国区数据中心销售总经理陈葆立,全面展示了全栈赋能混合云与计算的英特尔创新架构与产品。所谓“全栈赋能”,就是从芯片架构基础层面,对于混合云与计算的各种场景进行全面的性能提升,甚至是新场景赋能。
芯片架构决定了软硬件体系,英特尔的芯片架构每年都会有更新,但今年的力度非常之大,堪称一代芯片架构的大迁移。众所周知,英特尔公司创始人戈登·摩尔在1965年提出了摩尔定律,在50多年后的混合云与计算时代,业界普遍认为摩尔定律走到了天花板,但英特尔公司不这么认为。陈葆立强调,摩尔定律并不是一个物理定律,而是戈登·摩尔在最开始对英特尔和整个芯片制造业提出的一个目标,即相信以先进的制造技术可以达每18个月将集成电路上晶体管的数量翻一倍,相应提升处理器的性能每两年翻一倍。现在,英特尔公司的架构师在不停的思考和探索,通过不同的维度看芯片设计、提升芯片效率。
当今面向混合云与计算时代层出不穷的新应用,18个月算力翻两倍的速度,已经无法跟上新应用的步伐。因此,英特尔从制程、连接、内存、软件、架构等五个维度思考和探索,推动每个维度在未来三到四年之内将算力翻四倍,那么五个维度就是4的5次方也就是1000倍性能的提升。这就是英特尔给自己设定新目标,即通过多维度推进,制造出更多算力,支撑未来各种新应用。
如何实现未来三到四年算力提升千倍?这就是混合计算架构。英特尔从传统CPU的Scalar张量计算引擎,到今天AI所需要的Matrix矩阵计算引擎以及更多计算类型所需要的Vector向量计算引擎和Spatial空间架构计算引擎等,形成了异构计算引擎架构,再搭配不同的制程、封装技术,以及针对不同的计算工作负载搭配合适的缓存、内存以及连接,就可以在混合架构下形成许多种不同类型的计算产品,满足各种需求。而当把单个计算核拼接在一起形成多核CPU时,每个计算核又可以承担不同的功能,这就是全新的混合计算设计理念。
在全新的混合计算架构设计理念下,英特尔对大家所熟知的X86芯片,英特尔又称之为Performance Core,进行了大幅改进和性能提升,特别是新增了针对通用AI计算的New Matrix Engine,可胜任常见的人工智能推理计算,例如在几万张图中找到想要查找的图片就可以用全新的Performance Core在秒级实现。而Efficient Core是针对多线程和多核心计算而优化的高效高性能核,可以针对云计算环境中的轻量级并行多任务计算例如云备份中的多文档上传,提供更高的效率与效能。Alder Lake就是结合了Performance Core和Efficient Core、面向下一代PC的产品,将在今年下半年市。
在面向下一代数据中心方面,IPU(基础设施处理器)是英特尔最新提出的处理器,用于帮助云服务商降低成本、提高CPU性能。简单理解,IPU就是将云服务商的基础设施功能都转移到IPU上,从而释放CPU的最大算力。IPU还能促进基础资源的池化,让CPU、GPU、内存等都在IPU的调度下池化,从而最大程度提高云服务商的服务能力与降低成本,Mount Evants就是英特尔首款ASIC IPU产品,也是与一家顶级云服务商合作的结果。
Ponte Vecchio是英特尔面向高性能和人工智能工作负载的新款GPU,该款GPU包含1000万亿个晶体管,现有的工程芯片可达到每秒45万亿次的浮点计算,这已经是业界的天花板了。英特尔也推出了适用于数据中心的下一代英特尔至强可扩展处理器——Sapphire Rapids,首次采用多拼接连接方式,带来更多的内核,增加了很多加速引擎,包括人工智能加速引擎指令集AMX以及数据流Streaming指令集DSA等,DSA可以帮助云服务商更高效的管理所有CPU内核、提高利用率。Sapphire Rapids还集成了很多创新的技术,为数据中心带来更多的创新、更强的算力和更大的突破。
与超大规模云的硬核合作
在重新思考摩尔定律的时候,英特尔也在回归芯片的本质——用硬件工程化的方式解决算力和普惠计算问题。因此,与最终客户在一起,共同思考最具普遍需求的计算问题,是进行创新的重要方式。英特尔就与阿里云这样的超大规模公有云合作,通过研究超大规模的计算问题,回归创新本质、再造“芯”方向。
英特尔傲腾持久内存就是为了解决数据中心的计算速度与持久存储而诞生的新物种。英特尔傲腾持久内存具备大容量、经济性和持久性等特色,能为多种数据中心计算场景带来全新的改进,包括分析、数据库和内存数据库、人工智能、容器等。英特尔中国傲腾卓越创新中心工程部经理吴国安与阿里云弹性计算产品专家唐湘华在2021杭州云栖大会英特尔论坛上介绍了双方合作用英特尔傲腾持久内存推动云基础设施和云应用创新的共同努力。
英特尔傲腾持久内存可以作为云上基础设施,服务于所有云上客户的应用创新,例如利用持久内存在虚机或容器中扩展内存容量或加速存储。吴国安从两个方向介绍了傲腾持久内存用于云上创新。首先是针对计算或者额外开销特别大的场景,例如网络开销等,可以使用傲腾持久内存取代内存,这样在性能上面并没有明显损失,但TCO却下降很多。第二个方向是IO占比非常大、也就是存储占比大的场景,因为傲腾持久内存的基础性能是SSD性能的几十倍,因此可以用傲腾持久内存进行IO加速,从而大幅提升整体性能。
对于第一个方向,利用傲腾持久内存加速Redis数据库是一个典型的场景。Redis被评为2021年Top 1的Non-SQL内存数据库,该数据库在很多客户中有大量应用。用傲腾持久内存取代内存,可以在Redis性能几乎没有损失的前提下,大幅降低TCO。当然,也可以不用傲腾持久内存完全取代DRAM内存,而是根据不同的业务场景进行一定的配比,对数据进行分层处理,例如对MemKeyDB进行分层处理。另外,阿里巴巴自研的分布式缓存系统Tair,也采用了傲腾持久内存,从而有效降低成本、扩展内存。
对于第二个方向,用傲腾持久内存加速KV存储是一个典型的场景。KV存储是云上很多应用的基础,例如阿里DeepRec推荐系统的参数就采用了基于傲腾持久内存的KV存储,实现存储加速。其它还有由英特尔支持的开源PMEMKV存储、KVDK开发工具,以及由Facebook开源的RocksDB等。
唐湘华从产品落地层面,介绍了阿里云基于持久内存的云上创新实践。阿里云在很早之前就已经开始投入探索研究持久内存,阿里云是全球第一家基于持久内存推出云服务器的厂商,早在去年10月份就发布了第一款的持久内存实例。经过去年一年的沉淀和打磨以及底层硬件架构的迭代,阿里云在今年对持久内存实例进行了全面的升级迭代——最新持久内存实例基于阿里云第三代神龙架构以及英特尔最新第二代持久内存BPS,相比上代产品的IO能力实现了翻倍、算力提升40%以上。
在产品层面,阿里云在今年进行了大胆创新,基于持久内存推出了高端本地盘实例产品i4p,相对于传统的NVME本地盘实例,实现了根本性的性能提升,特别是高端本地盘的读写延时可以低至170纳秒级别,而传统NVME在10-30微秒左右,因此性能提升将近100倍以上。此外,高端本地盘的单盘IOPS高达140万以上、单盘吞吐高达9GB/s,相对NVMe也有数倍的提升。由于高端本地盘在性能上的绝对领先,对于重IO的客户应用场景来说,是极大的福音——传统因为NVMe SSD性能不足带来的性能瓶颈问题,在高端本地盘上得到了有效的解决,例如RocksDB数据库性能提升2.5倍、Click House数据库性能提升2倍、NSQ消息中间件业务恢复时间提升2-3倍、重IO应用延时和抖动得到有效抑制等。
此外,阿里云还持续挖掘持久内存在内存方面的特性,与i4p同步推出了基于持久内存的内存型实例r7p和re7p。对于需要消耗大量内存的客户来说,用持续内存取代内存就可以马上获得成本的收益。因为大容量内容非常贵,而且目前业界没有其它云服务商可以提供小规格大容量配比的实例,因此无法无限扩充内存,而只能在性能与成本之间进行折中。阿里云看到持久内存可以解决这个问题,特别是一些应用经过了特定的改造,可以在性能几乎无损的前提下,让客户获得纯成本收益,例如redis、Parameter Server等应用都可以达50%以上性价比提升而且应用部署非常简单,目前已经有很多阿里云客户的应用跑在了持久内存上。
面对云上层出不穷的应用,英特尔持久内存也不断创新:第三代产品正在开发过程中,将有性能方面的极大提升;第四代产品采用了CXL接口,可以直接插在PCI-E总线上,与内存一起进行扩展。对于处理器核心数目的不断增长,大内存需求将得到充分释放;而网络性能的增长则要求更高性能、更高寿命的存储——这些都是持久内存发挥重要作用的创新场景。英特尔为了推广持久内存,还推出了相应的应用开发编程书籍,帮助更多开发者利用持久内存进行创新。
智在此芯、软硬兼施
DeepRec大规模稀疏模型训练引擎是英特尔与阿里巴巴合作的领先AI工程化系统,这是一个基于TensorFlow的推荐引擎。众所周知,在阿里巴巴的业务场景中有大量的推荐系统,而推荐系统的特征值十分稀疏,特别适合英特尔技术。DeepRec作为阿里巴巴集团稀疏场景的统一训练引擎,由集团多个团队合作共建,从2016年深耕至今已经支持了淘宝搜索、推荐、广告等核心业务,同时也为阿里云客户的推荐业务提供服务。
由于阿里巴巴推荐系统的特征值往往十分巨大,动辄达到百亿、千亿、万亿甚至十万亿的超大规模,那么如何基于阿里机器学习平台PAI和英特尔技术,实现业务的高效落地,就成为双方要共同解决的挑战。英特尔中国区超大云计算软件架构总监魏彬与阿里云智能高级产品专家黄博远在2021杭州云栖大会英特尔论坛上,介绍了双方围绕DeepRec引擎所做的努力。
黄博远介绍,推荐系统具有极大的商业价值,但推荐系统的 学习模型面临着几大挑战:首先是模型特征值的处理,由于推荐模型特征值的变化非常快,需要动态处理而无法像传统 学习训练那样等一周或一个月才能训练出一个模型;此外,由于超大规模的模型,在训练过程中会遇到构建分布式框架、Runtime和编译的优化、图优化、算子优化等一系列的问题,而这一切优化都需要上层软件与底层硬件以及硬件厂商提供的算子库进行 合作,因此PAI平台选择与英特尔合作对DeepRec进行优化。
魏彬介绍,英特尔与阿里巴巴PAI机器学习平台团队合作,为DeepRec完成了大量的优化,包括沉淀了大量算子优化、图优化、Runtime优化、编译优化,并基于硬件实现了 定制优化,支持高性能分布式训练,在稀疏模型的训练方面有着优异的性能。例如:在算子优化方面,针对稀疏模型的典型算子优化,充分利用AVX512、BF16指令加速,还将大矩阵进行分块,提升cache命中率,减少访存开销,实现算子加速2-6倍;在框架及库优化方面,整合了最新的英特尔oneDNN加速库,实现线程池调度优化,获取最佳性能,还基于PEME持久内存进行优化等等。
目前,英特尔正与阿里巴巴合作,推动DeepRec的开源,从而造福整个生态,让更多的客户可以获得与阿里巴巴同样性能的推荐系统,进而在发展数字化业务中占得先机。
【全文总结】从2021杭州云栖大会英特尔论坛,可以看出英特尔面向未来数字化场景进行底层硬件和芯片级创新的决心和能力。英特尔通过与阿里云这样的世界顶级云服务商合作,打开了从“芯”创新的思路与方向,同时在实际的超大规模业务打磨中,锤炼了从底层芯片到上层应用软件的一体化创新与优化能力,找到了制胜混合云与计算时代的路径。因此,混合云与计算时代,英特尔可期!
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )