不鸣则已一鸣惊人,这就是华为。
还记得两个月前华为在全联接大会上的一系列操作吗?发布全新计算战略,开放鲲鹏主板接口规范和设备管理规范、开源服务器操作系统、开源GaussDB OLTP单机版数据库……那时我就说很快华为还会有更多后续动作。今天,它来了。
11月19日,华为在深圳召开2019全球数据基础设施论坛。会上,华为重磅宣布全面启动数据基础设施战略,并开源数据虚拟化引擎HetuEngine (河图引擎)。
继计算战略之后,又宣布数据基础设施战略,华为是何用意?数据基础设施战略什么内涵,和计算战略又是什么关系?数据虚拟化引擎能给用户带去什么?
01
计算的主体是数据
数据将成为未来世界的关键生产资料,这一点相信已经没有人再怀疑。
打开快手,会收到你感兴趣的内容推送,背后就是数据在驱动;大港油田发现新的油气层,离不开大数据和AI技术的支撑;华为每年近300万人次出差能做到“说走就走”,免去申请、报销等复杂的流程,是因为通过数据更有效、更合理的方式流转代替了员工的跑腿。
然而一个不得不承认的现实是,像这样被利用起来的数据太少了,一方面是数据生产的速度太快,另一方面则是因为存储、计算资源是有限的。
不信?举几个例子,从1080P提升到4K、8K,视频数据量将提升40倍,从4K到4k VR要增加6倍以上;未来每辆自动驾驶汽车每天就会产生高达64TB的数据;深圳一个城市有超过200万摄像头,每天将生产80PB数据,平均保存30天,而且大家希望保存的时间还要更长。
华为GIV 2025预测,全球数据量将从2018年的33ZB快速增长到2025年的180ZB。这其中,产生的数据中仅有不到2%被保存,而被保存的数据中仅有不到10%被应用。
数据增长和存储资源、计算资源有限之间的矛盾可以说愈演愈烈。解决这一问题唯一的办法就是在存储、计算等基础设施上下功夫。
于是,华为宣布了数据基础设施战略。未来,华为将围绕数据“采-存-算-管-用”的全生命周期,通过提供融合、智能、开放的数据基础设施,使能各行各业客户释放数据价值,让智能无所不及。
02
换个角度理解计算战略
该如何理解数据基础设施战略?其实早在华为发布计算战略时,对于数据部分就已经有相应的描述,即在智能数据与存储领域,通过融合存储、大数据、数据库、AI等技术,围绕数据的全生命周期,让数据的每比特成本最优、让数据的每比特价值最大。
对比两次表述来看,异曲同工。因此在我看来,数据基础设施战略并不是又一个全新的概念,而是华为整体计算战略的一部分,华为在以一个更具象、更小的切口来落地计算战略,毕竟计算战略非常宏大。有了数据这个抓手,能更好的发挥华为整体计算战略的能力。
事实也确实如此,如华为Cloud & AI产品与服务总裁侯金龙在演讲中所说,数据基础设施战略是从数据角度对计算战略的再度思考。
当然,除了战略目标,此次华为带来的还有实践理念和落地工具。其中最核心的是依托鲲鹏计算产业,打造“融合、智能、开放”的数据基础设施,让数据系统从孤立走向融合,从复杂走向智能,从封闭走向开放。这也是此次大会取名全球数据基础设施论坛的出发点。
融合,顾名思义打破孤立,主要针对基础设施层。数据应用主要涉及两个部分:存储与分析。传统烟囱式IT业务系统面临两个挑战:存的时候数据孤立,且多副本,成本高利用难;分析的时候需要大量数据搬迁,效率低。融合就是要打破这其中的墙。
总结起来,有4堵墙:
一、存储内部系统墙:通过一套架构实现生产、分析、备份、归档统一管理,一份数据在各个系统中可以平滑流动,进而减少拷贝,TCO可降低30%以上。
二、数据库与存储链路墙:通过算子下推实现近数据计算,减少存储层与计算层之间的数据交换,数据访问和处理性能提升2倍。
三、大数据与存储配置墙:通过存算分离实现资源灵活配置,计算不足扩计算,存储不足扩存储,并通过弹性EC、数据缩减技术减少冗余,整体TCO降低30%以上。
四、数据库与大数据协同墙:通过协同分析实现数据0搬迁,数据库和大数据共享一份数据,分析效率提升100%。
智能,主要解决运维难题。架构正变得越来越复杂,靠人越来越捉襟见肘,即便是经验丰富的老工程师也越来越感觉吃力,这是人工智能被广泛提及的基础。华为基于AI芯片、存储和华为云的三层架构,通过云上训练和云下推理,能够让系统越用越快、越用越省。
具体体现在三个方面:
• 依托昇腾处理器的AI能力,自动学习和识别IO流,提升Cache预取命中率,系统整体性能提升20%。
• 依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,TCO降低25%。
• 结合华为云自身大规模运维运营经验,当前可以实现提前14天预测硬盘故障,提前60天预测性能瓶颈,提前365天预测容量不足,其中30%的故障可以自我修复。
开放,解决数据应用难题。业务类型日益增多,跨平台、跨数据源协同分析场景增多,找数难、取数难、用数难日益突出。比如
找数难:传统企业数据类型越来越多,结构化、半结构化、非结构化数据并存,缺少统一数据目录和全局数据视图,要在众多异构数据源中找到特定数据,就像大海捞针。
取数难:一个典型的分析业务通常依赖跨地域跨平台数据协同,需要从多个业务系统获取数据,这要经过多部门间协调、核实才能获取。
用数难:多业务分析需要多引擎协同,这将依赖多种数据访问技术,需要开发人员掌握多种开发工具和语言,这导致开发门槛变高,开发周期变长。为了屏蔽数据类型差异、地域差异、语法差异,让数据治理更简单,华为推出了“河图引擎”。
融合、智能、开放,基础设施、运维、数据,数据应用基础设施的方方面面,华为此次都给出了自己的观察,并提供了相应的解决方案。
03
河图治水,河图引擎治数
这里重点讲讲河图引擎(HetuEngine)。“大禹得河图后始见清明”,大禹通过河图掌握河流山川复杂的地形地貌,顺利完成治水大业。华为取名河图就是想数据治理简单,使用简单,让开发者像使用数据库一样使用大数据,复用现有的生态、工具和技能,进而提升开发效率。
众所周知,数据库已经是非常成熟的产品,标准化语言,目录清晰、接口统一,使用便捷。这也是河图致力实现的目标。
目前,河图引擎具备4个核心能力:
一个目录:通过元数据在线感知,构建超过1000个异地异构数据源全局虚拟数据视图,打破数据孤岛。数据全局可视,解决企业找数难问题。
一个入口:通过开放的连接框架、5000节点SQL引擎,实现30种异地异构数据源统一SQL访问,秒级获取。数据全局可得,解决企业取数难问题。
一份数据:通过CarbonData技术,实现一份数据多场景分析,多应用共享,数据0搬迁。数据全局可用,解决企业用数难问题。
统一安全:对于用户最重视的数据安全性问题,河图引擎通过细粒度动态授权、敏感数据自动感知技术,能够实现异地异构数据源集中式安全配置与管控。数据全局可控,数据授权时间从天到秒,解决企业数据安全与合规问题。
据悉,开源版本的河图引擎叫OpenHetu,并将于2020年6月上线。华为将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等,实现应用快速对接,提升开发效率。总的目标,让合作伙伴用得好,用的放心。
回过头再看华为计算战略,毫无疑问,其正在快速、稳步的推进。还是之前的判断,这还只是华为计算战略的开始,未来还会有更多后续。但值得强调的是,相比之前,华为这次找到了一个更好的切入点,它就是数据。所以,接下来华为计算战略的落地进程肯定会走的更实、更快,拭目以待。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。