破解数据囤积,华为云智能数据湖技术解密

如果有人问数据湖是什么,我会告诉他们,是“桶装水”的集合。

随着企业业务的发展,数据出现井喷,数据量呈几何增长,数据来源和类型更加多元化。传统数据仓库就如同“桶装水商店”,已经承载不了全部水体,因此需要一个可以满足存储需求的,新的架构作为大数据的支撑。

这就是数据湖。它汇聚不同数据源的溪流,包括大量无序的非结构化数据(文本、图像、声音、网页等)。我们把它倒入数据湖,然后开始探索该数据。我们希望这是一个包含所有数据的,一个超快、易于访问的存储库,能解决集成难题的终极方法。

但实际上,存储库反而变成了一个缓慢、僵化的数据沼泽。大数据需要特殊的专长来分析数据。使用原始数据得出分析结论,将持续在数据质量和治理方面发出危险信号。业内给这种问题起了个名字,叫数据囤积障碍。

爆炸式增长的数据及数据孤岛

你应该明白了。只为了保存数据而存储数据,不是一个好主意。我们应该有一个明确的使用目的,然后只向数据供应链中导入相关的数据。当数据水库中的数据不再有用时,就直接丢弃它。没有必要把某个特别的应用程序生成的所有数据都存储下来。以物联网为例,传感器会产生奇大无比的数据量,但大多数时候其实我们只是在意一些极端值而已,比如温度超出了某个阈值范围。下图为某物联网公司的业务示意图。

破解数据囤积,华为云智能数据湖技术解密

首当其冲的挑战便是,数据存储、数据处理、AI组件众多。处理难度极大。

破解数据囤积,华为云智能数据湖技术解密

紧接着,数据孤岛问题接踵而至。

破解数据囤积,华为云智能数据湖技术解密

多种数据源,每种数据单独在一个库中,业务人员需要在应用层做数据集成/数据搬移,技能要求高,工程耗时长。

数据量日益增大,数据源日益增多,单个库扩容困难,性能下降,成本高,难以做跨市跨省等全量数据分析。

缺乏高级分析工具,前沿技术,如机器学习、图计算、 学习等,未能充分利用多种数据深入挖掘价值。

用智能解决非智能

鉴于数据湖现状,我们如何利用它们为企业带来优势?这里是智能数据湖整体解决方案,包含四个关键的实践:融合,高效,易用,智能

融合——云化的hadoop

破解数据囤积,华为云智能数据湖技术解密

统一数据存储,再无数据孤岛;开放格式,丰富的数据类型:JSON, CSV, AVRO,图片,视频等;开放接口,兼容原生社区应用:100%兼容OBS和HDFS接口,总而言之,我们在数据湖中处理数据,试图找到新的洞察力。我们不会,任由数据处于最原始的格式,我们将优化数据。确保数据得到治理,确保数据在语义上一致,并满足业务的要求。

高效

破解数据囤积,华为云智能数据湖技术解密

一个字:快。实时数据实时分析, Apache CarbonData加速,万亿数据秒级响应

易用

做一个一站式、端到端开发工具,支持大数据+AI敏捷开发。可视化,代表丰富的可视化组件,图形化编辑界面,同时支持定制;而数据湖一站式开发工具,可管理多种大数据服务,实现跨服务作业编排调度;支持拖拉拽,预设10多种任务类型。

最后,对于数据标准,数据质量,数据安全的治理不可或缺。

破解数据囤积,华为云智能数据湖技术解密

数据湖治理:一站式治理平台(数据标准,数据质量,数据安全)

智能

重点绝不仅仅是数据,而是始终关于你要做什么工作。使用场合是什么,你可以运用什么应用程序来处理该数据以便从中受益——用智能实现高效。

智能元数据采集,统一数据视图

智能数据管理,无需人工拷贝

智能优化建议,免DBA

破解数据囤积,华为云智能数据湖技术解密

对数据进行“联系”,而不是“收集”。相比将数据转移到越来越大的集群或数据仓库,让数据待在数据湖进行智能化处理,来得更省钱、更容易也更高效。

如果想先试试效果,无论是企业用户,还是个人用户,华为云均提供了一组免费套餐,最高可免费试用60天,与此同时,华为云数据湖工厂(Data Lake Factory)2018年12月31日前提供免费试用,名额有限。

更多详细内容,欢迎访问:华为云官网 EI企业智能 EI大数据 数据湖工厂DLF


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2018-11-08
破解数据囤积,华为云智能数据湖技术解密
如果有人问数据湖是什么,我会告诉他们,是“桶装水”的集合。随着企业业务的发展,数据出现井喷,数据量呈几何增长,数据来源和类型更加多元化。

长按扫码 阅读全文

Baidu
map