随着企业数字化转型的持续深入,数据分析呈现四大趋势:第一,数据类型多元化,由以结构化为主转变为结构化、半结构化、非结构化、实时数据共存;第二,分析场景多样化,由以统计分析为主转变为统计分析、标签分析、全文检索、 预测分析、推理分析共存;第三,分析时效实时化,由以离线分析为主转变为实时分析、交互分析、自助分析和智能分析;第四,数据管控统一化,由以弱管控转变为强管控,统一标准、统一存储、统一治理、统一视图。
数据平台的演进经历了如下几个阶段:
八十年代诞生的数据库,解决了企业数据高效的事务性处理;
九十年代诞生的数据仓库,核心思路是把数据库中的数据进行一定格式转换后,定时地复制至另一个库里做列式存储,从而满足企业查询和数据分析的诉求;
2000 年后,随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,传统数据仓库无法适应大数据以及现代化企业对于实时、交互式分析等方面的诉求。数据湖因此诞生,它选择了“前松后紧”的设计思路,初始化阶段放弃严格的模式,后置 schema,从而获取更强的灵活性,同时通过统一存储管理和计算优化来保证数据的一致性和性能;
近年来出现的湖仓一体架构,解决了数据湖与数据仓库体系的割裂,在架构上把数据湖的灵活性、数据丰富性与数据仓库的企业级战略/战术分析支持能力进行融合,逐步演进成为集多源异构数据统一储存、多模型计算分析及统一数据治理的大数据综合解决方案;
解决客户的多元化数据类型,多样化分析,实时数据分析和统一数据管控,建设湖仓一体平台是现阶段最优解。
“湖+仓” vs“湖仓一体”
“湖仓一体”时代,数据湖和数据仓库通过ETL打通,架构上仍各自独立。数据湖从各类数据源接入原始数据,永久不删,数据从数据湖迁移至数据仓库,支持分析场景。虽然这种方式可快速利用已有的数据湖和数据仓库资产,但是湖和仓仍然各自独立,架构复杂,数据存多份且实效性慢,资源成本和运维成本依旧很高。
“湖仓一体”时代,通过统一资源管控,统一分布式存储管理来支持多种存储模型,统一分布式计算引擎,统一数据接口,实现湖仓一体架构,在技术上,具备存算解耦、弹性扩展、多租户、多计算引擎、分级资源管理等能力;在功能上,兼具数仓的标准SQL、ACID,数据湖的大规模异构数据存储等能力;对下,提供统多种数据接入形式,支持多云、混合云及跨云部署;对上,提供多种数据操作方式和接口,支持多种操作语言。
星环“湖仓一体”的解决之道
星环科技(星环信息科技)的湖仓一体解决方案,从下到上包含如下层次:1)信创自主可控硬件生态,支持多种国产CPU,服务器和操作系统;2)云原生底座,实现了基础设施资源的统一管理;3)统一的分布式存储管理,支持库表存储、文本存储、对象存储,键值存储、时序存储、事件存储、时空存储、图存储、全文引擎等多种模型存储统一管理;4)统一分布式计算引擎,支持分析型处理、操作型处理及实时处理等多种计算类型;5)统一数据操作/数据接口,支持交互式报表分析、即席查询、实时分析、图像文本分析、预测性分析及多场景的数据探测分析,极大方便生态应用;6)统一数据管理,实现了多模型数据和元数据的统一管理;7)统一多租户管理,在资源层,应用层和数据层实现了多租户隔离。
星环“湖仓一体”的逻辑架构:星环的湖仓一体 的逻辑架构,实现了 N 数据源到1 数据湖,到 N 数仓和数集,到 1 数据接口,再到到 N 数据服务的总体逻辑架构。
星环“湖仓一体”的技术架构:星环湖仓一体的技术架构,核心是星环科技多模数据统一架构,它的核心价值是:1)将多个操作访问入口变为一个入口;2)将多种数据库语言变为一种语言;3)将多套计算引擎变为一套引擎;4)将多份计算资源变为一份资源;5)将分散存储管理变为统一存储管理;6)将多份数据资产变为一份数据资产。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )