导语:
产业数字化升级,数据由幕后走到台前,“数据湖”与“数据仓”逐渐形成目前“湖仓一体”的数据体系进化趋势。这股风潮不仅仅席卷数据圈,更影响了一系列下游产业,对数据的场景落地构成最为直接的影响,尤其是IT运维。
“湖仓一体”是目前大数据绕不开的一个坎儿
当数据真正成为一种生产资料,我们才切实进入大数据时代。笔者以为,当数据被主动沉淀下来并进行复用的行为出现,才意味着一个企业确实将数据变为一种生产资料。
这种沉淀,必然涉及数据的存储。随着数据存储技术和应用场景快速丰富的同时,关于数据湖、数据仓的争论也日趋白热化。数据湖和数据仓用于描述数据存储结构,但它们的优势却各有不同。
简单理解,数据仓就像一个大型图书馆,数据根据类别等统一的规范分类放好,虽然存取手续较为复杂,但确保能方便找到,且找到即可直接使用。数据仓一般面向主题设计,提升了数据的结构程度,可存储大量的结构化数据。在数据量和数据类型尚且不丰富的时代,数据仓并没有遇到太大的瓶颈。2011年之前,数据仓还占据着主流市场,当数据上云等趋势出现后,数据仓得以依靠云端降低成本,满足日益扩大的数据量。
数据湖则面向更广泛的数据源,并大大提升了信息密度,可以容纳结构化、半结构化甚至是非结构化的数据;数据可以是各种格式,比如文本、音频、视频。
如一汪湖泊就是一个生态。数据湖的优势在于其对数据的范式没有太严苛的要求,可以保留大量的原始数据,对于真正“跑”在数据上的企业来说做到了“高保真”。同时,数据湖存储、处理、分析数据的基础设施是可以不断拓展的,这也极大降低了存储成本。数据湖对数据不加严格规范,也造成了数据质量、可用性等问题较为突出,这一点又将人们的目光转向了数据仓。
在21世纪的第二个十年,数据湖和数据仓的争议一直未停止。短期看来,数据湖的可扩展性,适合目前业务端突飞猛进的数据环境;长期看来,数据仓的规范性利于后端数据运维,实现企业价值的沉淀。数据湖和数据仓的争议,可大致视为数据扩展性和可用性之争。
近年来,产业数字化进程带来了数据场景大爆发,使得湖仓之争最终走向统一:既然数据湖和数据仓都有各自的优点,那么取长补短就是了。可以设计一种范式,拥有数据湖的低成本存储和可扩展优点,又有数据仓的规范性,就像在湖边建水产仓库,需要的时候从湖里提取、就地分类加工。湖仓一体,正是客观环境催生的产物。
IT分布式运维是大数据“湖仓一体”最直接的着陆点
湖仓一体的数据存储结构思路,引发了数据存储革命的浪潮,IT运维首当其冲。
IT运维的数字化升级,标志着对数据划时代的运用,让数据“从幕后走到台前”。在运维过程中,数据源变得多样化、巨量化。企业需要迈入大数据门槛,优先要考虑的,就是数据对IT运维的划时代影响。对于企业来说,数据的可扩展性、可用性要求双双提升,数据将成为直接的生产资料,而非评估生产的辅助标准。
数据源的丰富,带来数据量和数据场景的双重爆发。数据产生于基础设施,伴生而来的IT运维面临两个显著问题:
1、数据直接反映系统的健康状况,成为决策者的直接参考,其类型和范式都面临巨大增长;
2、数据采集由离散变为连续,由被动采集变成了主动采集、留存、分析,数据量产生了指数级飞跃。
对于企业来说,下一个时代的IT运维,是在深入与数据打交道。数据成为了名副其实的生产资料,运维标准、运维思路足以决定企业在数字化的路上是原地踏步,还是大踏步前进。
相较于之前流于数据湖、数据仓的争议,IT运维遇到的数据问题则现实得多:IOT时代企业的IT环境,要求既要拥有数据湖的兼容和可扩展性,又要具备数据仓的可用性。湖仓一体的架构思路,自然成为了企业构建IT运维大数据栈的必选项。
目前市面提供的IT运维基础设施方案,普遍落后于生产力需求,难以促成真正的数据化布局。市面上对IT运维解决方案的升级,仅仅限于部署单机、局域网式、小规模的监控运维产品,尽管多有推陈出新,却同样是“数据仓”思维的延续,毕竟过去面向主营业务这一主题设计数据仓,数据类型和数据数量都在可控范围。
如今,随着数据来源复杂化,企业若想沿袭数据仓的形式,数据仓就只能设计得更加臃肿,数据孤岛更加严重,企业将不得不以扩大运维投入的手法来收获增长。
另一方面,产业升级的趋势、产能扩大的客观需求,让企业的IT基础设施高度离散;在生产效率、多端业务协同、一体化管理上却产生了更高的要求。这些要求,仅能通过IT基础设施分布式运维解决。在数据结构层面,“湖仓一体”思路自然成为IT分布式运维的必答题。
监控易IT基础设施分布式运维,为“湖仓一体”写下注脚
企业应用传统的单机式、局域网式的运维产品,投入巨大、管理混乱尚在其次;开拓新业务即搭建新的数据体系的做法,只会让企业陷入数据仓的无穷增补中,在数字化的大门面前举步维艰。
美信时代的监控易,准确切入了大数据时代企业构建“湖仓一体”IT运维体系的客观需求,对IT基础设施实现分布式运维。
首先,监控易内置了自研的BigRiver四合一超融合数据库。
BigRiver四合一超融合数据库最初专为网管数据研发而成,采用超融合策略,为用户提供集成“消息队列”、“Key-Value树状数据库”、“关系型表状数据库”、“内存数据库”和“高性能时序数据库”为一体的超融合数据库存储。这让BigRiver数据库具备了数据湖的一些基本特征,囊括主流数据类型的特性让数据库具备相当的兼容性,消除数据孤岛。辅以高压缩算法,显著提升数据库的泛用性和读写效率,夯实IT分布式运维基础。BigRiver数据库还具备出色的事务管理机制,保证数据的一致性和完整性,对数据质量的重视,也具备数据仓的严谨。
除了对基础设施友好,BigRiver数据库还提供了丰富多元的操作接口,包括“标准SQL接口”、“自有BSAPI接口”和“Grafana展示接口”,便于用户的使用、查询和展示,赋予数据可视化属性,更便于运维人员介入。
其次,监控易的中央控制台可以轻易实现一体化资源配置。
消除数据孤岛、洞察一切分布式IT基础设施,对于监控易仅仅是“基本操作”。监控易采用“云边端一体化”架构,可通过架构的核心——中央控制台进行协调、管理、分配众多的任务管理器和实时数据库,调动云管理中的各项功能模块,实现一体化资源调配。
做到这些尚且不能算完全实现了IT分布式运维。
第三,监控易还拥有具体到监控终端(TS)的长臂管辖能力。监控易系统采用底层分布式架构,各地数据中心或机房皆可实现一体化运维。终端自带高性能数据库,设备指标的采集在监控终端完成,仅将监控数据和告警信息上传中央控制台,节省了带宽,在集中管理平台上呈现关键信息。如监测任务负载过高,TS监测服务器还会自动调节监测任务量,实现监控终端分布式管理、一体化运维的“壮举”。
通过三大核心组件,监控易在IT基础设施领域,实现了分布式运维,打破了传统依赖单机版进行局域网、小规模网络运维的模式,构建了为TOP3000规模级别的头部企业打造分布式一体化运维平台的实力,也彻底贯彻了数据库的湖仓一体。目前,监控易已应用于政府、军工、金融、电力、石油石化、交通、医疗等多个领域,纳管设备超百万台。
数据领域对数据井喷时代的探索,挖掘出“湖仓一体”这个成果,将会极大影响未来的数字世界。“湖仓一体”今后将在各个领域得到印证;在IT运维领域,监控易实现IT分布式运维,就是对湖仓一体最有力的注脚。它成功证明了在科学合理的架构下,庞大的、分布式的IT基础设施,可以实现数据的“生产资料化”,赋能企业数字化进程。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )