进入2021年中,全球数据领域发生了几件影响未来走向的 ,无论是经典数据库领域,还是新兴的大数据市场,几个“关口事件”似乎都指向一个未来的趋势:“开源+云”将成为主导未来的融合力量。
在美国,大数据平台Hadoop最重要的发行商 Cloudera被私募基金收购并将被私有化,这也成为了Hadoop时代的转折点;云端数据平台Snowflake则给出了惊人的173%的年营收增长(2019-2020财年),并预计将保持每年至少30%的营收增长直到2028-2029财年。
在中国,阿里系的PolarDB和OceanBase数据库宣布开源;腾讯云发布首款全自研分布式分析型数据库TDSQL-A;新锐数据库厂商PingCAP则发布了拥有完整HTAP能力的TiDB 5.0版本,为企业数字化转型提供一栈式数据服务平台……
数据技术领域,已经多年未有这种“山雨欲来风满楼”的感觉了。或许,包含数据库技术的大数据产业正在面临“二十年未有之大变局”;而驱动这场大变局的关键因素,来自数据技术供需两侧的双向巨变:在需求侧,数字化在全行业的加速带来了持续的动力;在供给侧,“开源+云”的力量成为改变数据技术的内聚力量,将过去20年分散多元的数据技术栈融合起来。
数字化加速成为全球趋势
如果说疫情给世界带来的最大变化,那就是我们已经永久性地进入了“数字化加速”时代。进入新周期的互联网服务走向“B2C、长连接、秒级反馈”的沉浸时代;传统企业加速数字化转型,以实现线上线下融合、DTC( Direct to Customer) 、数字化运营以及对企业员工的数字化赋能。
未来不存在所谓的传统企业,只有数字化企业;而且所有的企业,都必须对员工进行数字化赋能。我们知道,贝因美是一家知名的婴幼儿奶粉生产商,其线下门店有1.5万导购,如何利用数量众多的导购发展、维系会员客户,不断提升服务质量,一直是贝因美思考的重点问题。为此,贝因美在企业微信中做了个应用“会员购买”。当贝因美的会员购买奶粉的时候,会扫描绑定奶粉罐上唯一的二维码,绑定会员信息,并存到内部的系统,以便统计客户购买数据。系统也会评估这个顾客的食用周期,预测下次购买会在什么时候,再把信息推送到导购员,进而全面提升顾客满意度和回购率。
正如贝因美所揭示的那样,企业的业务需求正在走向“海量,实时、在线”的基本形态,企业组织的核心能力变成“敏捷创新,实时反馈”的能力,数据成为企业经营的新血液,这也对企业的IT架构提出了新的要求,必须做到“三个实时”:实时反馈、实时处理、实时分析。
为了应对这种要求,无论是互联网公司还是传统企业,都在搭建更适合的IT架构,公有云服务、SaaS应用、低代码开发、Serverless等新技术和新模式得到了广泛应用。
不过,要让这些新技术和新模式真正发挥作用,企业还需要与时俱进的数据技术解决方案,原因很简单:真正的数字化企业必然是建立在大数据基础上的企业,它所做的任何经营活动,都必然涉及到数据的收集、提取、整理、分析等活动。如果没有适合自己的数据解决方案,企业的IT架构要做到“三个实时”,只能是空谈。
双剑合璧的组合利器
那么,如何才能构建与时俱进的大数据解决方案?关键还是用好“开源+云”这个组合利器。通过开源,吸引全球最有实力的开发者,获取全球最活跃用户的真实需求,打造全球最具竞争力的大数据产品。然后通过“云”这种最有效率、最为直接的服务模式,将产品交付给企业客户。
我们看到在过去20年里,开源催生了Hadoop、MySQL、MangoDB等多款大数据产品,并与AWS、Google Cloud等云服务结合起来,成功应用于全球TOP20互联网大公司。如今,拥有了强大数据能力的GAFA(Google、Amazon、Facebook、Apple)和AT(阿里巴巴、腾讯)等互联网大公司,已经成为全球最有竞争力、也最有价值的公司。
Google之所以能够成为全球最有价值的公司之一,关键就在于其“整合全球信息”的能力。过去这些年里,Google基于开源技术打造了一个大数据平台,包括 3 个相互独立又紧密结合在一起的系统:Google 文件系统(GFS)、MapReduce 编程模式、大规模分布式数据库 BigTable。通过这个大数据平台,Google能够实现对海量数据的存储和处理。当然,这些也都是通过“云”才能实现。此外,Google还通过搜索引擎这种典型的云服务,为全球用户提供整合之后的信息,使人人都能访问并从中受益。由此可见,“开源+云”,帮助Google实现了“数字强权”。
与互联网巨头一样,传统企业也在通过“开源+云”构建属于自己的数字化能力。作为新兴的智能终端公司,小米不仅发布智能手机、平板电脑、智能手环等产品,还在与众多第三方企业一起构建小米生态链,并基于众多智能硬件产品产生的大数据,提供“小爱同学”等互联网服务。小米一直都是开源技术的拥趸和热情参与者,不仅为开源社区做出了不小的贡献,还在各项业务中广泛使用HBase、Kylin、Kafka、MapReduce、Spark、Strom,Hive等开源技术和工具,对沉淀在海量智能硬件中的大数据加以利用,并通过Xiaomi Cloud承载旗下的各项移动互联网服务。
实际上,如今“开源+云”已经成为数据领域最热门的组合。根据中国信息通信研究院所做的调查,2019年中国开源服务企业所做的二次开发中,51.9%来自于云计算领域,排在第一位;而数据库和大数据则分别排在第二位和第三位。
遭遇瓶颈
不过,这种“演进+叠加”的模式产生了大量不断迭代的架构和产品,虽然帮助TOP 20互联网大公司实现了“数据强权”,却也让大多数企业都跟不上,主要原因有三点:
1. 互不相容的多家公有云,导致割裂的服务;
2. 碎片化的数据技术栈,导致集成的困难;
3. 交易和分析平台分离,无法集中使用。
由于企业所在地的政策限制以及便利性的要求,如今很多企业往往同时选择多家公有云平台提供服务,例如在中国选择阿里云,在海外选择AWS,相关数据也会分布在不同的公有云上面,它们对于数据的存储、处理、交流方式各有不同。对于企业来说,将自己所有的数据统一管理本来是天经地义的事情,而在这种情况下却遇到了空前的阻碍,降低了企业的经营效率。
由于历史原因,很多企业在各种数据工具上叠床架屋,最后却发现造不出一栋适合居住的房子。以国内某银行为例,要对海量数据进行分析,必须首先在交易核心数据库中跑批处理,再ODS抽取ETL分析到数据仓库,再进一步训练流式计算,最后再放入数据湖,整个数据手动的过程至少需要一天。而且Hadoop和数据湖的开源生态中很多组件并不兼容,日常运维已捉襟见肘,想提速也无从下手。IT部门如此不给力,而业务部门对于转瞬即逝的营销机会却又是如此渴求,T+1分钟可能都会嫌慢,导致了双方永远都在争吵不休。
也正是因为如此,过去十年间,除了TOP 20互联网大公司之外,80%的Hadoop大数据项目都失败了。在《The Forrester Tech Tide™: 数据管理》2020年一季度报告当中,已经把Hadoop平台列为需要“剥离”(Divest)的数据管理平台之一。而前不久知名Hadoop发行商Cloudera之所以被私募基金收购并私有化,也是因为Hadoop大数据平台的广泛应用不尽如人意。
破解之道在融合
可是,企业的数字化转型不能等,“数据驱动业务”这条路必须走通。要破解如今的大数据瓶颈,同样需要用到“开源+云”这个组合利器,只不过模式发生了根本性的变化。
正所谓“分久必合”,未来大数据的技术路线将走向“合”——融合和简化。简化就是通过屏蔽复杂性,通过自动伸缩,自动运维,HTAP等路线来解决;融合要是让大多数企业的数据库和大数据技术栈融为一体,形成一个一体化的数据底座(Data Foundation)。Gartner在评价2021年技术趋势的时候提出:一个一体化的数据平台可以加速数字化转型,这也是大多数企业一直梦寐以求的方向。
让我们看看一家典型的中国互联网创业公司,如何利用“合”的力量。作为中国知名的知识分享平台,知乎沉淀了海量的问答数据。过去,知乎用的是 MySQL,并采用分库分表+MHA 机制来提升系统的性能并保障系统的高可用,当每月新增一千亿数据的情况下,已经出现了瓶颈。知乎后来决定迁移到PingCAP的TiDB产品,迁移到TiDB之后,整个系统最弱的“扩展性”短板就被补齐了,现在整个系统都是高可用的,随时可以扩展,而且性能变得更好。之后,知乎还希望对一万多亿条已读数据进行分析,挖掘其中的价值。而在以往,这种高吞吐的写入和庞大的全量数据规模,用传统的 ETL 方式是难以在可行的成本下将数据每日同步到 Hadoop 上进行分析的。当知乎有了TiDB的分析引擎TiFlash的支持之后,一切就变得有可能了。知乎目前采用TiDB一个入口,覆盖了数据库,数据分析,流式计算,数据仓库等等一系列需求,只用3个DBA支撑数千台的集群,充分享受到了简化,融合的好处。还基于同一个架构自行开发了替代Hbase的Zetta产品,并贡献给社区用户采用,形成了一个技术供给的良性循环。
如今,以PingCAP为代表的开源分布式数据库,跨越了数据库与大数据的边界,催生了新的数据服务模式,让知乎借助一栈式数据平台获得数据处理的综合能力,进而适应这个“数字化加速”时代企业的需求。
重塑数据产业
由此可见,“数字化加速”时代的企业需求在变,作为供给方的数据产业也必须要变。如果说此前二十年,通过“开源+云”让TOP 20互联网大公司构建了自己的数据平台、实现了数据强权的话,未来二十年,还是借助“开源+云”的力量,将会涌现出一批真正能够解决企业数据瓶颈的服务企业,并彻底重塑全球数据产业。
实际上,巨变正在发生。在美国,初创公司Snowflake走上了云原生数据仓库的道路,并提出了DaaS(Data warehouse-as-a-Service)数据仓库即服务的概念,使得客户能够在一个易于使用的平台上管理和分析跨公有云(如Amazon的AWS、Google Cloud和Microsoft Azure等)的大量数据和各种类型的数据。由此,Snowflake的服务大受客户欢迎,上市后也得到资本市场认可,目前市值高达700亿美元。
在中国,同样出现了PingCAP这样的数据“新物种”,其核心产品充分汲取开源社区的养分,TiDB数据库历经了六年五大版本的迭代,迈向企业级核心场景应用,最终形成“场景-社区-产品”飞轮,打造出一栈式的解决方案。之后,PingCAP还推出了TiDB Cloud(多云部署)服务,通过全新的云端服务模式,将数据处理做成了“消费化”的SaaS。
由此,我们再看2021年中数据产业发生的诸多 ,就会恍然大悟:原来,全球数据库和大数据产业正在发生一场深刻的技术变革,它将彻底改变未来20年企业数字化的发展方向。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。