数据中台丨研究报告
核心摘要:
狭义来看,数据中台是一套实现数据资产化和服务复用的工具;广义来看,数据中台是一套运用数据推动企业数字化转型升级的机制和方法论。数据中台始于业务数据的沉淀积累,用于数据的收集、整合、分析及应用,循环往复,形成生态闭环。
2021年数据中台市场规模达到96.9亿元。在供给侧,行业的生态化合作趋势明显;在需求侧,企业对数据中台的关注点从中台本身转向了最终的数据变现能力。行业集中度和成熟度持续上升,整体规模稳步增长,增速趋于平稳,预计将在2024年达到187.4亿元。
当前数据中台的行业集中度仍保持较低水平,行业的活跃参与者大致分为平台生态厂商、解决方案厂商和独立中台厂商三类,行业格局由竞争转向竞合,以协同生态为核心,集众所长,将成熟的技术方案与行业服务经验结合,协同拓展应用解决方案的广度和 ,深耕于金融、泛零售、政务、制造、工业等多行业应用场景。
云原生是当下最为确定的技术趋势,存算分离、微服务、ServerLess等核心技术要素驱动数据中台走向云原生。数智融合理念将AI算法模型植入数据治理,高质量数据反哺AI开发能力,让数据和AI开发高效互通。泛中台化趋势明显,业务场景需求的解决方案/产品趋于“中台化”,以数据中台为基础的中台体系不断丰富。
定义
始于业务,用于业务,生态闭环,源源不止
数据中台是一种数字化综合解决方案。数据中台采集、计算、存储和处理海量数据,保证数据的标准统一和口径一致,建立全域级、可复用的数据存储能力中心和数据资产中心,组件化服务模块,提高数据共享和复用能力,灵活高效地解决前台的个性化需求。狭义来看,数据中台是一套实现数据资产化和服务复用的工具;广义来看,数据中台是一套运用数据推动企业数字化转型升级的机制和方法论。相较数据工厂时代,数据中台立于业务数据的积累沉淀,破于数据收集、整合、分析及应用的生态闭环。数据中台始于业务,用于业务,循环往复的理念与数据价值时代下数据资产价值最大化的目标相契合。
驱动因素:宏观层
数据量规模快速扩张,数字化进程加快,技术更新迭代
新冠肺炎疫情加速推动了从个体、企业到政府全方位的社会数字化转型浪潮。企业方面,疫情的出现为企业数字化转型按下了“ 加速键”,在线办公、在线交易等线上化运营方式为企业在特殊时期保持正常运转提供了支撑。政府方面,政府的数字化应急能力和在线政务服务能力在疫情下不断“淬炼”,在线服务指数由全球第34位跃升至第9位,迈入全球领先行列。据Gartner预测,2025 年全球将有309亿设备接入物联网。物联网设备产生海量数据,对这些设备的运营、监控以及安全保障,离不开大数据技术的支撑,反过来也推动了大数据技术的进步。云计算以及云计算环境下大数据技术的成熟,使构建一套大数据系统变为低门槛、快速启动的项目,且随着业务增长进行无缝的技术增长,只需为实际使用的计算和存储资源付费,大幅降低了使用门槛。
驱动因素:行业层
大数据核心技术和产品受关注程度高,产业发展再升级
大数据技术和应用成为国家基础性战略支撑,是打造数字经济新优势、加快数字社会建设步伐、提高数字政府建设水平的重要力量,因此大数据核心技术创新和产品升级受关注程度高,产业发展具备充足的空间和潜力。随着5G、AI、物联网等技术的普及应用,数据应用场景被释放,数据源不断丰富,数据量快速攀升。云原生技术使企业组织能在公共、私有和混合云等现代动态环境中构建和运行可扩展的应用程序,是继云计算之后,数据基础设施领域实现新增长的重要拐点。在基础软件方面,数据中台、数据治理、数据安全等产品引领细分市场发展。在应用软件方面,BI、可视化、图像分析等产品也备受关注。从企业和行业应用来看,企业更加注重运用数据技术向精细化运营、信息化决策演进。行业应用聚焦于软件和信息技术服务、互联网等领域。
价值
核心价值:提升数据治理,改造业务流程,深化数据应用
数据中台致力于解决原有数据关系及SOA架构解决企业“数据烟囱”问题,打通数据孤岛,通过完善数据标准体系、强化数据质量管控、统一管理元数据等方式加强数据治理,提升数据可用性,实现数据资产化。数据中台在改造企业业务流程,打通数据壁垒的同时,也打通了企业部门间和事业群之间的业务壁垒,消除“部门墙”产生的冲突,极大提升了企业组织灵活性。数据中台的设计定位是基于企业的顶层战略,集中体现了企业的顶层框架和业务逻辑。数据中台对企业全域数据资产进行开发和应用,实现了统一可比可算,让数据具备了敏捷服务能力,满足了企业各层级对数据服务能力的智能和快速调用,让数据价值最大化赋能业务决策。
市场规模
行业增速有所放缓,市场规模稳步增长
我国数字经济蓬勃发展,企业数字化转型步伐不断加快,数据技术加速创新融合应用。2019年是数据中台元年,行业快速完成了萌芽期和成长期的积累,正在积极向成熟期过渡。从供给侧看,生态化合作趋势明显,一方面云厂商在各垂直领域加速布局合作生态,配合生态伙伴的行业积淀和服务协同,使得个性化部署能力和实施效率显著提升;另一方面,部分独立厂商融合云厂商的底层平台能力,结合自身的技术创新和专项优势,发布多样化的数据中台产品。在需求侧,企业对数据中台的关注点已从中台本身转向了最终的数据变现能力,对中台的理解不断加深,需求也更加明确。此外,在疫情影响下,企业的价格敏感度上升,驱动厂商积极探索业务模式创新和服务升级。数据中台行业的集中度和成熟度持续上升,整体规模稳步增长,增速趋于平稳。
产业图谱
行业千帆竞发,厂商百花齐放,市场格局初显
近些年,在大数据、云原生、人工智能等技术发展和企业数字化转型加速的双重驱动下,数据中台在多场景快速落地。从厂商类型来看,平台生态厂商、解决方案厂商、独立中台厂商以及自研厂商的边界开始模糊,数智服务的生态协同明显。从市场格局来看,云服务厂商依托完备的服务体系和强生态能力,输出方法论、技术及工具,建立行业服务体系;产品厂商凭借创新技术能力和垂直行业深入的业务认知,取得行业积累,提升品牌竞争力。
行业格局
从竞争到竞合,破壁搭桥提升数智服务,生态协同正当其时
厂商发展逻辑正从竞争转向竞合,以协同生态为核心,集众所长,合力拓展协同应用解决方案的广度和 。平台生态厂商拥有内部率先落地中台战略,之后对外提供服务的先发优势,为行业发展输出方法论、技术和工具体系,商业模式以“提供云基础服务,生态伙伴实施交付”为主。解决方案厂商积累了丰富的垂直行业服务经验和客户服务基础,可快速准确洞悉企业业务流程和痛点需求,但项目实施交付一般需要外部提供数据能力支持。独立中台厂商核心技术团队普遍来自行业头部厂商,技术背景扎实,行业经验过硬,但品牌影响力相比平台生态厂商较弱。
行业挑战
产品化和项目制之间的平衡问题
在投融资领域,SaaS理念被众多投资人所青睐。是否云上部署,是否订阅且高续约,是否较少二开,是判断SaaS属性的重要指标。当前,中台以服务中大型客户为主。客户的大数据量及对数据安全的特殊要求,导致较少采用全公有云的部署模式,大多仍采用类项目制(含一次性和私有订阅)的形式。并且,中台尤其是业务中台部分,需要对行业和客户有较深理解,在指标体系搭建、数据建模等环节,常需甲乙方 配合,如果专心做通用产品,则在投标等环节并不占优势。不管是从业者,还是投资人,都要深入思考:如何在产品和商业模式上下功夫,以寻求降低边际成本和满足客户定制需求的平衡。低零代码的技术理念,大核心研发+多个小行业交付的组织架构,积极发展生态合作伙伴,部分开源打造生态等,都是可供参考的选项。
需求诊断
企业搭建数据中台应当按己所需,量力而为
尽管随着技术进步,中台实施难度逐渐降低,但仍然不是所有企业都适合中台建设。中台汇聚、打通的特点,要求企业已经或者在未来较短时间内会有大量的数据积累和应用。如果企业体量不大,或者企业体量虽大但业务单数较少,在数据需求出现时,一对一地解决,可能性价比更高。中台复用的特点,要求企业业务既不是完全一成不变的,也不是多业务线毫无关联的,如果企业业务非常稳定几乎无变化,则中台建设的必要性不足。中台为整体解决方案的特点,要求企业有相应的配套机制,包括企业战略、组织架构等,如企业没有专门的数据部门仅靠业务部门,则企业数据建设容易陷入“公地悲剧”:每个业务部门都想使用数据,但谁都不愿贡献、建设、治理数据。总之,中台是一个基础设施,其以底层的稳态保障上层的敏态,以公共的建设保障各业务线的使用,以当前的重投入保障未来的高产出。凡企业不是此类规划的,均不完全适合,可以用中台里的某个模块如数仓、数据湖或主数据治理等先行解决当前问题。
整体分析
金字塔型分析,由“虚”入“实”,从宏观到微观
中台项目实施难点,在于企业数字化过程中,虚实结合不到位。传统咨询常采用Top-Down打法,但往往是Top(规划)有了,Down(落地)困难,常被称为“缺腿和脚”。纯技术出身的中台厂商则需补充Top-Down 的方法论。目前,大多中台厂商在为企业提供服务时,多采用从规划到组织再到工具的自上而下打法,这其中要么自建咨询团队,要么生态合作完成。企业首先要明确自己的使命、愿景(To-Be)和当前状况(As-Is),然后确定企业接下来一段时间的北极星指标,然后将该指标拆分为子指标,然后确定数据管理和应用体系,最后才是中台具体路线。一开始这些看上去较“虚”的动作,其实是中台能坚定、持续走下去必不可少的要素。这种方式,其实可以看成是“金字塔原理”以及“OKR”在数字化转型中的具体应用。所以,企业中台建设不仅是技术问题,更是管理问题,是企业的一把手工程。
核心方法论
OneData+OneService+OneID
头部的平台生态厂商在内部落地中台战略,获得检验后对外输出成熟的中台建设核心方法论:OneData+OneService+OneID。OneData的本质是构建从算法定义、数据研发到数据服务的统一指标和算法,数据采集、汇聚、清洗、加工、调动一次完成,避免因不同的业务场景造成不同部门对数据的重复建设,让数据成为可复用、可深挖价值的资产,而非拖垮业务推进的隐性成本。OneService的本质是数据即服务。传统数仓从不同的系统调用数据时受数据库权限限制,需要开发人员定制不同的访问接口,出错时还难以追溯影响到哪些应用和报表。数据中台通过平台化的工具/接口,一方面为应用开发屏蔽了底层数据存储,提供数据查询统一接口,另一方面提高了数据应用的管理效率,建立了从报表到应用的清晰链路,提升数据开发的友好性。
厂商选型
人、活儿、事儿三方面考量
企业在中台选型时,应从人、活儿、事儿三方面进行考量。“人”是指:企业应该考虑中台厂商的团队背景,如是否有大数据背景,是否有行业背景。“活儿”是指:目前中台厂商的产品中,哪些是开源的,哪些是自研的;如果是开源的,是否是主流且代表未来趋势的技术路线;如果是自研的,核心优势在哪,与开源产品的语法、体验等是否一致,会不会为自己带来相应IT人才的缺乏;各个模块之间是松耦合还是紧耦合;产品的使用门槛是否较低,体验是否良好。“事儿”是指:中台厂商在历史上,是否有本行业的成功案例,取得了哪些显著成果;中台厂商与本企业的其他系统(如ERP、CRM等)是否有成功的对接先例,从而在实施中可以提高效率并降低风险。
底座技术选型
先进性和适应性应综合考虑
中台技术,即广义的大数据技术(中台≈数字化咨询+大数据技术+数据治理与管理+数据运营)。由于大量行业客户,并不能自己玩转大数据,所以一般需要“端到端”的产品或服务。供应商提供端到端服务,一般有几种路径:(1)公有云厂商提供从IaaS到SaaS的全套的云、数、智服务,一般云资源为自家提供,而数和智既可以选择云厂商自有组件,也可以选择开源组件。(2)部分厂商如Cloudera对不同的大数据组件进行组合,形成CDH和CDP套件。(3)解决方案厂商,基于客户需求和自身理解,利用开源技术,进行自由组合和二次开发。(4)独立中台厂商,基于开源+自研的方式,打造全链条产品和服务。(5)一些新型HATP厂商,通过对流数据的进一步融合,以更轻巧的方式满足中小企业的中台需求。
在技术组件选择时,一般遵循以下原则:(1)确有明显优势及取代趋势时,选择有优势的(如Flink相对于Storm)。(2)不同技术各有利弊时,根据自身业务、历史架构、供应商擅长综合选择。(3)供应商有 自研的,除体验外,还应考虑后期服务的持续性以及自身IT人才的供给。
数据治理
元数据管理&主数据管理
元数据管理用于确保全局指标的业务口径一致,主要包含数据字典(描述数据的结构信息)、数据血缘(用于影响分析和故障溯源)以及数据特征(描述数据的属性信息)。常用产品分为:1)开源产品Metacat(擅长管理数据字典)和Atlas(擅长管理数据血缘);2)商业产品Cloudera Navigator。元数据中心对外统一提供API访问接口,数据传输、数据地图、数据服务等其他的子系统都可以通过API接口获取元数据。
主数据管理用于提供完整、一致、准确、相应的主数据来源,以支撑跨部门、跨系统数据融合应用,四大关键功能为生命周期管理(编写主数据间的层次、关系及分组)、质量管理(建立主数据质量基线和评估改进程度)、协调功能(主数据管理系统与业务系统集成)以及分析功能。主要解决方案厂商包括IBM、Informatica、Stibo Systems、SAP等国外大厂,产品成熟,但产品灵活性和扩展性不足,同时国内厂商如用友、浪潮等也在此领域崛起,不断灵活创新,更贴近企业需求。
数据资产管理
数据模型管理
搭建数据中台的本质是构建企业公共数据层,把原先分散、烟囱式的数仓合并成可共享、可复用的数据中台,具体实施路径可概括为:1)接管ODS层,控制数据源头。ODS是业务数据进入数据中台的第一站,是所有数据加工的源头,应从业务系统的源数据库权限入手;2)划分主题域和拆分业务维度,构建总线矩阵。主题域是业务过程的抽象集合,划分时尽量涵盖所有业务需求,保持稳定性和扩展性;3)构建一致性维度。构建全局一致性的维表,确保维表只存一份。维度属性分为两种情况:公共维度属性与特有维度属性拆成两个维表,产出时间相差较大的维度属性拆分成单独的维表;4)整合事实表。事实表整合的核心是统计粒度必须保持一致,不同统计粒度的数据不能出现在同一个事实表中;5)模型设计完成后,进入模型开发。数据全生命周期管理,ODS和DWD尽可能保留所有历史数据,DWS/ADS/DM需设置生命周期,可保留7-30天不等;6)应用迁移。进行数据比对,确保数据一致。
数据服务
数据和应用之间的“桥梁”
数据服务是数据中台的能力出口,是数据应用的重要支撑。企业通过中台能力封装关键数据实体,将数据采集、数据传输、数据存储、数据处理、数据交换等数据的各种形态转化为可高效复用的软件服务。数据中台提供的数据服务可大致分为三类:1)主题式数据服务。基于元数据规范定义和建模,构建主题逻辑表,屏蔽复杂物理表,提供业务视角下的查询;2)统一且多样化数据服务。一站式提供一般查询、OLAP 分析、在线接口服务等查询和应用服务,便于数据跟踪管理;3)跨源数据服务。统一数据接入层,屏蔽多种异构数据源的读写差异,减少数据访问和应用成本。数据服务通过平台化、配置化的方式,快速生成API服务,减少定制化开发对不同工种的依赖,同时屏蔽底层数据的技术细节,让数据消费者无需关心数据的源头问题,实现“数据即服务”。从实施路径来看,构建数据服务模块应具备以下五大核心能力,才能担起数据与应用之间的“桥梁”角色:
行业场景
金融行业:从数据驱动到运营优化
金融行业走在我国数字化转型前列,信息化建设起步早、投入大,因此行业的信息化水平和数据的标准化程度较高,针对金融行业的数字化服务生态比较健全。但是,传统的数字化解决方案也造成金融机构普遍拥有多个信息部门和数据中心,随着业务多元发展和海量业务数据积累,大量的系统、功能和应用被反复构建。数据资源、计算资源和人力资源都存在巨大浪费,信息孤岛现象严重,内外部数据难以统筹规划,数据能力无法应对高并发、强一致、横向扩展的业务场景。
数据化转型领先的金融机构已经开始搭建数据中台,并产生很多优秀案例。数据中台采集和整合金融机构内多个数据库数据,建立跨越式数据模型,打破数据壁垒,统一加工、处理、输出标准数据,建立数据资产,减少业务数据重复建设,彻底改变金融行业数据交付模式,形成专业的用户画像,精准营销,辅助运营决策,提升客户运营效率。
泛零售行业:从统计分析到决策支撑
泛零售行业从以商家运营为主导的“旧”零售时代,推演至今日的以用户为中心,数据驱动、体验为王、口碑传播、迭代思维的零售4.0时代,零售企业为了解全域运营数据、进行场景细分和精细化运营、紧随消费需求和消费链路的变化趋势,内部搭建了各类业务系统,基本满足日常统计分析。但是,割裂的业务系统也形成了大量碎片化的数据,无法做到跨域、跨渠道的统一查询和分析。此外,数据口径不一致使得数据使用者对数据解读无法形成统一理解,数据体系不完善导致无法对多维数据进行闭环分析,数据指导和辅助运营的能力不能充分发挥。
数据中台打通泛零售企业内部各系统数据,标准化数据模型和研发标准,实现从数据采集、汇聚、清洗、调度到数据质量管理的全流程工具化和平台化,帮助零售企业打通采购系统、业务系统、运营系统和销售系统的数据,进行数字化的供应链管理;运用数字媒介开展业务和触点布局,跨业务域、跨渠道、跨产品、跨区域的综合分析,精细化运营;通过埋点、实时数据,线上线下异构数据采集,全量及全维度的捕获用户行为,提供决策支撑,优化用户体验。
政务行业:从决策支撑到数据驱动
政务数字化是数字政府建设的重要目标,随着数据、算法、服务不断创新和迭代,行业正从政务电子化、政府上网和政务服务一体化的“互联网+政务服务”阶段,向基于大数据的“数据化、平台化”阶段推进,初步形成统一的云平台和公共数据服务平台,政务服务能力显著改善。但随着国内经济持续健康发展和社会全面进步,各界对政务服务也提出了更高的要求。如何实现政府数据资源跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务,如何实现“政府内部协作”、“政府企业协同”、“政府服务公众”的数据资源良性循环,如何提升政务协同过程中协同办公效率都成为新的挑战。
数据中台提供统一的数据采、建、管、用能力,能实现政务领域数据的统一管理,构建数据资源的应用创新模式,建设重心从技术转向运营管理,通过数据流带动组织和业务流程重组,提升政府服务协同能力。通过数据资源的标准化和统一输出,提供政务数据精准化供给和智能化服务,支撑政府部门精准决策。
工业行业:万物互联时代大有开发空间
面对激烈的市场竞争环境和如火如荼的产业数字化进程,工业企业需要通过缩短交付周期、产品多样化、产品及服务创新来提升竞争力,数字化转型为工业企业大规模、多样化、全链路的运营生产和快速创新提供了可能。企业陆续构建了ERP、SCM、SRM、WMS、PLM、MES等工业管理系统,支撑特定领域的业务应用,结果数据孤岛随之而来,收效甚微。万物互联时代到来,工业设备普遍具备智能互联属性,围绕设备、系统、人形成了巨量数据。此时,企业的竞争本质演变为数据支撑业务敏捷性,以应对市场的飞速变化。企业前台对数据应用的快速迭代创新、快速响应用户需求与后台系统臃肿迟滞之间的矛盾成为亟待解决的问题。
工业企业不具备互联网公司天然的信息化基因,并且产品研产供销服流程复杂,业务对象与功能解耦难度大,沉淀深厚无法快速推倒重建,加上工控软件数据开放度不足,专业程度高,因此,工业领域的数据中台推进仍有较大的开发空间。
趋势一:云原生
技术与业务共同驱动数据中台走向云原生
云原生是当下最为确定的技术趋势,主要由Docker+Kubernetes以及Spring Cloud等主流技术共同驱动。但当下,很多所谓“云原生”,仍是对传统单体架构的改造,并不能真正实现资源的完全弹性扩展。存算分离,各自动态扩缩容,将有助于平衡成本与效率,是大数据低成本落地的重要保障,也将是真正意义云原生的显著特征。未来,数据中台的数据存储量剧增,且作业高吞吐高并发,对存算分离的要求明显高于其他应用领域,数据中台中的重要组件,如MPP及智能湖仓等,都将遵循存算分离架构。此外,企业客户对数据安全的关注度不断提升,对数据安全、合规数据合作技术等需求增强,云原生天然具备的对象体系、容器化编排、CI/CD(持续集成持续交付)、跨云多域数据治理等技术属性,都驱动数据中台走向云原生。
趋势二:数智融合
数据和智能相互作用
所谓数智融合,即构筑数据治理和AI开发的统一底座,让数据和人工智能相互作用。一方面, Data for AI :通过对元数据统一管理,解决传统数据分析与AI模型之间的“数据搬家”问题,打通数据分析与AI模型引擎,实现基于一份数据多模分析,提升数据驱动决策的准确性和可信性,让数据工程师灵活进行模型和特征训练,实现数据与AI开发高效无缝互通。另一方面,通过AI for Data :将人工智能算法模型的能力植入到数据治理,通过机器学习自动发现数据管理的规则,在数据模型管理、元数据管理、主数据管理、数据安全等多场景中广泛应用。因此,人工智能对于提升数据治理的智能化水平具有关键作用,也是降低数据治理门槛的重要突破方向。
趋势三:泛中台化
以数据中台为基础的中台产品体系多点开花
5G时代的到来,人工智能、物联网等创新技术不断发展。随着多设备接入、多系统数据融合互联互通,形成新的数据孤岛,对企业的智能用数发起新的挑战。值此时刻,数据中台的理念体系逐渐完善,相关产品、规范以及标准也趋向统一,落地经验也得到积累,大数据项目纷纷与数据中台结合,数据中台开始从概念热点向项目起点转变。随着企业对中台认知的增强,业务场景需求的解决方案/产品也趋于“中台化”:IoT中台、算法中台、研发中台、组织中台、AI中台等中台产品体系不断丰富。以IoT中台为例,是相对数据中台层次更上的抽象和高级,包含了采集平台、通信中台和数据中台的全部特性,支持除数据分析、处理、交易等抽象业务服务外的采集和通信能力,相对数据中台更加贴合企业业务场景,为未来智慧城市建设提供更加深入和精细化的基础能力。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- IHIC 2024 中国健康保险创新发展大会在上海圆满落幕!
- 2024SACC中国系统架构师大会:探索数字转型与架构演进
- 宝武集团、落基山研究所等将在2024中国绿色钢铁峰会发表演讲
- 有为青年|华为校园公开课走进龙岩学院,loT +鸿蒙开启物联网开发新征程
- 2025中国(郑州)国际电线电缆及线材产业展览会
- 中国欧亚国际军民两用技术产业博览会、中国国际电子信息暨国防电子博览会与中国西安国际航空航天暨无人机展览会
- 专家解读:从传统数据中心到智算中心的三大根本差异
- 跨界!中国第一个物业跨界Plus系列展将于2025年3月29日举办,上海首秀!
- 赛氪承办中国科普作家协会科普活动,聚焦运筹学与物流融合
- 共码未来,待到山花烂漫时,鸿蒙开发者论坛圆满收官!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。