知识图谱丨研究报告
核心摘要:
行业背景:感知到认知的跨越式发展,须引入发展认知技术,知识图谱在此形势下成为了破局的关键技术。数字经济的持续发展将加速知识图谱产业化进度,推动知识图谱与传统产业融合。高性能图计算可为图计算输送更快更准的计算能力,服务于知识图谱运算,算力规模化部署也为知识图谱计算的高密度、高功耗要求提供了有利发展条件。 学习技术、NLP技术、知识图谱技术协同并进,尤其是NLP技术近几年的快速发展为知识图谱产业化提供了机会。
行业规模:2021年,知识图谱核心市场规模预计达到107亿元,而到2026年,相应规模将超过296亿元,2021-2026年CAGR=22.5%。金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识图谱可密切结合,同时具备建设意愿与资金投入,因而成为了市场规模的主要拉力。未来,随着政务数字化建设的完善,政务对知识图谱的业务需求会逐渐唤醒,成为未来市场的拉力之一。
建设重点探讨:知识图谱建设需面临的建设难点主要在于数据治理、行业专家储备、底层图数据库存储、算法生产流程与性能待提升、客户认知待培养以及产品封装形式待优化。攻克知识图谱的建设重难点将有利于从源头保证知识与智慧真实可靠、可用正确,储备培养深厚行业专家与技术复合型专家,升级底层图数据的存储方式,改善算法性能,为知识图谱建设减少阻碍。
趋势展望:未来,知识图谱厂商、大数据厂商、NLP厂商、互联网大厂与信息化厂商等知识图谱业内参与者将从强化技术实力与深化行业认知的角度出发,结合自身原有业务优势,持续深化发展行业知识图谱业务。知识图谱业务场景也将不断迭代,行业应用场景边界拓宽,垂直应用场景被做深做透。知识图谱生态也将继续由监管引导方、供给方、需求方、投资方、高校及科研院所融合共建,汇聚建设合力,促进产业生态成长壮大。
概念与研究范围界定
描绘实体之间关系的数据结构语义网络
知识图谱是人工智能的一大底层技术,是描绘实体之间关系的语义网络,自带语义、逻辑含义和规则,通过三元组即“实体×关系×属性”集合的形式来描述事物之间的关系。知识图谱将非线性世界中的知识信息结构化、可视化,辅助人类进行推理、预判、归类。知识图谱中的图并非图像概念,而是类似化学分子式的结构,一个知识图谱往往存在多种类型的实体与关系。知识结构网络化、网络结构复杂、网络由三元组构成、数据主要由知识库承载是知识图谱的四大基本特征。一般而言,知识图谱的数据以文本化数据为主,数据化数据为辅。
主要任务介绍
五大任务,复杂关联推理为突破重点
一般而言,知识图谱需执行的主要任务包括知识图谱构建与补全、实体统一(消歧)、实体分类、知识检索问答(简单推理)、复杂关系推理。现阶段的复杂关系推理需要更多依赖人类预测与推断各种可能的情况,并优先推荐可能性大的情况。
主流产品类型
成熟产品:通用互联网知识图谱;起步产品:行业知识图谱
知识图谱的产品类型以通用知识图谱与行业知识图谱为典型代表。通用知识图谱经过开拓性构建阶段后,逐渐演变为通用互联网知识图谱,形成搜索引擎、智能推荐、智能问答三大产品类型,产品发展较为成熟。行业知识图谱处于起步期,但其价值及效果逐渐被客户所认可,是知识图谱当前乃至未来一段时期内的发展热点。
产品形态解析
满足其一即可认定为知识图谱产品,五种形态可相互嵌套
知识图谱的产品形态颇有“盲人摸象”之意。各类厂商分别通过自然语言处理、知识库、数据库、数据平台或中台、机器学习等产品逐步接触到知识图谱,在已有的业务基础上叠加知识图谱产品,或开发出独立的知识图谱产品业务线。就当前的五大产品形态而言,其中的任意一种都可算作知识图谱产品,且知识图谱产品一般为五类产品形态的排列组合复合体。
热点探讨一:KG在数据产品中的存在感
业务了解不透彻、产品开发承接性等原因诱发的有限存在感
在各类知识图谱的产品形态中,大数据知识图谱的数据产品属性强于知识图谱属性。在数据中台、大数据平台以及其他数据解决方案中,可频繁观察到知识图谱这一画龙点睛的模块或组件,多数大数据厂商也常常自诩自己具备知识图谱能力。然而,一旦深究其中的知识图谱行业能力、底层技术能力,多数厂商的知识图谱工具往往难以覆盖知识图谱本该具备的完整生产流程,并且缺失核心的Schema建模技术,现阶段知识图谱在大数据产品中的地位及作用就显得十分有限。
热点探讨二:场景知识图谱为发展方向
殊途同归:高价值、实用性强的垂类场景知识图谱
知识图谱产品在当下及未来的行业发展热点主要围绕大数据知识图谱、行业知识图谱两大类产品展开。大数据知识图谱侧,行业参与者主要分化为两大阵营,一类选择做简单的知识图谱可视化展示,不深究场景类产品的开发,另一类则在数据积累的基础上,效仿行业知识图谱厂商做场景的 挖掘与沉淀,以期实现数据治理能力与场景产品化能力的双融合。行业知识图谱侧,知识图谱作为“行业专家”这一概念的火热潮逐渐退却,参与者在看到B端广大市场空间的同时,也深刻意识到搭建高业务价值、强专业性知识图谱的不易,因而招纳更多的业务端人才,弥补业务短板,促成技术与业务的双融合。
产业总规模
金融、公安为市场主要拉力
随着信息化与数字化建设的展开与NLP技术的进步,知识图谱不再局限于网络百科式的搜索,其衍生出了互联网内容与社交、大数据知识图谱与行业知识图谱等多种产品类型,产品专业化与场景化的趋势日渐明显,行业知识图谱已经成为市场开拓重点。金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识图谱可密切结合,具备建设意愿与资金投入,因而成为了市场规模的主要拉力。据艾瑞统计测算,在2021年的行业市场结构中,金融与公安的市场份额合计共占总市场的38.2%。未来,随着政务数字化建设的完善,政务对知识图谱的业务需求会逐渐唤醒,成为未来市场的拉力之一。从市场整体来看,2021年中国知识图谱核心市场规模为107亿元,到2026年,核心市场规模可突破290亿元,2021-2026年CAGR=22.5%。
行业细分赛道表现总览
互联网最成熟,金融为兴起标杆,政务与工业长路漫漫
各行业赛道知识图谱产业情况可从技术、业务、执行三大维度进行评价和对比。互联网是知识图谱产业最成熟的赛道,一般提供轻量级的应用服务,开发难度较低。相比之下,其他行业的知识图谱产业仍处于建设期,且以金融的表现为标杆。政务、工业都有巨大的数据量,但业务专家储备密集度、业务场景明确程度、客户配合度的评价偏低,需要较为漫长的磨合过程。尽管医疗领域的专家储备与业务场景明确度表现较好,但因各级医院资源利益不统一,文本数据理解难度大,其产业发展远不如人们所希冀的高专家水准。
核心产业图谱
• 互联网
行业需求痛点分析
信息碎片化与非结构化突出,产品需持续迭代满足用户需求
一、互联网信息碎片化与非结构化的处理需求
互联网的海量信息带有碎片化与非架构化特征。新兴互联网应用的蓬勃发展,让完整信息被分类分解为信息片段,信息被大量简化,从而导致信息本身不全面、内在逻辑不完整。同时,文本、图片、各类报表和音频、视频、HTML等非结构化数据广泛存在于互联网中。互联网企业需要在现有的存量业务中,收集碎片化信息,处理非结构化数据,挖掘信息间的潜在联系,还原完整的、有价值的信息。然而,信息的关联关系挖掘是一项工作量巨大且复杂的工程。
二、互联网产品迭代与发展的需求
互联网产品的生命周期路径规划需求:任何的互联网产品都会经历探索期、成长期、成熟期、衰退期四大阶段,每一阶段各有其痛点。探索期的产品在设计规范与方向上缺乏可参考的产品,难以找到产品的设计方向;成长期的产品往往同质化严重,难以找到产品的创新点,并在竞品竞争中取胜;成熟期的产品基本定型,需要在产品细节上做设计与把控。针对每一阶段的痛点,都需要做好路径规划,持续进行产品迭代,解决产品所处阶段的核心问题。产品迭代设计规划需要依赖合理可靠的决策依据,而决策依据源自将已经结构化的商品表现数据、行业信息等构建成网络,发现数据之间的潜在关联。
以存量产品迭代为例进行解释:某APP起初以本地生活服务为主打功能,但该APP已经较为成熟,同时期还存在一些竞争对手。产品设计师考虑在现有功能上叠加旅游服务与电商服务,以增加产品的差异化程度。
三、商品与用户信息的精准化、个性化表达需求
商品方面:市场管理差异导致的商品信息差,线上商品存在多种表达方式,标准化程度不足;线上商品缺乏个性化设计与表达,对用户引导不到位,难以激发用户兴趣,不利于用户做出消费决策。
用户方面:网页端与移动端都会留下用户的行为数据痕迹,用户的消费观念隐藏在这些数据以及数据间的关联关系中。若要为用户精准推荐个性化内容,将用户切实转化为消费者,需要对用户的数据进行挖掘,刻画用户画像。
痛点下的知识图谱应用
以智能推荐与辅助决策为核心,满足用户与企业决策者需求
一、碎片化信息聚合,以网络搜索场景为例
预期目标:推荐与检索词条相关的实体,将碎片化信息聚合为不同维度呈现。
核心原理:通过网络信息与数据搭建通用知识库,将具有相关性的信息联系起来,将完整丰富的信息推荐给用户。
核心价值点:盘活长尾冷门的实体,实现碎片化信息聚合,还原完整信息,补充用户未知知识(尤其是时效性与新奇知识),激发用户搜索兴趣。
对应应用:百度百科、搜狗百科、360百科、微信搜索等。
二、存量产品迭代开发,以开拓新业务市场为例
预期目标:提示决策人员业务的生命周期阶段,辅助其进行业务规划。
核心原理:将存量业务数据反馈构建知识图谱网络,判断业务的生命周期阶段,决定是否要迭代业务。
示例:某公司已有的存量业务为电商零售,基于信息后台的知识图谱网络反馈,业务的用户活跃度基本稳定,旧业务已进入成熟期,公司可以寻找存量业务的突破口。图谱提示决策人员公司已经具有物流配送、生鲜供货商、C端用户的资源优势,可考虑开拓生鲜市场。
对应应用:盒马鲜生、七鲜超市等。
三、商品精准导购,以新零售网络购物为例
预期目标:通过对客户多维度信息的挖掘,快速筛选出潜在商品需求。
核心原理:基于用户信息库与商品信息库,构建商品决策知识图谱,在导购的具体场景中推送符合用户偏好的商品。
核心价值点:对于用户而言,快速触达所需的商品种类,提高决策效率;对于商户而言,辅助商品导购,实现商品的个性化推荐与精准营销,增加商品收益。
对应应用:淘宝、京东、网易严选、唯品会等。
四、内容个性化推荐,以餐饮消费推荐为例
预期目标:寻找用户最可能消费的商户,为用户推荐该商户。
核心原理:将用户的消费记录、家乡、历史口味偏好等信息构建成知识图谱网络,计算出不同维度下的推荐分值,分值最高的路径即为推送结果。
核心价值点:对于用户而言,能够为用户提供个性化、多维度的内容推荐,激起用户兴趣,减少对商户评价内容的依赖,缩短用户的筛选时间 ;对于商户而言,能够帮助商户吸引客流,增加业务收入。
对应应用:美团、大众点评等。
• 金融
场景应用分析一:信贷风控业务痛点
信用与欺诈风险加剧,风控手段急需优化升级
信贷,是一种仅以个人信用作为放贷依据的金融业务,具备风险性。传统信贷面临人力依赖性强、数据碎片化、对借款人信息分析不到位等业务痛点,解决方案正是数字化建设。随着金融与科技的融合发展,金融市场正在加速开放,信贷需求也在不断延展,整个金融信贷产业正逐步向无接触信贷转变。基于无接触信贷所展现出的大流量、信息不对称、高可触达特点,信贷业务痛点在原有痛点基础上有所增加:下沉客户质量泥沙俱下,加大了金融业的信贷风险;团伙作案犯罪手段日渐专业化、隐蔽化,欺诈风险提升。引入知识图谱可提升金融风控防范手段,针对痛点2、痛点4、痛点5“对症下药”。
Before:传统信贷业务痛点
1.依赖风控人员经验与人工审批,放款效率低、管理成本高
贷前、贷中、贷后的工作更依赖风控人员经验,需雇佣较多员工,人力成本高;审批方式以人工审批为主,一般需要2-3周以上方能放款,审批时间长、效率低下、手续与流程繁琐。
2.风控数据海量碎片化,尽调成本高、考证难度大,风险识别监测手段弱
在对公业务中,部分项目信息数据呈海量碎片化,尽调成本高、考证难度大,这一问题对于创新型小微企业更为严重,效果有限的风险识别监测手段不利于评估企业客户及其风险事件。
3.依赖历史财务信息进行静态分析,不利于把握借款人真实的经营状况
评估企业信用情况时,银行更多依赖企业历史财务信息进行静态分析,依据较为单一的评价作出信贷决策,难以完全把握借款人真实的经营状况,存在评估局限。
Now:信贷业务痛点增加
4.金融客户下沉,客户信用能力参差不齐,信用风险加剧
伴随着无接触信贷兴起,线上金融业务日益增多,助推金融服务下沉,客户流量入口多元化,随之而来的是金融客户下沉。部分客户是通过第三方平台推荐引入的流量,这些客户的信用能力层次不齐,信用风险加剧。
5.团伙作案日渐组织化、专业化、隐蔽化,欺诈风险提升
保险、贷款和信用卡申请是一些极容易出现信贷欺诈的领域。信贷团伙为实现骗贷,会有组织、有谋划地开展欺诈,其经手的单笔欺诈金额在几千至上万之间。基于信贷团伙犯罪活动呈现出组织化、专业化、隐蔽化的特点,违反犯罪分子具有相关金融行业的从业经历,犯罪手法相较于过去有了较大程度的提高,而金融一线基层人员对信贷团伙作案的识别与防范存在短板,这为金融业的正常稳定运行埋下了巨大隐患。
场景应用分析一:信贷风控原理及应用
基于数据信息搭建网络,从网络中识别异常风险
第一章已提到,知识图谱是复杂的关系语义网络,可以从关系角度提供分析问题的能力,这有利于从正常的特征与行为中挖掘出异常的信用风险与团伙欺诈行为,提升金融机构的风控能力。
针对信用风险:信用能力评估图谱
核心原理:信用能力可依据信息推断预测
对私业务:个人身份、社交关系网络、消费记录、资产负债、年龄等信息可较为客观反映出的实际消费能力。
对公业务:企业间关系,以及司法税务、信贷结算、财务和舆情等业务均可被记录与汇总,这些已记录的信息可透露出借款逾期、负面舆论影响、财务资金漏洞等风险,而风险间具有传导关系,概率大小不一,原因可追溯。
针对欺诈风险:知识图谱助力团伙关系挖掘,实现异常群簇的敏捷识别
核心原理:团伙作案带有群体与共性特征,与正常个体存在明显差异
团伙在信贷诈骗的作案过程中一定会留下蛛蛛丝马迹。犯罪分子为了节约犯罪成本,会倾向于使用同一部手机切换不同的账号,购买的手机一般为成本偏低的安卓手机,手机中的黑产软件使用共同的网点登录,同伙预留的电话号码更有可能为同一电话号码的多种排列组合。同时,犯罪分子的人员规模具备一定的数量特征,人员信息包装上会具备相似的职位身份,年龄也比较相仿,学历固定在某一水平,团队总负债偏高,男女比例有倾斜等。也就是说,犯罪团伙会呈现出针对某一信贷诈骗场景的群体与共性特征,这些特征正是知识图谱中的关系。
在关系网络中,大多数正常个体理应为相互独立的节点,或与另一个节点组成规模为二的团体(多数可能为家人或亲友关系),若出现三个点以上甚至十几个点关系密切时,这些团体可被归为异常。
场景应用分析二:精准营销业务痛点
产品同质化且创新设计力度不足;客户转化难,增量难拓展
场景应用分析二:精准营销原理及应用
基于知识网络识别潜在客户、调整产品设计,提升服务质量
一、银行场景
预期目标:寻找核心企业,做出进一步营销动作。
核心原理:搭建好核心企业的知识图谱网络后,可从图谱中识别核心企业的上下游与产业信息,同时融入票据、贸易、融资、结算数据等,反映出核心企业与上下游企业关系的紧密度,再结合企业的生产周期、实际业务提供金融产品。
示例:核心企业A为智能硬件企业,其上游为销售软件的核心企业F与硬件供应商B。B与A为异地买卖关系,故A让甲银行为其提供信用证业务;而此时A企业正处于快速成长期,需要大量融资,故A向乙银行申请贷款。核心企业D向零售商H赊销产品,H为境外企业,还款期不确定,故D向甲银行申请保理业务。小型企业向核心企业F赊销产品,产生应收账款,小型企业之前向乙银行贷款但现阶段无力偿还,故其将应收账款抵押给乙银行,作为还款用途。
针对业务:贷款业务、中收业务、保理业务、应收账款抵押业务等。
二、保险场景
预期目标:提升服务人员专业素质,提升业务成交率。
核心原理:基于已有的百科、学术文献、专业书籍、保险合同条款建立知识库与知识问答网络,形成庞大的知识体系,在搜索过程中直接匹配相关答案,便于业务人员快速检索学习,掌握相关知识体系。
针对业务:业务人员素质与运营技能培养。
预期目标:关联投保产品的保险责任及对应保障范围,快速推理得出理赔责任,防范理赔风险,降低误赔率。
核心原理:通过已有数据构建理赔网络推理理赔结论。
示例:车险理赔的条件一般包括报案记录、索赔单证等,基于搭建好的条件网络,输入条件,符合网络条件才能推理出理赔结论。
针对业务:各类险种的理赔环节。
三、银行&保险共同场景
预期目标:寻找潜在消费者,依据新需求设计新产品出售。
核心业务:首先进行公域、商域、私域流量的转化,后将知识图谱与机器学习的数据挖掘结合,完成数据治理后,形成消费者行为标签,刻画消费者画像,对消费者进行分组,并基于某一群组的新需求搭建新产品知识网络,设计出新产品。
针对营销点:场景化、专业化、差异化、复杂多样的产品设计更新,如重疾险涉及到的医学层面知识极为丰富,知识面广,病种繁多,需结合具体病种与专门的理赔计算方式才能设计出符合客户需求的产品。
• 政务与公安
场景应用分析一:公安研判分析与预警
依据知识库快速搭建网络分析案情,克服内外部业务痛点
Part1:外部情况
传统犯罪变化:传统犯罪向动态化、组织化、集团化、专业化发展,并在加速“上网”,在现代化程度高的都市更是呈现出高科技犯罪与犯罪主体年轻化与智能化的特点。
新兴网络犯罪丛生:以互联网为手段的新型网络犯罪不断凸显,呈高发多发态势,危害日益严重。新型网络犯罪具有隐蔽性、迷惑性、衍变性,其借助互联网与移动互联等技术使大量犯罪由现实空间转入虚拟空间,以网络诈骗为主要类型。
社会人口动态化:伴随着交通方式进步而来的是社会人口与物品的流动性加强,这为人口跨地域作案提供了便利,提升了社会治理难度。
Part2:外部情况
打击犯罪新手段亟待提升:面对外界变化,公安在传统犯罪、新型网络犯罪中难以发现并挖掘人口与案件的关系,打击犯罪新手段急需结合公安大数据与知识图谱等新技术,增强作战实力。
编制有限但群众警情需求量大:因政府编制的特性,公安人员数量有限,但要处理大量的侦查案件,急需使用新技术协助或解放人力。
涉毒团伙网络挖掘
预期目标:挖掘毒品交易与贩毒团伙网络,快速掌握贩毒证据,制定抓捕方案。
核心原理及效果:通过已有专题数据库与知识图谱技术快速构建贩毒网络,及时发现动态化、多变的团伙关系。
示例:尿检为阳性的甲经常前往吸毒人员经常出没的A酒吧,并收取丙的多笔大金额转账,还向乙发起多笔大金额转账,并与经常出没于边境的丁有联系,因此甲、乙、丁极有可能是涉毒团伙。
服务警种:禁毒与缉毒警察。
网络诈骗网络挖掘
预期目标:挖掘网络诈骗团伙,打击应对专业化的诈骗犯罪。
核心原理:通过已有专题数据库与知识图谱技术快速构建诈骗关系网络,研判分析犯罪团伙的组织分工关系。
示例:王某使用张某的身份注册A软件与张女士假意恋爱并骗取其钱财,然而王某的登陆地为菲律宾,且其通过表面为购物软件的B软件购买张某的身份信息;B软件为李某所开发,其使用两套代码让B软件能够在购物软件与身份售卖软件之间切换。
服务警种:刑侦与经侦等。
场景应用分析四:应急管理
以知识库、关联推理及危险人/物管理服务为核心产品
1.知识体系庞大且信息维度复杂
应急管理涉及管理、法律、理科、土木等多个专业学科领域,学科专业性强,整个认知体系具备信息量庞大、信息维度复杂、信息关联紧密等特点。
2.应急预案可操作性差且建设不完备
部分已制定的各种处置突发性事件预案与应急实践脱节,有的单位对不同层次的预案概念不清,特别是对专项预案、部门预案会存在没有及时补充修订、没有经过专家论证等问题。
3.缺乏智能决策支持
尚未充分挖掘并利用紧急事件的数据及数据间的关系,紧急事件缺乏基于数据与知识作支撑的事前、事发、事中、事后4个阶段的决策支持。
应用举例
预期目标:及时出具紧急方案,实现抢险救灾。
核心原理及效果:依据地震的即时数据与资料,以及城市自身的区位条件、周围城市物资与人力的响应速度等数据,结合知识中台的知识库与自动化工具,快速构建地震抢险救灾知识图谱,形成第一时间的应急解决方案。
示例:某市发生重大地震,急需制定应急管理解决方案。通过应急管理知识图谱,该市基于数据形成发生时间、地理位置等实体且发散关联关系,寻找历史相似案例,对比出具方案,并依据应急知识库列出所需物资,辅助救灾人员完成方案思考与拟定。
• 医疗
场景应用分析一:医疗流程辅助
辅助院内外医疗流程,提升服务效率
一、主要业务痛点
Part1:患者端
诊疗人次基数大:攀升的诊疗人次意味着医疗卫生需求的增加,诊疗需求缺口逐步扩大。据统计,2021年中国卫生机构诊疗人次已接近85亿人次,已恢复至疫情前水平。
人均医疗卫生费用增加:2021年中国人均卫生费用已突破5300元,相比去年增长4.6%,居民在个人医疗卫生上的花费增加。
Part2:医院端
三级医院:资深医师工作超负荷,诊疗方案出具量巨大;患者等待时间长,易产生医患矛盾;年轻医师资历不足,需要持续指导。
二级医院:资深医师数量有限,诊断能力较低,可能存在误诊漏诊情况。
一级及未定级医院:机构数量最多,是国家推进分级诊疗的重点分诊医疗机构层级,但医师与医疗设备稀缺,诊疗经验不足,误诊漏诊现象较为严重。
Part3:监管侧
多重因素加剧医保支出,医保控费趋紧:居民自身的合理的医保消费、人口老龄化的医保支持、疾病谱改变和新病种的出现等不可控因素,以及医保费用增长存在供方诱导需求与需方过度消费等可控因素,都直接或间接地导致医保费用的增长。
DRGs付费工作持续推进:在医保局、卫健委的推动下,DGRs付费的试点区域扩大,控费方式逐步精细化,急需借助数字化与智能化手段辅助DRGs分组。
二、应用建设现状
Part1:已嵌入应用
CDSS:将医学知识库与医疗实例构建成知识图谱网络,在诊中服务于单病种或多病种辅助诊断,达到分诊效果。
智慧病案与DRGs:将病历与疾病数据构建成知识图谱网络,关联患者疾病与应享有的医保支付范围,控制医保开支。
智能医药:将患者病历的临床诊断与药物做关联,辅助药方出具、提供用药建议,并进行用药审核。
Part2:应用水平
CDSS达到初级应用阶段:针对感冒、肺结节等简单病种可提供辅助诊断服务,在初级智能分诊服务应用比较广泛。
中高级应用仍在研发:针对中级的智能影像辅助分析诊断、高级的DRGs与智能用药,还停留在实验研究阶段。
Part3:应用建设不足
急于评级而忽视质量:受评级相关政策的影响,厂商为搭上评级的“快车”,将CDSS等产品作为评级创收的工具,忽视了知识图谱临床价值 的开发。
基本库建设欠缺:基本库包括疾病库、治疗库、药品库、个人健康档案、医生档案等,现阶段的基本库并不完整,库中的数据资料也不充足,难以进行调研与Schema构建。
三、应用举例
案例1:CDSS临床辅助决策
预期目标:依据临床症状的关联节点,辅助年轻医师或一级及未定级医院诊断出恶性肺结节。
核心原理:基于疾病库与患者的个人健康档案,将恶性肺结节症状与患者A的临床症状关联起来,并查看患者A的疾病史,提示医师患者A可能患有恶性肺结节。
服务部门:门诊部、检测部。
案例2:DRGs疾病与医保关联审核
预期目标:依据短期急性患者B的临床诊断与症状等关联节点,进行DRGs分组,核实医保可报销的治疗费用范围。
核心原理:基于疾病库、患者的个人健康档案、CHS-DRG目录等知识库,将患者B的临床症状、手术复杂度等的相关内容与心脏移植手术的相关内容做关联,提示患者B的术后排异治疗在医保报销范围。
服务机构:医院与医保局。
场景应用分析二:医学科研
创新科研方法,提升科研创新实力与研究效率
一、主要业务痛点
Part1:临床科学研究
文献筛选量大、复杂度高:对顶级三甲医院而言,为进行临床科研创新研究,获取学术排名,其需要自创领先的医学论文作支持,而医学论文中的文献参考、病理假设推断与数据关联等关键工作带有筛选量大、复杂度高的特点,研究人员急需借助数智化工具提升科研工作效率与成功的可能性。
Part2:药物研发
居民疾病负担加重:我国的心血管疾病与癌症负担最重,且随着我国人均期望寿命的延长与老龄化加剧,慢性呼吸疾病、糖尿病与肾病、肌肉骨骼失调等慢性疾病负担亦会加重。此外,疫情的出现与变异对整体社会面的健康卫生造成巨大威胁。由此,针对各类慢性病、癌症与传染性疾病,自主研发创新药物,减轻居民疾病负担已成为制药的一大趋势。
药企的经济利益与药物研发业务难度驱动:一方面,药企药物研发成功可获取创新药专利,抢占新药专利红利,但国内药企的创新药专利较为稀缺;另一方面,药物研发具有高技术、高投入、高风险、低成功率、审批慢的痛点,药物发现阶段的数据量与计算量巨大。
国家控制药物成本的工作持续推进:提升药物创新研发能力,不仅可以控制外国药物进口成本,而且可以改善病人因经济问题无法购药的问题。
二、与机器学习相比,知识图谱在药物研发领域的优势
1.频繁子图挖掘
机器学习的数据特征更多依赖人为筛选,而知识图谱可以做到频繁子图挖掘,即从大量的图中挖掘出满足给定支持度的频繁子图,同时依据算法保证这些频繁图不重复。知识图谱的图特性使其可以更快更自动化地挖掘出药物子图。
2.数据维度丰富
知识图谱可基于多维度数据构建药物知识库,将病理学、历史用药导致结果等多角度的数据进行关联整合分析,以直观的图形式揭示复杂的药物原理与推理关系,为药物研发提供便捷的工具。
3.可解释性增强
相比于机器学习的黑箱问题缺陷,知识图谱可以结合贝叶斯网络与GNN等算法,过程中的每一参数与节点流程都可展示呈现,可为数据分析、逻辑推理提供更有说服力的证据链与证据流程,提高模型的可解释性。
• 工业与电力
场景应用分析一:产品与工艺创新研发
高附加值环节依赖国外,需借助知识图谱创新产品与工艺
一、主要业务痛点:新产品与新工艺研发设计不足
高附加值环节依赖国外:国内在低端产品制造方面产能过剩,但在高端精细化工业产品的生产工艺上仍然依赖国外,高技术、高附加值产品不足。
研究积累薄弱:在化工原理、反应机理、油气勘探、核心零部件设计等基础研究方面,国内的研究积累比较薄弱,需要将专业知识与经验进行体系化梳理,辅助新产品与新工艺研发。
二、知识图谱搭建过程
知识梳理:知识图谱搭建的第一步,需要将业务体系下的行业知识梳理好。
边界确定:如某一细分领域为氨纶,将氨纶的业内专家、化工原理等梳理成知识体,明确研究范围。
采集过程:包含知识清洗、知识对齐、知识存储。
管理目的:建立管理机制,对知识进行增减与更新。
三、知识图谱应用举例:以半导体光刻胶的产品与工艺研发设计为例
预期目标:发现新型半导体光刻胶产品或工艺研发设计方法,逐步实现半导体光刻胶国产化替代。
核心原理:基于搭建好的半导体光刻胶知识库,构建知识图谱网络,发掘不同类型的半导体光刻胶的特性、化工原理、适用的光刻工艺,光刻工艺细节等。
业务价值:以直观的形式展现产品与工艺研发知识中的隐性关系,辅助关联关系与知识点间相互关系的发现,激发研究思路。
服务对象:产品与工艺研发人员。
所需数据特点:以文本化数据为主,因为产品与工艺研发类的知识图谱更多以专业知识为基础进行搭建。
场景应用分析二:安全质量控制
检修与缺陷排查耗时费力,知识图谱快速提供原因与措施
一、主要业务痛点
Part1:设备易发多发故障,检修知识与经验需汇聚沉淀
工业生产流程与电力调度过程涉及到多类型、多数量的设备,这些设备都有专业的操作步骤与检修知识,设备故障分析耗费大量人力与时间,而故障的历史数据或检修经验尚未被系统化地汇集、开发与利用。如何围绕设备故障的核心数据与经验,提高故障处理效率,节省成立成本与重复性工作,是设备检修的业务难题。
Part2:产品/设备可能存在潜在缺陷,需进行缺陷排查
工业与电力对产品/设备的严谨性与安全性存在高要求,这就需求相关人员对工业/电力整体生产流程所设计设备的安全性、可控性进行严格把关,并进行失效影响分析,完成生产异常溯源,其中涉及大量专业知识与假设,分析检查过程难度大且时间长。
Part3:人力分析可能存在失误或不全面,新手需工具辅助
完全依赖人力劳动带有不可避免的局限性,如因疲劳所导致的失误判断、因认知有限所导致的分析不全面等。此外,新手与经验丰富的专家存在业务能力差距,需要专业简易的工具辅助。
二、知识图谱核心业务价值
多维度知识关联,快速响应机制建立
知识图谱的广度与维度很多,可以将设备知识、细分领域知识、部门业务职能等多个维度的知识关联起来,从多维全面的角度去分析问题;
在设备发生故障时,知识图谱可以快速找到解决方案,如需要什么职位的人去解决、故障的现象可以关联到哪些原因等。
在发现设备缺陷时,知识图谱可以溯源至生产厂商、生产环节与流程等,快速分析缺陷原因。
三、应用举例
预期目标:快速发现变压器001的故障原因,并采取相应措施,保证变压器安全并恢复供电。
核心原理:基于过往的变电站故障原因与知识手册等搭建知识图谱网络,根据故障现象快速定位原因与措施。
所需数据特点:以文本数据为主,包含设备知识指南与手册、基本概念、检修经验等。结构化数据可作为数值属性而存在,作为某一故障的具体体现。
触发流程:现场故障设备运行数据发出警告信息——故障文本数据和系统数据构建知识图谱——逻辑分析运算——处置结果产生。
场景应用分析三:供应链管理
通过多维知识图谱网络解决供应链物资供应与成本管理难题
物资供应难以匹配采购需求
采购周期不足导致物资难以到货:部分工业企业进行采购时,仅考虑市场需求而缺少对库存与采购量之间的衡量,有的领域(如煤炭)采购计划性差,需要随买随用,预留的采购时间紧张,可能带来供应不足或断供的影响。
采购价格与物资质量难以平衡:采购方希望以较低的成本换取优质的物资,但实际采购时由于中间环节多、价格不透明、生产工作量改变等因素的影响,很难找到采购价格与物资品质之间的平衡点。
供应链成本压力加剧
高库存导致的现金流压力:因地租成本、企业担心潜在的销售损失、客户取消订单、老库存消化不足、产品设计变更或废止等因素的影响,制造业一直存在高库存问题,这对制造企业的现金流造成了不小的现金流压力。
其他因素导致的供应链成本压力:信息流、物流和资金流的信息不透明且多变,以及工业产品设计的不合理等都会加大供应链的复杂程度和管理难度,最终增加供应链成本。
案例1: 知识图谱辅助物资补给
预期目标:及时为车企A供应发动机,为车辆提供组装零部件,满足出货需求。
核心原理:基于供应链知识图谱网络,及时发现甲类发动机的缺货状态,寻找性能型号相似的一类发动机进行弥补,并比对多家供应商乙类发动机的产品售价与运输时间,辅助车企A选择性价比更高、运输时间更短的供货方案。
强需求细分领域:因离散工业需组装来自多方供应商的元件、部件等,供货受到企业与供应商关系、供应商内部生产等多重因素的影响,故对供应链知识图谱有较强需求。
案例2: 知识图谱协助成本分析与营销策略制定
预期目标:帮助企业B分析LCD显示器生产成本上涨原因,并基于此调整营销策略。
核心原理:基于供应链知识图谱网络,发现LCD显示器生产成本提高的原因为导电玻璃的供应商C升级了镀膜技术,提示企业B提前制定相应的显示器促销方案,应对由成本上升所导致的售价上升、销量降低的情况。
服务对象:财务分析人员与市场营销人员。
强需求细分领域:与个人消费密切相关的食品工业、电子产品工业等。
持续进行数据治理工程
从源头保证知识与智慧真实可靠、可用正确
数据治理为知识图谱输送数据源,是知识图谱构建的前置环节与基础性工程。完备良好的数据治理不仅能确保知识图谱在搭建过程中获取真实可靠的数据原料,而且能从源头上改善信息质量,提升知识的准确度,建立符合人类认知体系的数据资源池。但是,数据治理在知识图谱(尤其是行业知识图谱)建设卡点中是一个老生常谈的问题。知识图谱应用始终要围绕数据标签、数据清洗、数据归一、数据销毁等数据治理环节展开,应用开发人员往往需要在前期的数据治理工作中投入大量时间和人力,以确保数据源的真实性、可靠性、可用性、正确性。当前,数据标准不统一、数据噪声大、领域数据集缺失、数据可信度异常等数据治理难题依然困扰着知识图谱研发者,持续进行数据治理工程是业内参与者艰巨的使命与职责。
储备培养行业专家与技术专家
缺乏深厚行业专家与技术复合型专家,需做好储备培养工作
目前知识图谱行业整体处于开发资源待完善的局面,行业与技术专家资源稀缺属于其中的一部分情况。一方面,缺少具备深厚行业经验的专家。由于行业知识图谱与行业的关联度高,开发人员需要迅速了解业务与客户需求,在行业专家的指导下完成Schema构建,若涉及到文本抽取工作还需要行业专家进行数据标注,而各行各业中的行业专家往往仅有极少数。对此,供给方企业需要锁定行业业务的强项领域、提前招募培养行业专家、进行内外协作,以完成行业专家储备。另一方面,缺少技术复合型专家。整个知识图谱应用生产流程不仅涉及知识图谱算法,生产流程的靠前环节还涉及到底层的图数据存储与数据治理、NLP文本抽取和语义转换,同时各环节都渗透着机器学习这一底层人工智能技术。这意味着整个生产流程需要多个技术领域的工程师协同合作,而对整套技术均有了解的技术专家数量稀缺。对此,供给方企业需要在项目中让技术实施人员沉淀复合型知识经验,让企业内部多方的技术专家进行错位交流,进行业务培训,以完成技术复合型专家的培养。
研发国产化图数据库
特殊的图存储结构对底层存储技术提出升级需求
由于知识图谱是二维链接的图结构而非行或列的表结构,其需以图数据的形式描述并存储,该方式能直接反应知识图谱的内部结构,有利于知识查询,结合图计算算法进行知识的 挖掘与推理。满足这一存储要求的数据库为近几年兴起的图数据库。相比于传统的关系型数据库,图数据库的数据模型以节点和边来体现,可大大缩短关联关系的查询执行时间,支持半结构化数据存储,展示多维度的关联关系。高效便捷的新技术往往意味着更高的研发门槛。从时间与归属方面看,全球第一款商用图数据库为2007年诞生的Neo4j,往后十年间的图数据库研发商基本分布于海外,而我国第一款商用图数据库为2017年上线的Galaxybase,比海外布局晚了近十年。从受欢迎度来看,Neo4j以59.4分一骑绝尘,占领着图数据库市场的高地。随着国内各行业知识图谱应用的加深,传统关系型数据库的不足逐渐显现,研发国产化底层图数据库成为了推进知识图谱应用的一大底层技术关键点,同时也从国家战略角度推动国产信创核心自主可控的步伐。
不断攻克算法难点
生产流程与算法性能各有难点,有赖于多方协同攻坚
在知识图谱的搭建过程中,仍然面临着各类算法难点,主要难点可归结为生产流程中的算法难点和算法性能上的难点。前者体现为知识获取受数据集限制、知识融合干扰因素较多、知识计算的数据集与算力不足等问题,而后者体现为算法泛化能力不足、鲁棒性不足、缺乏统一测评指标等问题。算法上的难点有赖于供需双方、学术界、政府持续攻坚,而非一方努力即可收获成功。
优化市场开拓策略
培养客户内生需求,探索高性价比产品形式
现阶段,知识图谱的市场开拓面临着两大难点:客户认知有待培养与技术产品化能力欠缺。从需求方角度看,广大潜在客户对知识图谱普遍缺乏认知,不知道知识图谱产品与技术的存在,采购意识尚未觉醒,而机会客户对知识图谱多持观望态度,不确定知识图谱能否为自身业务带来价值。从供给方角度看,厂商开发一整套知识图谱解决方案会涉及建模、求解、应用三方面的巨大成本,需要将成本以保证盈利且客户能够承担的思路分摊到各类费用中。各类费用汇总一般会形成售价较高的重量级解决方案,而重量级解决方案的市场受众有限,性价比高的轻量级产品更符合广大客户偏好。如何将高成本开发出的重量级技术解决方案以“小而美”且经济实惠的方式封装并出售,是厂商不得不解决的问题。
行业竞争格局走势
五方盘踞,以强化技术实力与深化行业认知为业务发展方向
我国当前的知识图谱市场主要为五方所盘踞:知识图谱厂商、大数据厂商、NLP 厂商、互联网大厂、信息化厂商。五类厂商优势各异,可将自身特殊优势作为“出牌技巧”,打出打好知识图谱这张业务牌。尽管各方的知识图谱业务开拓方式不一,但未来都以强化技术实力与深化行业认知为发展方向,以寻求良好的知识图谱业务回馈。
五类厂商优势及知识图谱业务发展方向
知识图谱厂商:具备行业知识图谱先发优势,对传统行业有较为领先的积累,行业认知较强,知识图谱技术资深,行业场景逻辑实力强。未来将朝更多行业拓展业务场景,深化行业理解并提高技术实力。
大数据厂商:拥有数字化客群基础与数据积累,数据治理能力强,数据意识敏感,可在重量级数字化解决方案中捆绑知识图谱能力及产品出售。未来将在数字化业务基础上开发知识图谱行业业务场景,强化知识图谱技术。
NLP厂商:具备NLP技术优势,可结合语音语义产品配套售卖知识图谱产品,知识图谱产品相对轻量化。未来将在NLP业务基础上开拓行业知识图谱业务,实现NLP与知识图谱技术一体化。
互联网大厂:具备知识图谱底层技术实力,可将内部经验与资源作为开拓传统行业市场的利器。未来仍以自身的通用知识图谱业务为知识图谱业务主力,并以产业互联网为方向,深化行业认知与积累,开拓行业知识图谱业务。
信息化厂商:拥有信息化客群基础与数据积累,行业认知较深,可迎合客户使用习惯直接叠加开发知识图谱产品。未来将在信息化存量业务的基础上,提升技术实力,开拓行业知识图谱业务。
知识图谱应用场景迭代
行业应用场景边界拓宽,垂直应用场景被做深做透
前文已经提到,高价值且实用性强的垂直场景知识图谱是未来的业务发展方向,这属于知识图谱应用场景迭代发展的内容。在知识图谱行业发展过程中,知识图谱业务的应用场景可持续迭代场景广度与 。一方面,各行业对知识图谱的认知与需求被唤醒,行业应用场景边界拓宽,知识图谱应用模型能力泛化,多种行业应用同时实现落地。另一方面,随着行业认知加深与技术进步,技术与业务的结合点愈发精准,行业场景颗粒度不断收敛细化。高价值且实用性强的垂直场景得到重视,循序渐进地被做深做透,为传统企业的业务带来显著的业务增效。
知识图谱产业生态构建
产业各方融合共建,产业生态逐步成长壮大
知识图谱生态需由监管引导方、供给方、需求方、投资方、高校及科研院所融合共建,汇聚建设合力,促进产业生态成长壮大。各方相互提供资源支持,促成政策、人才、技术、资本、市场、商业的交互,探索与克服知识图谱行业技术与业务难点,共同收获产业发展价值,实现价值创造与价值分配的有机结合,形成共生共赢的合作体系,推动产业不断向前发展。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 中国(长三角) 生活物资保供与城郊大仓基地高质量建设运营论坛海宁成功举办
- 2024中国国际厨卫家居博览会(KIB)&2024亚洲潮电博览会(ACE)圆满闭幕!
- 【早鸟倒计时3天,每人减800元】工业废水、城镇污水污泥、盐湖提锂三个主题|大咖面对面交流,政策/技术/采购一站式服务
- 聚焦行业趋势,拓展商业视野 2025江苏国际制药机械展览会
- 创新引领 智测未来| 2024未来汽车测试与检测峰会在上海隆重召开
- 荣格PCT 广州站11月27-28日广州盛大开幕,5000+个护行业代表共襄盛举!
- 鸿蒙生态崛起,开发者如何抓住这波“红利”?
- 2024长沙·中国1024程序员节圆满落幕,共探智能应用新生态
- 顺丰智慧安检平台亮相万国邮联世界领导人论坛,以AI增强客户信任
- 2025上海国际嵌入式展
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。