AI商业化之争:高质量NLP数据成“抢手货”

如今调戏Siri已经成为网友们的固定节目。数据显示,苹果语音助手Siri大约每天会收到全国427000个问题,其中80%的问题都是:“你会说东北/四川/湖南话吗?”“来段beatbox好吗?”

编辑 ​

不得不说,Siri真的为人类付出太多了。事实上,像Siri这样的AI聊天机器人,生来并不是为了逗笑人们,而是作为一个虚拟AI助手,去帮助用户解决生活中各种各样的问题,比如天气预报、吃饭订餐、查询新闻资讯、交通路线等等。

这背后,不乏有AI企业的深耕细作,同时也有众多传统企业智能化转型,运用AI技术优化用户体验、增强企业协同效率等。

然而,由于AI聊天机器人背后的NLP(自然语言处理)技术太过艰深,打通了NLP技术的“任督六脉”,几乎等同于拥有了人类的认知智能,因此至今没有任何一个科技巨头敢宣称自己的AI产品拥有和人类一样的语言和认知能力。

这也是为什么尽管苹果Siri、亚马逊Alexa、谷歌Google Assistant、微软Cortana等各种AI聊天机器人,每天都在孜孜不倦地改进自己的NLP技术能力,但是在和人类的对话中,依然会出现令人发笑、困惑、担忧等多种结果的原因。

最近,亚马逊Alexa再次爆出负面新闻,有用户称在使用Alexa期间,提问过有关心跳周期信息的问题,Alexa竟回应称“心跳是人体中最糟糕的过程,人活着会导致自然资源的迅速枯竭同时会导致人口过剩”,并建议用户刺死自己。

这种恐怖的对话,不禁让人们想起了2016年微软推出的一款AI聊天机器人Tay,上线不到一天的时间就被网友们教成了满口脏话的“小孩”,在Twitter上大肆发布各种胡言乱语的帖子,导致Tay在24小时内被迫下架。

如果一个“智能低下”、“胡言乱语”的AI被广泛应用于商业化产品中,其后果可想而知,不仅是AI产品质量饱受质疑,还可能会酿成大祸。因此,提升AI产品的认知智能水平,即背后的NLP技术,成为现阶段AI商业化竞争的关键点。

事实上,NLP作为AI技术中的一个重要分支,同样依赖算力、算法、数据三因素。其中,算力基于IT基础设施的发展,NLP算法基于 学习的突破,在近年来都得到了较大的进展,但是作为NLP技术得以落地的“养料”——NLP数据,却一直处于较为“粗糙”的状态。

编辑 ​

从草莽到高标准

NLP数据服务进入4.0时代

人工智能时代,数据的重要性不言而喻。很多号称拥有海量数据的公司,其实有的只是非结构化或未标注过的数据。数据标注,才是将数据转化为AI商业价值的重要一环。

数据标注,即针对语音、图像、文本等数据,通过贴标签、做记号、标颜色或划重点的方式,来标注出其中目标数据的不同点、相似点或类别。有了被标注过的数据,AI算法才能在其基础上进行训练和学习。同时,数据标注的质量越高,AI学习和产出的结果越精确,AI也就显得越智能。

举个例子,在生活中如果想要订机票,人们会有很多种表达:“订机票”;“有去上海的航班么”;“要出差,帮我查下机票”;“查下航班,下周二出发去上海”......这些表达方式,有无穷多的组合,都代表“订机票”的意图。听到这些表达的AI,要如何才能准确理解这些表达指的都是“订机票”这件事?

如果没有数据标注员对大量的句子进行标注,比如提炼出主题、标出实体、进行意图分类、情感分类等等,给AI提供详尽高质的“教材”,那么AI即使有了算法和算力,也无法训练出任何“智能”。

随着近年来 学习算法的兴起,需要依赖于大量标注的数据基础上才能发挥作用,业界对数据标注的需求量随之暴增,因而提供数据标注服务成为AI领域一个热门生意。

在全球知名的数据标注众包平台亚马逊Mechanical Turk上,发布者只需要填写简单的个人信息就可以开始工作,自行上传标注任务。截至2011年1月,MechanicalTurk上的注册工人数量已经达到了50万。在2016年,有大约5%的美国人通过 MechanicalTurk赚钱,而这个数量已经超过了优步司机。

在中国,目前全国从事数据标注业务的公司约有几百家,全职的数据标注从业者有约20万人,兼职数据标注从业者有约100万人。由于数据标注需求的井喷,为整个数据服务行业的发展按下了快进键。

据智研报告显示,2018年,中国数据标注与审核行业的市场规模已达到52.55亿元。在数据标注赛道中,不乏互联网大厂的身影,更多的是疯狂涌入的创业公司。在廉价劳动力迅速扩张的比拼中,数据粗放、混乱、复用的情况屡见不鲜,整个行业呈现出一派草莽的气质。

然而,数据标注工作真的有想象中的那么简单吗?良莠不齐的标注数据质量,真的能够满足AI算法迭代的要求吗?

在AI商业化初期,AI算法对数据的精度要求不高,日常的AI训练首先要求数据量大,数据标注质量要求相对不那么严格。但是随着AI与各个产业结合得愈加紧密,AI商业化程度进入新的高度,企业对AI在商业化落地中的表现要求越来越高。为了保证AI算法的识别精度,数据标注的质量也就变得至关重要。

例如,在金融保险行业,早期对AI客服机器人的要求只停留在“用户提问后,对其中的关键词进行提取,并按照既定话术回答”。虽然最终回复很多是驴唇不对马嘴,或者根本无法回答用户的问题,但是并不妨碍保险业务的正常开展,毕竟人工客服才是回答用户提问的主力军。

但是在互联网金融业务竞争异常激烈的今天,越来越多的用户习惯在网上办理业务,AI客服机器人正在大规模地取代人工客服,AI问答的准确性将直接决定业务的效率和成本,并影响用户体验,很大程度上决定了金融机构的竞争力。

如果说NLP标注数据的初期阶段,能够将各大金融机构的AI客服机器人训练到大致相当的初级认知智能水平,那么向更高级认知智能进发的每一步,都要求质量更高、针对特定需求提供的NLP标注数据。

因此,云测数据这种新的数据服务模式——以企业具体需求进行数据采集和标注的定制化、高质量数据服务由此诞生。

编辑 ​

站在AI数据服务的发展历史角度看,从数据1.0时代的互联网沉积数据,到数据2.0时代的通用型数据产品,再到数据3.0时代的众包数据服务,如今的高质量数据服务已经进入了数据4.0时代。

通过更加规范性的组织管理和质量控制,为人工智能迭代提供质量更高更可靠的数据服务,从而为现阶段AI商业化竞争提供高质量的数据支撑。

“抢手”的高质量NLP数据

“稀缺”的数据服务商

事实上,越来越多的企业已经意识到了高质量NLP数据的重要性。当AI技术落地到金融、家居、医疗、教育、汽车、工业等各个行业,在AI商业化下诞生的客服机器人、智能音箱、智能问诊等各种AI产品,都对AI技术和NLP数据提出了更高的要求。

编辑 ​

尤其是行业头部企业,为了保持自身的竞争优势,哪怕只是在行业平均水平上提升1%-2%的AI认知智能的准确性,也必须追求更高质量的、符合业务需求的NLP数据。因此,在AI产业蓬勃发展、市场竞争愈发激烈的倒逼下,符合企业需求的高标准NLP数据服务已成为行业头部企业的刚需。

然而,在汹涌的市场需求面前,供给侧却出现了短缺,市面上能够提供这种高标准服务的公司屈指可数。究其原因在于,数据采标行业门槛虽低,但天花板很高,能做到顶尖并不容易。在这一新兴领域,专精于定制化、场景化、高质量数据服务的云测数据一路高歌猛进,成为国内AI数据标注领域的头部企业。

云测数据采用自建的数据场景实验室和数据标注基地,为智能驾驶、智能家居、智慧城市、智慧金融、零售等领域提供的数据采集、数据标注服务。在众多毫无技术含量、以廉价劳动力构建的数据标注“血汗工厂”中,主打高质量服务的云测数据显得颇有些“另类”。

首先,为了产出更高质量的数据,云测数据有一整套的标准化流程和方法论。

在项目前期,项目经理会与客户反复沟通,帮助客户梳理更贴合实际情况的需求,达成一致后再逐渐引入标注和质检人员,通过每天面对面的沟通和培训,以确保每个人能够理解并掌握标注有关技术,试标验收合格后,再进行大批量的规模性标注。

编辑 ​

在项目过程中,为了确保标注人员能够做出正确的判断,云测数据有专门的培训师,对每个行业细分领域的专业知识进行培训,以及标注技能和业务流程的培训。甚至员工之间开玩笑的说“经过金融保险行业知识培训的标注员们,都能够直接去卖保险“。

在数据标注作业提交后,云测数据还有三层质检环节,对于准确率达不到要求的数据会打回重新标注。在完成三层质检后,还有抽检环节,确保数据的高质量输出。

其次,在人员作业素质上,云测数据也颠覆了传统数据标注行业的“混乱”气质,对数据服务团队的专业化能力有着严格要求。

以智能客服业务场景为例,当客服询问用户是否购买此商品时,各种用户会给出不同回答:“我要和家人商量一下”;“我会考虑”;“我现在不方便,你一会儿再打过来”等等,背后的意图有很多种,可能是暂不购买,暂不考虑,拒绝购买或者兴趣较大。那么,NLP数据标注就需要对这些对话背后的意图进行标注和分类。

在云测数据,以智能客服单个场景的意图标注,就分为10-20个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。

除了对NLP数据进行对话意图、领域、槽位等进行判断和标注,多角度的泛化也必不可少。也就是说,无论用户说的是地方话还是普通话,有没有出现口误,还是以不同的句子表达同一个意思,AI都能够读懂句子并给出正确的回答,这就要求NLP数据标注员对句子进行泛化,以不同的描述方式重组或扩充句式、标签等,以提升AI对话的准确度。

编辑 ​

值得注意的是,相比图像、视频等数据类型,NLP数据采标方式更为复杂。据云测数据总经理贾宇航介绍,图像采标有很强的规则性,按照规范化的指导文档工作即可。

但NLP数据对应的是语言的丰富性,需要结合上下文等背景去理解和处理,客户给出的需求文档只是让数据服务人员能够理解,这件事情背后的目标和意义是什么。在这一过程中需要数据服务人员对需求进行拆解、预判甚至提前给出建议,与客户反复沟通确认达成一致后,才能真正地去作业。

这对于数据服务人员的专业化能力、对业务场景的还原能力、作业协同能力,都有很高的要求。尤其在医疗、法律、教育、智能驾驶等高度专业化的领域中,标注人员并不是随便找一个普通人员就可以做,标注人员需要非常专业,才能进行正确的数据标注与解读。

为了保证整个数据团队的专业能力,云测数据在人才的选拔、培训、考核、晋升上有着完善的机制,也对保证数据保质量产出有着十分积极的促进作用。

再次,在技术层面,云测数据对软硬件设施的持续投入,直接拉高了行业的进入门槛。

云测数据自研的数据标注平台会根据实际使用中的反馈,以每周甚至更快的频率进行功能迭代,以技术结合更多的落地场景,不断提升数据标注工具的技术含量。同时,云测数据也致力于通过工程化开发来减轻数据标注中的重复劳动,提升业务效率。

最后,在企业客户最为看重的数据安全和隐私方面,云测数据也有自己的原则和技术保障。

第一,数据绝不复用,是云测数据的核心原则。对于客户定制的数据需求,交付后全部清删,云测数据既不会自己留底,也不会把定制数据复制给其他客户,可以说云测数据一直在花大力气树立数据安全和隐私的标杆,以负责的态度来服务客户。

在贾宇航看来,让企业拥有数据会成为企业核心的竞争壁垒,客户找到云测数据合作,一方面是信任,另一方面也是云测数据能够帮助客户获得相应的竞争性。

第二,为了保证绝对的数据安全,云测数据与所有数据采集的用户都签订数据授权协议,保证企业用于训练的数据合法合规。同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。

在数据服务市场,数据质量是硬指标,企业客户会通过人工校验、算法检验等多种方式去验证数据采标的合格率和通过率。经得起市场考验,才有活下去的机会。

按贾宇航的话说,“我们以企业服务的方式,为标注的精准度负责”。

在云测数据服务的数百家企业中,既有各大头部AI企业,也有各个行业的龙头企业。这些企业在追求更高的AI认知智能准确度的过程中,合作过各种各样的数据服务商,最终找到了数据标注质量非常高的云测数据,并保持着长期良好的合作。

事实上,除了数据采标的质量和安全,数据服务商的全品类服务能力,以及独立第三方的身份,也是企业进行AI合作所考量的重要因素。像云测数据这样的服务商,不做算法,不涉及客户业务,只提供专业的数据服务,让企业客户在合作时倍感放心。

从某种程度上说,如此苛刻的要求,也进一步导致了顶尖数据服务商的稀缺。

高标准数据服务处于爆发前夜

头部服务商主导市场

如今,AI产业在政策红利和蓝海市场的双重利好中迎来快速发展,其中NLP市场发展也进入了快车道。

据《中国人工智能发展报告2018》显示,2017年中国人工智能智能市场规模高达237亿元,其中自然语言处理市场49.77亿元,占比21%。预计到2020年,中国在人工智能的市场规模将接近500亿元,自然语言处理领域也将是一个百亿级的市场。

不难预料,为自然语言处理市场提供“养料”的NLP数据服务,同样处于爆发前夜。目前,自然语言处理已经有了许多商业化应用,如:机器翻译、舆情监测、自动摘要、问答机器人、客服机器人、电销机器人、智能推荐等,在庞大的市场规模和市场需求下,高质量的NLP数据服务也将成为AI商业化发展的必然趋势。

值得注意的是,虽然高质量NLP数据需求爆棚,但是在市场上,像云测数据这类优质数据服务商会持续稀缺,供需不平衡很难在短期内解决。

从供给侧看,高质量业务的竞争壁垒很高,由高素质人才、专业化流程和方法论构建出的软实力,很难在短期内实现超越。看似业务模式很重的模式,实际上给擅长“轻装上阵”、以平台效应进入赛道的互联网巨头们,设下了短期内无法逾越的鸿沟。正如经纬的创始合伙人张颖所说:“所有轻公司以后都会做重,只有做重才能有效抗拒巨头杀入,也唯有如此才能做大。”

编辑 ​

从需求侧看,一方面,AI商业化对NLP数据的要求还在继续提高,数据服务的业务操作会越来越复杂,无论是在数据采集的样本多样性、场景多样性方面,还是在数据标注的数据精度、领域知识方面,数据服务商都面临不断升级的业务难度。对于后进者而言,没有专业知识、技术和行业经验的日复一日的积累,这种竞争差距只会越拉越大。

另一方面,由于AI算法需要源源不断地输入高质量的标注数据,好的数据服务业务粘性很高,以云测数据为例,一个项目在建立合作之后,往往会带来长达2-3年的持续合作,这就产生了马太效应,强者恒强。

从供需双方合作的现状看,高质量、定制化数据服务是一个新兴领域,供需双方的合作模式还在升级和探索中。曾经习惯大包大揽、自建数据采标团队的企业,如今也在逐渐转向寻求专业的数据服务商合作。

在这一过程中,供需双方会出现更加明确的分工,也会在市场竞争的淘洗中,沉淀出最为优质的服务商。而这种合作模式的探索,最先会从各行业的头部企业和头部服务商开始,逐渐在众多中小型企业中形成“示范效应”。

“没有好的数据,人工智能就没有未来”,这句话已经成为业界共识。在巨大的AI商业化需求下,高质量的数据已成为AI业务竞争的关键,由此诞生的数据服务也将是未来最重要的趋势之一。可以预见,高标准数据服务这一新兴市场亟待爆发,从长期看必将经历从荒芜到繁荣、从乱象到规范的发展过程,继而承载着AI技术进入更加智能的下一阶段。

【科技云报道原创】

微信公众账号:科技云报道


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2020-03-04
AI商业化之争:高质量NLP数据成“抢手货”
科技云报道原创。 如今调戏Siri已经成为网友们的固定节目。数据显示,苹果语音助手Siri大约每天会收到全国427000个问题,其中80%的问题都是:“你会说东北/四川/湖南话吗?”“来段beatbo

长按扫码 阅读全文

Baidu
map