作为经济发展的底座,基础设施建设决定了经济发展的可能性和未来边界。 过去40年,以“铁公基”为代表的老基建支撑了中国经济高速发展,成就了中国经济“快”的奇迹。 未来40年,以5G、AI、物联网、智能计算等新一代技术为驱动的新基建,将肩负起中国经济由“快”向“好”的重担。
在刚刚结束的全国“两会”中,“新基建”首次进入政府工作报告,成为会议期间被代表提及最多的高频词汇。
在新基建分支中,又以AI最为引人瞩目。百度、阿里、腾讯、搜狗、科大讯飞等一众中国科技巨头CEO,纷纷提交与AI相关的提案。
在“新基建”浪潮下,AI场景规模化落地与应用的速度不断被刷新,但随着AI应用由浅层向深层推进,不免出现根基不牢、“虚火”旺盛的症结,导致其在商业化应用方面仍然裹足不前。
是什么让这样一项拥有巨大潜力的技术面临窘境?又是什么扼住了AI应用的“咽喉”?这一切都指向了一个看似微不足道,却可以决定AI前途命运的基本要素——AI数据。
上层建筑与底层基座“失衡”数据扼住AI应用的“咽喉”
如果想要聚沙成塔,那么塔基的坚实程度将决定塔顶的高度。
当AlphaGo战胜李世石,AI领域遂掀起热潮,ImageNet数据集、GPU算力支持和 学习算法“三驾马车”整装待发,AI商业落地到了爆发前夕。
然而,人们期待中的爆发却迟迟未能到来,一切犹如一场海市蜃楼。
纵观整个AI行业,如今在算力、算法层面已达到阶段性成熟,但是在决定AI能力最基本的数据领域,却鲜有企业攀越高峰,这就造成上层应用与底层基座的严重失衡。
俗话说:根基不牢,地动山摇。
缺乏牢固的根基,再华丽的上层建筑也终究逃脱不了坍塌的命运,这也是扼住AI应用咽喉的症结所在。
根据中国信息通信研究院发布的《2018年人工智能发展白皮书》显示,在数据层面,主要存在流通不畅、数据质量良莠不齐和关键数据集缺失等问题。
当大部分AI企业在应用层面激战正酣,支撑AI技术的算法就像新生儿一样稚嫩,需要数以百万计有标注的高质量数据来教它们“分辨”。
比如,要想让自动驾驶汽车算法学会识别路标,或者区分孩子和动物,人们必须采集所有可能遇到的所有道路场景,并对其中的物体进行“标签化”的标注。
对于 学习算法而言,没有标注的数据,就没有AI算法模型。而模型迭代和调整,则需要更多的精准数据。越是准确的算法,就越依赖于大量高质量的标注数据。
Google技术大牛Jeff Dean曾在公开课上展示过海量数据的训练结果,神经网络算法中准确率和数据规模及质量持续成正比。
而业界也达成了普遍共识,即“大量高质数据+普通模型”往往会比“普通数据+高级模型”的效果要好。
想要更加契合AI商业落地需求、解决行业具体痛点,就需要大量经过标注处理的数据做算法训练支撑。
如果没有高质量的标注数据,即使是初期具备算法优势的公司,也会被后起具备数据优势的公司所碾压。
如美国加州科技大学校长秦志刚教授所说:“数据标注是AI产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。”
可以说,数据标注的质和量,将决定AI落地的最终效果。
场景化的数据标注服务成为新基建下AI产业化的“催化剂”
从整个数据标注行业看,过去这一行业曾长期处于粗放的发展模式,数据粗制、混乱、复用的情况屡见不鲜。
但随着AI与各个产业结合得愈加紧密,AI商业化程度进入新的高度,数据小作坊的模式也已不适用于AI产业化落地的数据需求。
在这其中,定制化、场景化的数据服务更是成为AI商业化的关键,这意味着必须有能力超群的企业站出来,重新定义数据标注行业的规则。
目前,数据标注行业的企业机构主要分为三类:第一类是AI公司内部的标注部门,第二类是数据标注众包平台,第三类是以场景化数据采集和标注见长的公司。
第一种以金融、安防等领域企业为代表,大量数据标注任务由公司内部完成。
第二种是众包平台,以亚马逊众包平台Mechanical Turk为代表,基本按照“需求公司——众包平台——多个互联网用户”的模式完成。
第三种是以云测数据为代表的,专门从事定制化数据采集和标注的企业。
这类企业具备非常完整的数据服务链条,能够满足于定制化、场景化、高质量的数据服务需求,以精细化的数据采集和标注标准,彻底撕掉了传统数据标注行业的“草莽”标签。
以云测数据为例,通过自建数据场景实验室和数据标注基地,实现了从数据采集、数据清洗,数据标注、标注平台私有化部署、到标注驻场服务的高质量、场景化的一站式数据采集标注服务。
针对AI每个细分领域的特点,云测数据都配备了专业人员进行AI数据服务,针对企业遇到的数据需求提供最优方案。
项目前期,云测数据项目经理会帮助客户梳理更贴合实际情况的需求,之后再逐渐引入标注和质检人员,通过每天的沟通和培训,以确保每个人能够理解并掌握标注有关技术,试标验收合格后,再进行大批量的规模性标注。
为了确保标注人员能够做出正确的判断,云测数据还配备专门的培训师,对每个行业细分领域的专业知识进行培训,以及标注技能和业务流程的培训。
在数据标注完成后,云测数据还会进行质检和抽检,对于准确率达不到要求的数据会打回重新标注,从而确保数据的高质量输出。
在智慧城市领域,云测数据可以提供全类型的数据标注与定制化数据采集,如:人脸打点、人体拉框、目标跟踪、语义分割标注,异常行为、步态、Re-ID、路面物体采集等。
在自动驾驶领域,云测数据提供多维度、多模态的数据服务,如:在车内场景中涉及到疲劳监测、动作识别、场景光线等一切场景,以及在车外环境中更复杂的障碍物、道路、天气、地点、车道线、路标,以及一些长尾场景。
同时,可实现连续帧标注、2D图像框选、图像分割、3D点云标注、2D和3D融合标注等众多功能。
在AI技术中重要分支的自然语言处理(NLP)领域,云测数据已经为许多商业化应用提供高质量的NLP数据支撑,如:机器翻译、舆情监测、问答机器人、客服机器人、智能音箱、智能问诊等。
以智能客服应用为例,云测数据为单个场景提供的NLP数据的意图标注,就分为10-20个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。
同时,云测数据除了对NLP数据进行对话意图、领域、槽位等进行判断和标注,还可以进行多角度的泛化。
目前,云测数据业务范围已经覆盖智能驾驶、智慧城市、智能家居、智慧金融、新零售等多个领域,成为众多AI企业和各个行业龙头企业的合作伙伴。
正如云测数据总经理贾宇航所说,“通过使用定制场景化数据服务,企业可以将自己算法的识别精度推到一个新的高度,进而落地成为产品被用户使用。”
从野蛮生长走向精耕细作AI数据标注手握新基建未来的“密钥”
AI领域流行一种说法:如果AI是一辆车,那么数据是燃料,算力是车轮,算法则是发动机。也就是说,没有优质的数据,AI只能是空中楼阁。
根据《2019年中国人工智能基础数据服务行业白皮书》统计,早在2018年,高质量的数据资源定制服务就占中国AI基础数据服务的86%,可见优质数据市场之潜力巨大。
事实上,AI对于标注数据质量的新要求,也是数据标注行业未来发展方向的一个重要缩影。越来越多的AI企业意识到,高质量的数据采集和标注是影响人工智能项目落地的关键。
当新基建的大潮席卷而来,作为AI新基建的核心生产要素,数据标注如今迎来了品质化、精细化、场景化的全新发展阶段。
以云测数据为代表的数据标注行业领军企业,正在通过提升AI数据采集和标注的质量、效率和安全,驱动AI成为推动社会前进的新引擎。
例如,在AI数据的质量和效率方面,云测数据在软、硬件的投入上下足了功夫。
一方面,云测数据在华北、华东、华南搭建了专业的场景实验室和数据标注基地,进行相应的AI数据交付。同时,自研出专业的、拥有自主知识产权的数据标注工具,提升标注效率。
另一方面,云测数据设计了从创建任务、分配任务、标注流转、到质检/抽检环节和最后的验收等更完善的管理流程,每个环节有相应专业人员来把控数据标注的质量和时间节点,进行上下游工作环节衔接,得以在保证数据交付质量的前提下,真正提高生产效率。
在AI数据的安全方面,云测数据也始终坚守着AI数据安全隐私的红线。
对于AI行业而言,如何在合理使用数据的前提下保障用户隐私、杜绝数据滥用行为一直都是每个AI企业必须要面对的课题。
作为一家为独立第三方身份的数据服务商,云测数据在数据交付客户后清毁数据不留底,绝不进行二次使用。
同时,云测数据与所有数据采集的用户都签订数据授权协议,确保AI企业用于训练的数据合法合规。
此外,还建立一整套相关的数据保障机制,如从防火墙的设置、内部信息系统的管护、乃至标准化的流程作业体系等,充分保障数据安全。
舍恩伯格在《大数据时代》中预言:“数据可以量化一切,文字变成了数据,方位变成了数据,沟通变成了数据,直到万物的数据化。”
以数据价值为支撑的数字经济正成为推动社会前进的主要模式,由AI等创新技术驱动的数字化转型成为新基建的核心。
而驱动这趟科技列车前行的却是一个个看似微不足道的数据,这些被标注的数据就像娟娟细流,最终将汇聚在AI新基建的大江大河之中,幻化成澎湃的时代波涛奔涌向前。
【关于科技云报道】
专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。