互联网之“冷”与人工智能之“热”
10月中旬以来,多家互联网知名公司被曝出大规模裁员消息,不管是以“业务调整”为借口,还是以“人员优化”为理由,互联网行业就业景气程度大不如前是不争的事实。根据《中国就业市场景气报告》显示,今年第三季度的招聘需求人数与去年同期相比下降了27%,出现了八年来的首次下降。
在互联网就业市场一片阴冷之中,人工智能却成为了最火的热词,从政府工作报告到行业峰会大会,再到技术应用落地,我们见证了人工智能引领变革、带来生机的一次次惊艳表现。人工智能专业应届生动辄50万的年薪刺激着无数人的神经,而在人工智能光鲜一面的背后,作为算法优化过程的重要一环——数据标注,目前全职从业者已达到10万,兼职人群的规模更是接近100万。
截至2018年6月,全球人工智能企业已达5000余家,中国占据五分之一之多。AI企业的核心要素除了算法便是精准标注过的数据,这也催生了中国大量标注公司、标注团队出现。据不完全统计,除去人工智能巨头本身拥有的数据标注团队,国内专业的数据标注公司超过50余家,大大小小的外包团队超过500家,AI的火热可见一斑。
精度、效率与门槛:图像标注业身上的“三座大山”
数据标注的精准性对算法优化结果起到了决定性作用,这就要求数据标注必须高质量完成。而产品研发的紧迫性、行业竞争的白热化决定了标注数据的产出必须极其关注效率,可能一次数据标注的拖延就将导致产品上市的滞后,造成竞争力下降,甚至直接危及初创企业的生死存亡。
在图像标注领域,拥有自主标注平台的数据服务公司本身就不多,而目前国内图像标注平台普遍采用的还是两种标注方式:打点连线和PS技术。打点连线就是沿着要标注的物体边沿打上足够多的点,然后通过连成线标注出对象轮廓。这一方式门槛低但极其繁琐,只适用于交通线等直线标注标注效果也不够理想。另一方式是通过PS等画面处理技术标注,准入门槛较高,只有 掌握PS等绘图技术才能够进行,标注时间和人力成本高,且导出格式单一,达不到客户要求,成为制约图像标注时效和质量的一大瓶颈,也成为普通数据标注员的一大心病:明明有标注任务和需求,却因为难以掌握相关技能而失之交臂。
如何在降低标注成本的前提下提升标注精度和效率,不仅成为标注行业本身的一块心病,也成为整个AI产业发展的制约。可以说,谁能够突破制约,找到解决之道,谁就能在激烈的标注业竞争中站稳脚跟,实现长足发展。
临危受命:他们遇到标注以来最大挑战
普通标注:边缘处理较困难,精度低
作为数据采集和标注领域的领军企业,北京安捷智合科技有限公司(龙猫数据)在AI发展中积累了大量经验,服务过超过100家的AI大型公司,累计提供行业解决方案超500个,并自主建立起国内第一个数据+算力的AI综合服务平台,为AI发展做出了突出贡献。
然而任何企业的发展都不可能一帆风顺,特别是正在快速成长期的公司。就在前不久,龙猫数据遇到了开展数据标注业务以来最大的挑战。某客户为了产品能够赶在竞品之前上市,要求龙猫数据在一周内为他们提供超过5万张的精细标注图,内容涵盖汽车、道路、自然风景、人脸等多个项目,且标注精度要求极其高,标注图像的边缘必须达到PS标注级别。
如果只是小批量标注,或许还可以找到足够多懂得PS技术的人来完成任务。但面对如此大的需求量,面对如此紧迫的任务周期,就连龙猫经验丰富的项目经理也感受到了巨大的压力。“用PS肯定标不完的,人不够,时间也不够”,这是出于经验的判断。他们马上找了一批打点标注的人进行精细标注,想通过更多人参与解决问题。
标注结果刚传到客户手里就马上引来不满,“这样的标注怎能达到我们的要求?你们还想不想继续合作?”
化压力为动力,从创新处找答案
超像素分割标注:精准,高效,简单,
面对客户的高标准严要求,有些人打起了退堂鼓。“要不这项目我们不做了?我们有那么多项目,这个不做我们也没什么损失”。在产品、技术、运营的联合会议上,负责人明确告诉大家:“这项目我们必须做,哪怕花再大代价,我们也要让客户满意,这是龙猫一直坚持的信念!再说这个我们不做,国内恐怕也没有第二家能够按要求做出来”。
负责人的态度感染了每一个人。大家都在努力想办法,但按照目前的现实情况,想要实现承诺真是天方夜谭。产品团队在会后进行头脑风暴,集思广益寻找思路。但囿于国内标注现状,大家想的还是传统的解决方法,很难从根本上解决问题。
这时候,团队的一名“老队员”——他在公司成立半年后就来这儿工作了,说道“要不我们考虑下超像素分割?”
所谓超像素分割,指的是将数字图像细分为多个图像子区域(像素的集合)(也被称作超像素)的过程。超像素是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域。这些小区域大多保留了进一步进行图像分割的有效信息,且一般不会破坏图像中物体的边界信息。
超像素分割的结果是图像上子区域的集合(这些子区域的全体覆盖了整个图像),或是从图像中提取的轮廓线的集合(例如边缘检测)。如果能把技术用在图像标注上,不仅标注精度将会大大提高,标注对象边缘将会更加精确清晰,标注时间也将大大压缩。最重要的是,完成这种精度的标注,完全不需要再借助PS等图像处理工具,将有更多标注员有机会参与进来,完成这项任务也就不再困难。
大家会心一笑,方案找到了意味着:可以加班了。所有人都意识到这两天将是特别难熬的两天,但黎明前最黑暗,这也是创造标注“历史”的时刻。为了赶工期,技术的同事通宵达旦,设计标注标签、像素区块画笔,设置画笔大小范围、提供接口……一步步有条不紊的进行着,两天两夜满满的工作后,终于在第三天,测试工程师在群里告诉大家:标注新功能上线,超像素分割,欢迎使用。
产品笑了,运营忙了,技术睡了。
寒冬里的一把火:上万标注员因此获益
采用了超像素分割标注方法之后,原来那么多弯折的曲线再也不用挨个打点连线,简单的涂涂画画就标注完了。对于标注员来说,最直观的提升是工作的趣味性,“秘密花园这个游戏你玩过没有,现在标注就像是玩这个游戏,把对象选出来涂上不同的颜色,比起枯燥的打点有意思多了,你们怎么不早上线这个功能呢?”标准员小颖笑着说道。
甲方觉得一周的时间也确实有些短,但没想到的是龙猫数据竟然提前一天“交了卷”,看着标注的图像,他们惊讶的说,“你们是怎么做到的?全景图标的这么细致,比我们要求的精度还要高,边缘处理的也更好,真没想到可以达到这种效果,我都能想到我们的AI工程师看到这些图开心的表情了!”
客户还表示,有了这样的产出质量和效率,他们就可以投入更多在产品研发和落地上,以后将要采集标注的数据也会更多,无论是对数据服务行业还是对整个AI产业,都将起到相当大的推动作用。
超像素分割不仅提升了标注的质量,实现了打点连线标注无法达到的精度,更是极大提升了标注效率,小颖介绍说,之前用打点实现的标注效果,现在用新技术标注,在一半不到的时间里,就可以实现比之前更好的效果。如果用PS等工具进行标注,需要的时间往往比打点还要高。
“之前看他们会使用图像处理软件进行标注的很羡慕,但太复杂,也学不来”,春亮说,“现在那些精细标注的高额任务我终于也能领了,并且完成的比他们还好还快,自己的收入有了明显的提升。”
据保守估计,超像素分割降低了图像标注工作门槛之后,将有数万人因此获益,成为“一切图像皆可标”的“万能标注员”。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。