阿里的追光者：每天为数亿张图片把脉帮数十万盲人“听图”

7月3日报道

听取顾客发来的评论意见、发布最新制作的商品介绍图片，这是淘宝店主小峰5年来每天起床后必做的两件事。

来自浙江的小峰自幼双目失明，2015年在淘宝开了一家专卖电子产品的店铺。通过“手耳并用”的方式，小峰可以和明眼人一样，毫无障碍地和众多买家进行沟通交流。

这一切得益于OCR（光学字符识别）技术。在阿里达摩院读光OCR团队的努力下，数十万盲人登陆淘宝时，只要手指划过相关页面和商品，手机就会准确地读出的信息。

OCR技术的应用并不止于为视障人群修建“盲道”，小峰和数以百万计的商家每天会在淘宝发布超过1亿张商品图片。

广告发布是否违规？商品图片是否侵权？在每天为海量图片“把脉”的过程中，锻造了读光OCR强大的能力，这项原本只专注于商品治理的安全技术，逐渐进化为不同行业提供人工智能服务的全能识图产品。

不久前，阿里达摩院和阿里安全成立联合实验室，意味着“读光”这一高精尖技术将在更多场景落地，而在“新基建”快速发展的当下，数字技术将展示出前所未有的普惠性。

每天为数亿张图片把脉

每天在淘宝新增的商品图片达数亿张。

如果用相纸把这些图片打印出来，假设每张相纸厚度为0.2毫米，摞在一起的厚度超过20公里。

从这些图片中找出违规发布的商品和信息，依靠人的肉眼，即使每秒钟能查看一张图片，24小时内看完这些商品图，需要1158人团队不间断持续作业才能完成。

在商品图片内容丰富、场景复杂多样的状况下，读光OCR技术的出现大大提高了平台治理的效率。

读光OCR团队负责人、高级算法专家永攀介绍说，“读光”的前身是成立于2011年的“图像把脉团队”。

彼时，淘宝商品主要信息传递方式是图片，消费者搜索任何商品，映入眼帘的是首先是各个搜索结果的商品主图，这张图片传递的信息可以在很大程度上影响用户的购买判断。

当图片成为抢夺消费者注意力最直接的手段，很商家把商品主图和呈现文字做得异常夸张，就像电线杆上的“牛皮藓”广告。

为了改善淘宝的商品呈现，“图像把脉团队”上线治理“牛皮癣”的专项技术，判断商品图片中的文字以及整体图片是否违规。

对图片的识别、判定的意义并不只是是否美观和夸张。更重要的是，通过对商品发布图片的审核，可以及时发现销售假货侵权产品的商家。

今年2月2日，身在重庆的永攀在药店买口罩时，发现线下要点的口罩已经被抢购一空。永攀很快意识到，大量口罩购买需求涌入线上，很多不法商家也可能会趁机混水摸鱼。

与此同时，淘宝、天猫成立了“保卫口罩小分队”，他们的任务就是守住口罩商品上线的关口。

这一天，读光OCR团队紧急优化技术，确保有货源的商家能发布商品的同时，让疑似假冒伪劣的商品无法上线。

“由于口罩以前是个小众产品，突然爆发的需求和商品发布量，让图片扫描以及识别的工作量非常大。”永攀回忆说，这一仗把能调用的全部服务器都用上了。有了每天检测数亿张图片的磨砺，读光OCR在口罩保卫战这一役圆满的完成了任务。

在阿里安全图灵实验室负责人薛晖看来，读光OCR技术在知识产权保护领域的应用，不仅可以对商品发布进行检测，配合其他技术的应用，还能对制售假分子予以限制。

一名曾因店铺售假被淘宝关店，为再上淘宝开店，伪造了8次假身份，连户籍地址都配套换了8次。但每次都被系统识别拦截，无缘再上淘宝的他，终于选择放弃。

从管理到服务的有温度治理

2015年9月1日，新广告法开始执行，这为“读光团队”带来了巨大的挑战。

新广告法禁用“最佳”、“最优秀”、“世界级”、“独家”、“史上第一”等多种“极限词”表达。

淘宝的存量商品超过了15亿个，每个商品平均有17张描述图片，90%的商品描述都在图片中。由于很多商家并不具备专业知识，根本无法判断自己是否违反了广告法。

很多商家违法了但却不自知，不但面临处罚，还会遭遇恶意索赔团伙的敲诈勒索。

阿里安全在集团内部拉几支团队一起PK解决方案，最终“读光团队”接下了这个难题。

永攀回忆说，当时统计发现，淘宝存量商品图多达数百亿张，图片上的文本内容非常复杂，常用字体就有100多种，还有一些非常个性艺术创造的字体。此外，图片中经常会有各种透明半透明的背景，识别难度很高。

为了实现高效提速，“读光团队”做出了有别于市面通用的解决方案。

如果说外界当时处理一张主图需要3到5秒，处理复杂图需要1分钟的话，“读光团队”提出的解决方案可将识别图片的平均时间降到0.25到0.3秒。产品上线后，所有违规图片可以在24小时内被处理。

一年之内，“读光团队”将技术能力进化到了实时处理，让商家发布的违规图片根本无法上线。

“当我们的安全技术能力从单纯的管控变成风险服务，可以帮助到那些无意犯错的商家，让违反广告法的图片在没有产生任何影响的情况下就被拦截下线。”永攀说，通过技术打击作恶的坏人，而让无意犯错的商家“少踩坑”，这是“有温度治理”的应有之义。

为数十万盲人修建网络盲道

在数字经济时代，依托人工智能技术的治理模式和经验，不仅在解决商业问题上发挥作用，创造新的商业机遇，在参与社会治理和解决各类社会问题上，提供了更多的想象空间，为社会创造更多新价值。

从2011年开始，“读光团队”为视障群体提供文字识别服务。不过，很多盲人朋友反馈依然存在理解障碍和错误的情况。

永攀解释说，淘宝的图片版式包括了广告图、商品图、表格图、图文注解图等，不同页面的阅读方式差异很大，绝不仅是把所有文字从左到右、从上到下阅读一遍这么简单。这就需要研究将文字以合理的顺序进行组织后，为视障人士阅读，帮助他们正常理解。

团队一边与浙江大学、中国残联合作，共同研究商品图片无法被视力残疾人阅读的问题，一边邀请盲人测试者参与研发。

2019年，“读光团队”开始研发和落地版式分析和阅读顺序的学习技术，盲人商家小峰参加了无障碍工作组的测试，并以团队成员的身份参与到优化读光OCR的文本语序识别算法的工作中。

“对普通人来说，新兴互联网技术的发展很多时候发挥着锦上添花的作用，但对盲人而言，具备着雪中送炭的意义，实实在在的帮助我们回归社会、融入社会、参与社会。”小峰感慨。

截至2019年，数十万视障人士因为“读光”团队的努力，在淘宝享受着足不出户，购遍全球的互联网新生活。2019年双11期间，淘宝对“盲道”进行升级后，视障人士在实现无障碍购物的基础上，首次可以用手机在双11参加游戏互动体验，并得到更多实惠。

在数字时代主动寻找未来的光

2019年底，阿里达摩院与阿里安全成立联合实验室，读光团队与阿里安全图灵实验室实现了“握手”。

事实上，在日常平台治理的业务中，两个团队早已并肩战斗多年，联合实验室的负责人薛晖与永攀更是老相识了。

两人同毕业于浙江大学光电系，永攀是薛晖隔壁实验室的师妹，永攀所在的实验室为嫦娥四号探测器提供了的相机光学技术，让嫦娥四号向地球顺利传回世界上第一张近距离拍摄的月背影图像。

在隔壁实验室技术“上了天”的时候，薛晖正在阿里安全死磕AI图像识别技术，将其落地应用在线下新零售场景中，两人开玩笑地说这样的场景恰好印证了人工智能“上天入地”的说法。

如今，两人的愿景是让高精尖的视觉技术在更多场景中落地。

“这个联合实验室要在数字化浪潮下，开拓‘AI+办公’、‘AI+教育’等新模式，为新基建铸就城墙；在技术上要以建设高效、通用、安全的OCR系统为抓手，聚焦小样本学习、迁移学习与领域自适应、模型可解释性研究、对抗鲁棒性等课题，探索下一代人工智能技术，为新基建构建安全的技术底座，这也是阿里提出的新一代安全架构的核心理念。”薛晖为团队规划出了大的方向，接下来团队的重点将聚焦在图片、视频治理和办公数智化两个方面。

薛晖说，人们在日常看到的是清朗网络空间，这背后其实是安全算法团队与违法违规图片视频的持续对抗。而OCR技术具有非常强的办公属性，如财务票据报销、文件电子化、证件审核等，未来的办公数智化解决方案可以辐射金融、司法、教育、医疗等行业，将人们从机械的、重复性的工作中解脱出来。

“我们想要两条线推进，为OCR技术找到对业务、社会真正有价值的新方向。”永攀说，疫情中兴起的非接触式会议和教学已经证明，AI技术已经改变了传统的内容生成方式。

这也是“合并”赋予读光OCR团队的新意义：不仅要读光、追光，更要在数字时代主动寻找未来的光。

作者：尹子璇来源：猎云网

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）