高层速读
1.关键事件:MIT和斯坦褔大学合作研究了三个商用程序,发表了关于面部辨识技术存在性别和肤色歧视的论文,并提出了一种更准确的新方法来评估这种机器学习系统的性能;
2.关键数据:在面部辨识系统的辩识表现上,女性的错误率比男性的高,而肤色较深受试者的错误率比肤色较浅受试者的高。
MIT和斯坦褔大学合作的研究团队针对三种不同的面部辨识技术进行研究,发现它们显示出了性别和种族歧视。论文全文将会在本月稍后举行的 公平、责任和透明度会议(Conference on Fairness, Accountability, and Transparency)发布。
在研究人员的实验中,这三个程序在确定浅肤色男性性别方面的误差率从未超过0.8%。然而,对于肤色较深的女性,误差率较高——在一个软件中超过20%,在另两个软件中超过34%。
这一发现引发了人们的疑问:通过在庞大的数据集中寻找模型来学习执行计算任务,如今的神经网络是如何训练和评估的?根据这篇论文,美国一家技术公司的研究人员声称,他们设计的人脸辨识系统准确率超过97%,但是用来评估其性能的数据集中,男性人数超过77%,白人超过83%。
“这里真正重要的是方法,以及该方法如何应用于其他应用程序,”麻省理工学院媒体实验室(MIT Media Lab)的公民媒体组(Civic Media Group)研究员、论文的第一作者Joy Buolamwin说,“这种以数据为中心的技术,可以用来确定某人的性别,也可以识别人脸,从而帮助寻找犯罪嫌疑人,或者解锁的手机。这不仅仅关于计算机视觉,我真的希望能有更多研究工作来关注这个问题。”
偶然的发现
Buolamwini和Gebru研究的三个程序是一种通用的面部辨识系统,可以用来匹配不同照片中的人脸,也可以用来评估性别,年龄和心情特征。这三个系统都将性别分类视为一个二元决策——男性还是女性——这使得他们在这项任务上的表现在统计上特别容易评估。
事实上,正是通过其中一个程序发现了面部跟踪中的明显歧视,才促使 Buolamwini的调查展开。
几年前,作为媒体实验室的研究生,Buolamwini正在开发一个名为“乐观墙”(Upbeat Walls)的系统,这是一种交互式的多媒体艺术装置,允许用户通过移动头部控制投射到反射面上的彩色图案。为了跟踪用户的动作,该系统使用了一个商用面部分析程序.
Buolamwini组建的团队在种族构成上是多种多样的,但是研究人员发现,当该装置面向公众的时候,他们要依赖一群浅肤色的团队成员去演示。该系统似乎无法可靠地与肤色较深的用户一起工作。
出于好奇,黑人Buolamwini开始将自己的照片提交给商用面部识别程序。在一些情况下,这些程序完全无法从照片上识别出人类面孔。当他们这么做的时候,他们一直错误地识别了Buolamwini的性别。
定量化标准
为了系统地调查那三个程序的歧视问题,Buolamwini首先收集了一组图像,其中女性和深色皮肤的人的表现比用于评估面部分析系统的数据集中的要好得多。最终的数据集包含1,200多个图像。
接下来,她和一位皮肤科医生合作,根据皮肤色调的Fitzpatrick分型(将皮肤颜色根据对日光照射后的灼伤或晒黑的反应特点,分为 I-VI 型)来编码这些图像。
然后,她将技术公司的三个商业面部分析系统应用到了她新构建的数据集上。在这三个系统中,性别分类的错误率是一致的。女性的错误率比男性的高,而肤色较深受试者的错误率比肤色较浅受试者的高。
具体来说,三个面部辨识系统对于深肤色女性的辨识率,分别高达20.8%, 34.5 %和34.7%。其中两个系统对于分类为最深肤色的女性面孔的辨识率更是高达46.5%和46.8%。所以从本质上看,这和系统丢硬币随机选择没什么两样了。
一个被简化为二进制分类的任务,如果在三个商用系统中都有1/3的误差率,你必须要问,这在一个不同的亚群体中是允许的吗?”Buolamwini说,”另一大教训是关于我们的基准,我们衡量成功的标准,它们可能给我们一种错误的进步感。”
微信搜索【AI商业报道】,获取最新行业资讯!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。