螃蟹变龙虾？MIT发现AI基准数据集存在“系统性”标记错误

近日，麻省理工学院（MIT）发布新论文，发现在AI基准数据集中存在“系统性” 标签错误，平均误差3.4%。螃蟹变“龙虾”、青蛙成“猫”、手写数字3变“5”……大量图文音视频等内容的标记错误，或会影响AI预判及科学家实验结论。

MIT研究人员通过模型训练，发现AI可对标签错误自行“修正”，且低容量、简单模型在训练AI修正数据集精确度时效果最佳。

该研究论文题目为《ML数据集中普遍存在的标签错误会破坏基准测试的稳定性（Pervasive Label Errors in ML Datasets Destabilize Benchmarks）》。

论文链接：https://labelerrors.com/paper.pdf

一、系统性标签错误：影响AI及科学家预判，平均误差3.4%

人工智能和机器学习领域可以说是建立在几百篇论文的肩膀上的，其中很多论文都是利用公共数据集的子集得出结论。从图像分类到音频分类，大量的标注语料对人工智能的成功至关重要。这是因为它们的注释将可理解的模式暴露给机器学习算法，实际上是告诉机器在未来的数据集中寻找什么，这样它们就能够做出预测。

但是，尽管标记数据通常等同于基本事实，但数据集也确实会出错。

构建语料库的过程中，通常涉及某种程度的自动注释或众包技术，这些技术本身就容易出错。当这些错误到达测试集（研究人员用来比较进展和验证他们的发现的数据集子集）时，就存在很大问题。这可能会导致科学家判断模型的实际表现时得出错误结论，可能会破坏社区对机器学习系统进行基准测试的框架。

论文共同作者在对包括ImageNet在内的10个数据集的测试集分析中发现，从ImageNet验证集中的2900多个错误，到QuickDraw中的500多万个错误不等，所有数据集平均有3.4%的错误。

研究人员说，错误的标签使测试集的基准测试结果不稳定。例如，当ImageNet和另一个图像数据集CIFAR-10因标记错误而被纠正时，较大的模型的性能比容量较低的模型差。这是因为高容量模型比小容量模型在更大程度上反映了标记错误在预测中的分布，这种影响随着错误标记测试数据的流转而增加。

▲显示了在流行的人工智能基准数据集中标注错误的百分比

在选择要审计的数据集时，研究人员选取计算机视觉、自然语言处理、情感分析和音频多领域模式，查看了过去20年中创建的最常用的开放源代码数据集。他们评估了六个图像数据集（MNIST，CIFAR-10，CIFAR-100，Caltech-256，Image Net），三个文本数据集（20news、IMDB和Amazon评论）和一个音频数据集（AudioSet）。

据研究人员评估，QuickDraw在其测试集中的错误百分比最高，占总标签的10.12%。CIFAR排名第二，错误标签率约为5.85%，ImageNet紧随其后，为5.83%。39万个标签错误约占亚马逊评论数据集的4%。

其中，有图像、文字情绪及音频等标记错误。例如，一个品种狗被混淆为另一品种，或被认成婴儿奶嘴；亚马逊产品的积极评论被标记为负面；爱莉安娜·格兰德（Ariana Grande）的在YouTube上的高音视频被归类为哨音。

▲一只吉娃娃在ImageNet中被误标为羽毛蟒蛇

二、AI模型能自动修正误标，简单模型做的更好

此前MIT的一项研究发现，ImageNet存在“系统性”标记错误，当用作基准数据集时，与基本事实或直接观测数据不一致。这项研究的合著者得出的结论是：大约20%的ImageNet照片包含多个对象，导致在数据集上训练的模型精确度下降高达10%。

在后续的一项实验中，研究人员过滤掉了ImageNet中的错误标签，以此对一些模型进行基准测试，结果基本上没有变化。但是，当模型只在错误的数据上进行评估时，那些在原数据集、校正后数据集上同时表现最好的模型，被发现表现最差。

这意味着，AI模型学会了捕捉标记错误的系统模式，以提高其原始测试精度。

在本次实验中，合著者创建了一个无错误的CIFAR-10测试集来测量人工智能模型的“修正”精确度。结果表明，强大的模型并不能很好地表现出比简单模型更好的性能，因为性能与标记错误的相关。这项研究的合著者说，面对有常见错误的数据集，数据科学家可能会被误导，选择一个在校正精度方面不是最佳的模型。

研究人员写道：“以往，机器学习实践者会根据测试的准确性来选择部署哪种模型。但根据我们的研究结果提醒大家注意，在面对噪声的实际数据集时，在正确标记测试集上的判断模型可能更有用。”“必须认识到校正和原始测试准确度之间的区别，并遵循数据集管理实践，最大限度地提高测试标签的质量。”

为了促进更精确的基准测试，研究人员发布了每个测试集的干净版本，其中大部分的标签错误都得到了纠正。该团队建议数据科学家测量他们在实践中关心的真实世界的准确性，并考虑对带有易出错标签的数据集使用更简单的模型，特别是对有噪声标签数据使用训练或评估的算法。

三、AI数据集现状：存种族与性别偏见，人物误标率高达96%

以保护隐私、合乎道德的方式创建数据集仍然是AI社区研究人员的主要障碍，尤其是那些专门从事计算机视觉的研究人员。

2019年1月，IBM发布了一个语料库，旨在缓解人脸识别算法中的偏见，其中包含了近百万张Flickr用户的照片。但IBM没有通知摄影师或照片的拍摄对象，他们的作品将被仔细审查。另外，一个早期版本的ImageNet被发现有大量裸体儿童、色情女演员、大学聚会等不雅照片，这些照片都是在未经个人同意下从网络抓取的。

在2020年7月，麻省理工学院和纽约大学的8000万张微小图像数据集的创造者们将该数据集下线并道歉，并要求其他研究人员不要使用该数据集，删除任何现有副本。自2006年推出以来，该数据集被发现一系列带有种族主义、性别歧视和其他攻击性的标注，其中包括近2000张标有N字的图片，以及“强奸嫌疑犯”和“猥亵儿童者”等标签。该数据集还包含色情内容，如未经对方同意拍摄女性裙子的照片。

这些数据集中的偏见在经过训练的商业人工智能系统中并不少见。早在2015年，一位软件工程师就指出，谷歌照片中的图像识别算法将他的黑人朋友标记为“大猩猩”。非营利组织AlgorithmWatch显示，云视觉API自动将深色皮肤人持有的温度计标记为“枪”，同时将浅色皮肤人持有的温度计标记为“电子设备”。

性别阴影项目（Gender Shades project）和美国国家标准与技术研究所（NIST）对主要供应商系统的基准测试表明，人脸识别技术表现出种族和性别偏见，对人的错误标记率高达96%以上。

人工智能社区中的一些人正在采取措施建立问题较少的语料库。ImageNet的创建者表示，他们计划删除数据集“人”子树中几乎所有的2800个类别，这些类别中存在缺陷，很难代表全球。本周，该组织发布了一个模糊人脸的数据集版本，以支持隐私实验。

结语：AI基准数据库需更精准客观

人工智能基准数据集无疑是如今互联网的发展基石，面对海量庞大的数据库，机器学习能够“自主”修正，是整个AI产业发展中振奋人心的好消息。

同时，当人工智能浪潮不断颠覆各行各业时，数据集中的误标与偏见也会更深入地融入我们的生活。因此，技术发展或需遵从道德底线与隐私界限，万物互联时代的愿景才会向善向好。

来源：VentureBeat

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）