当人工智能技术落地到各个行业领域, 学习作为人工智能技术的核心也逐渐渗透至各个方面。计算机通过模拟或实现人类的学习行为,通过大量数据和算法获取新的知识或技能,最后重新组织已有的知识结构使之不断改善自身的性能。
然而在人工智能上,一直存在“黑匣子”问题, 网络具有高预测能力但可解释性不足的特点。在用大量数据“教导”机器学习的同时,研究者发现机器学习也会产生不可预测性的“偏见”,当一些暗含“偏见”的数据被算法永久性地编码进人工智能程序中,就可能导致未知的错误和偏差,这可能会在最终结果和决策中产生影响甚至重大的错误,从而影响未来人类与人工智能的关系。
前段时间,谷歌废除了人工智能招聘项目,因为该人工智能系统在经过10年的简历培训后,由于男性主导的工作环境,产生了对“女性”的偏见,据报道,它对包含“妇女”一词或某些全女子学院名称的简历都进行了处罚。
对于这种机器学习产生的“偏见”问题,类似于“俄罗斯坦克问题”。20世纪80年代,在机器学习发展的早期,美国军方试图训练一台电脑来区分俄罗斯和美国坦克的照片。其分类准确度非常高,但结果中俄罗斯坦克的所有照片都模糊不清,而美国坦克是高清晰度的。原来该算法最后不是在识别坦克,而是学习了如何区分模糊和清晰的照片。
而造成这种偏见的原因主要有一下几点:
一、用于机器学习算法的数据不足。算法在初始提供的数据中获得模式,然后在新的数据中识别类似的模式,然而有时算法并不会按照人们初始意愿那样工作。
二、算法本身很糟糕。机器学习是软件开发人员利用大量与任务相关的数据训练 AI 算法的过程,如果本身算法就存在漏洞, 学习后的结果则会更加差强人意。
要想消除机器学习中潜在的“偏见歧视”问题,可尝试以下几种方法。
减少原始数据的“偏见性”
2018年5月25日,“通用数据保护条例”(GDPR)在整个欧盟范围内生效,要求对组织如何处理个人数据进行彻底改变。若违反GDPR条例的限制,相关组织必须支付高达2000万欧元或其全球收入4%的罚款(以较高者为准),对威慑大多数违规行为具有很重要的意义。
但事实上,虽然有GDPR等法规对数据的使用加以限制,还是避免不了一些研究使用存在偏见的数据集。由于机器学习系统的行为由它学到的数据所驱动,所以它的工作方式与人们编写的标准计算机程序有很大不同。如果供算法训练的数据不能公平地覆盖所研究对象,系统便会出现偏差,甚至会放大原始数据中的偏见。
而这个问题却不在数据本身的数学结构上,而在于 学习系统的设计者和操作者上。要解决数据的偏见问题,就需要数据收集存储、使用的公平性和全面性。
打开算法“黑匣子”
一直以来,许多公司为了自身的专利保护和商业机密,会严格保密自家的人工智能算法,从未形成了决策无法解释的“黑匣子”问题。好在目前人工智能领域已意识到这个问题,正积极采取措施加快代码的开源,制定透明度标准,提高算法的可靠性,除此之外,还需提倡“程序员必须对算法得出的结论做出解释,否则就不能投入使用”原则。对此,人们也做出了相应举动,例如,美国国防部高级研究计划局资助了一项名为XAI(可解释的人工智能)的计划,旨在打开人工智能的“黑匣子”,以保证用户更好地控制人工智能程序。
让机器自己寻找错误
人工智能系统在学习时会犯错。事实上这是肯定的,所以称之为“学习”。电脑只会从你给出的数据中学习。但有时候,并不能消除数据偏见的来源,就像不能消除人类中的偏见来源,所以首先承认问题,然后让机器自己去发现错误。
华盛顿大学的研究人员在2016年构建了一种称为LIME的解释技术,并在由Google构建的图像分类神经网络Inception Network上进行了测试。
LIME在做出图像分类决策时,不会考虑触发神经网络中的哪个神经元,而是在图像本身中搜索解释。它会将原始图像的不同部分变黑,并通过Inception将产生的“扰动”图像反馈回来,以检查哪些扰动导致结果偏离算法最远。通过解释机器学习模式中的错误,可以改进技术来消除人的偏见。
学习的“偏见歧视”问题正潜移默化地影响着算法结果,研究者们需要时刻关注,反复检测算法结果与预期的偏差,任何一点差距都有可能通过蝴蝶效应,最后发展成一个重要的错误。在人工智能崛起的时代,当人们越来越关注人工智能与人类社会的关系时,这将是一个始终备受关注的敏感点。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )