提到性别偏见,别以为只有人才会产生偏见,事实上作为非生命体的AI系统,也可能因为设计者的疏忽,或者社会语料库本身的性别不公因素,而流露出性别偏见倾向。这当然不是设计者的本意,可是这种现象无可避免地会对部分用户造成观感不适。
特伦托大学的研究人员以身力行,借用名为"MuST-SHE"的测试集,来评估AI语音翻译系统的输入文本数据集是否存在具有性别差异的语句,而AI又是否将这种性别差异从翻译加工成果中体现出来。
分门别类!为不同翻译语料类型找准定位
在机器翻译过程中,性别偏见可以归因于语言表达上之于男女性别的差异。那些有专属性别语法系统的语言,如罗曼斯语,依赖于性别词性和句法变化来区分出性别差异。而这对于英语和中文都是不适用的,比如说,中文是一种“自然性别”系的语言,它只通过代词(如:“她”和“他”)、固有性别的词语(如:“男孩”和“女孩”)和性别专用名词(如:“妈妈”和“夫人”)来反映性别差异。
如果AI翻译系统不能捕捉到这些细微差别,可能导致对不同性别群体的不准确描述。为了尽可能抹消这种区别,研究人员专门创建了一个被称为MuST-SHE的多语言测试集,旨在揭露潜藏在语言翻译系统后的性别偏见。
机器人在吸收歧视性数据集后,也会表现出歧视倾向
MuST-SHE是基于TED演讲数据集筛选得出的一个数据子集,其中包括大约1000份音频、文本和翻译素材,这些翻译素材都取自开源MuST-C语料库,有专门的语料注释了与性别相关的定性差异。这些素材被细分为两类:
第1类:当性别差异性仅取决于说话人本身的性别时(即没有相应的语境样本支持),翻译素材的形成需从音频信号中获取消除性别歧义的必要信息样本。
第2类:所得的翻译素材有直接消除歧义信息的样本支持,其中包含比较清晰的语境提示,如性别指定性词组、代词和专有名词都能说明说话者的性别。
每一类的第一框都是正确语料例子
第二框是错误例子作为参照物
基于语料库中的每一条翻译引用,研究人员都特意创建了一个反面语料例子,除了“他/她”不分、“男/女”不分之外,反面的翻译素材与原文的涵义其实完全相同。在将两种语料信息输入AI翻译系统后,研究结果表明,在性别的正式表达预料方面,原语料库中的翻译范例被AI驳回,认为其是“存在部分错误的”,而反面语料例子则被认为是“正确的”。这种结果差异可以用来衡量语音识别系统处理性别现象的能力。
12下一页>(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )