订阅
纠错
加入自媒体

为什么不能是「她」?AI也要反性别偏见

2020-07-15 09:48
将门创投
关注

寻找翻译法:测试语音识别系统的翻译准确度

在后续实验中,研究人员创建了三个语音识别系统:

End2End语音识别系统,它借助c语言和开放源码来接受Librispeech数据集的培训,并通过自动将原始英语文本翻译成目标语言,来对语料库进行“反哺式”扩充。* Cascade,其与End2End的核心技术相同,其区别在于,它从OPUS库中提取并训练了7000万对英语-意大利语数据和1.2亿对英语-法语语言数据,最后对训练数据进行微调,提供大量语料信息。* Cascade+Tag系统,又在Cascade的基础上,在训练数据中添加了许多能够表明说话者性别的语料标签。

有趣的是,研究人员发现,在“MuST-SHE”上进行实验时,将性别信息输入Cascade语音识别系统,并没有收到显著效果。数据集中原始引用和“错误”引用之间的差异值表明,这三个系统都偏向于男性语言思维模式,似乎女性被放在了弱势地位。

三类语音识别系统的产出成果衡量示意图

在语料分类方面,Cascade在区分第一类翻译语料时表现最差,因为它无法获取说话者的性别信息,从而无法翻译出正确的语句。相比之下,End2End能够利用音频特性来准确地标注出说话者的性别,但它在区分第二类翻译语料上表现最差,原因可能在于它提取的训练数据集比较小,不足以让它推断出比较清晰的翻译思路。

研究人员写下了他们的实验感想:“如果在系统中输入'机器吃什么’这样的话语,那么AI可能会根据人类的食谱来列举出具体的菜单,这就是站在人类的角度,对'吃'这个用词阐发思考。它也可能站在机器的角度,写出机器吃汽油之类的答案。但是通过对'吃'这个字的翻译解释,我们就能得到这样的结论:AI的巨大优势在于,它能够从输入的音频信号中推断说话者的性别/属性。这说明它的可塑性其实非常强。”

谷歌也在谷歌翻译软件中引入了性别区分翻译意识,主要目的也是为了解决性别偏见。谷歌研究团队将AI翻译的性别差异性通过一种被称为StereoSet的指标体现出来,以显示哪种系统翻译方式比较可行,那种语料库比较切合这种翻译识别方法。希望在不久的将来,性别偏见可以真正从AI市场上被根除殆尽。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号