近些日子是机器学习和AI不创设,剖判和堤防机器

日期:2019-10-31编辑作者:威尼斯在线平台

原标题:分析和预防机器学习中的无意识偏差

科技世界网     发布时间:2017-08-14    根据普林斯顿信息技术和政策中心(Center for InformaTIon Technology and Policy,CITP)的一项研究,虽然人工智能系统鼓励我们洞察我们所依赖的互联网大数据时代,然而这却容易对女性以及宗教种族群体产生一些偏见。 现在是机器学习和 AI 算法的黄金时代,智能算法的应用无处不在。根据计算机科学副教授 Arvind Narayanan 的研究,这种现象却会不经意强化和扩大了社会上流传的或者用户潜意识中的既定偏见。其文章已经提前发表在 2016 年 8 月的 arXiv 数据库中。 Arvind Narayanan 团队发现那些有意将女性更多地和家庭言辞结合的算法,同时有的算法的结果还会对老年人或者特定种族信仰人群挂上负面影响。“对于每一种记录在人群中的偏差,包括对性别的刻板印象和宗族歧视,在今天的机器学习模型中,我们已经能够复制出来,”Narayanan 说道,这项研究是她在博士后研究期间和英国巴斯大学计算机科学系的 Aylin Caliskan-Islam,以及 CITP 的访问学者 oanna Bryson 一起完成的。 研究通过探索词组在文本中的使用规律,并用机器学习算法构建语言模型,比如,通过关联所有维基百科或者新闻节选报道的十亿数量级的字节。语言模型每次只学习一个单词,研究员通过单词的几何坐标,对其在一个多维空间中的位置进行定位。如果这些单词经常挨着某些特定的单词,那么表明这两者间具有关联性,并且其所处的位置也能反映这些单词的含义。 通过这些单词在坐标系中的位置关系,研究人员发现了字里行间的偏见印象。 如果用这些文本训练模型,那么不难发现,互联网算法加剧了刻板偏见的扩大,比如男性经常会和“医生”联系在一起,这样的词还包括“雄心壮志”及“药物”。然而“护士”这个词更多的和女性关联在一起,这样的字眼还有“护理”及“药物”。这个模型将会默认“护士”是女性的,即使译文中的护士是男性的。 为了检测算法结果的偏差,研究人员努力建立一种针对人类对象的长期使用的测试工具,来揭露语言模型中潜在的偏差,即内隐联想测验(Implicit AssociaTIon Test)。以人类为主要目标的检测译文来检测一些与名字、肤色等人口这类词汇相连接的,比如“邪恶”或者“美好”等带有主观情感的词语。通过机器学习算法所使用语言的几何化模型,可以更直接的通过测算褒义、贬义、中性的词汇之间的间隔来锁定学习结果中出现的偏差。 诸如此类的偏见足以对现实世界产生巨大的影响。比如,在 2013 年哈佛大学 Latanya Sweeney 带领的研究团队发现非裔美国人的名字更容易和通缉令形成配对。这样的结果无意地引起了种族歧视,比如当一个非裔美国人投递他的简历时,如果雇员在网上搜索他的名字,那么歧视很容易发生,因为他的名字更多的和犯罪这样的字眼挂钩。 “人工智能的力量其实和人类旗鼓相当,并不存在碾压或完爆的现象,”Bryson 是这样理解人工智能与人类的关系的,“我们人类可以不断地学习。只要我们拔掉电源,AI 程序的发展就会停滞在某个阶段。” Narayanan 认为,如果我们可以处理这种偏见,人类可以采取一些措施从而使这种情况得以减轻缓解。也就是说,人类可以从数学意义上更正一个语言模型的偏差,并对算法出现类似的错误结果之时提高警觉。但更重要的是,我们还应该注意自身的用语习惯。

本文要点

• 深度学习算法被越来越多地运用到影响生活的决策中,如招聘和解聘员工、刑事司法系统。

• 机器学习实际上会放大偏差。研究人员发现,在人做饭的图片中,67%是女性,而算法把84%的图片标记为女性。

• Pro Publica发现,黑人被告(错误率45%)的假阳性率几乎是白人被告(24%)的两倍。

• Buolamwini和Gebru在研究中发现,ML分类器对男性分类的效果好于对女性分类的效果,对亮肤色人分类的效果好于对暗肤色人分类的效果。

• AI法规,如1967年的年龄歧视和就业法案和平等信用机会法,虽然不完美,但比什么保护都没有强。

本文以Rachel Thomas在QCon.ai 2018大会上的主题演讲“分析和预防机器学习中的无意识偏差”为基础。Thomas在fast.ai工作,这是一个非营利性的研究实验室,和旧金山大学的数据研究所合作,向开发者社区提供深度学习培训。该实验室提供了一项免费课程,名称“面向编码人员的实用机器学习”。

Thomas探讨了机器学习偏差的三个案例、偏差来源以及如何避免。

案例1:用于招聘、解聘和刑事司法系统的软件

深度学习算法在影响生活的决策中运用得越来越多,如招聘、解聘和刑事司法系统。编码偏差会带来决策陷阱和风险。

2016年,Pro Publica研究了COMPAS再犯算法。该算法用于预测犯人或被告人被释放之后再次犯罪的可能性。该算法被用于保释、量刑和假释。Pro Publica发现,黑人被告(错误率45%)的假阳性率(被标记为“高风险”但没有再犯)是白人被告(24%)的将近两倍。

在这个算法中,种族不是一个显式变量,但种族和性别被潜在编码到许多其他的变量中,如我们在哪里生活,我们的社交网络,我们受到的教育。即使有意识地不看种族或性别,也不能保证没有偏差——装瞎子没用。虽然怀疑COMPAS的准确性,但威斯康星州最高法院去年批准了该方法的使用。Thomas指出,那个算法还在使用真是令人震惊。

重要的是要有一个好的基线,让我们可以知道怎么样才算性能好,并且,有助于说明更简单的模型可能更有效。不能因为某个东西复杂,就认为那有用。人工智能(AI)在预测警务中的使用是一个问题。

去年,Taser收购了两家AI公司,它在向警察部门推销预测软件。该公司占据着美国执法记录仪市场80%的份额,因此,他们有大量的视频数据。此外,Verge在二月份透露,在过去的六年中,新奥尔良警察已经在一个绝密项目中使用来自Palantir的预测警务软件,甚至是市政委员都不知道。对于类似这样的应用,需要保持警惕,因为它们的使用不透明。因此有些私人公司,他们不会像警察部门那样遵守国家/公共记录法。经常,他们在法庭上受到保护,不需要透露他们在做什么。

此外,在警方现有的数据中存在大量的种族偏见,因此,这些算法用来学习的数据集从一开始就存在偏差。

最后,计算机视觉在运用于有色人种时一再失败。Thomas表示,这是一个会导致出错的可怕组合。

案例2:计算机视觉

计算机视觉通常不善于识别有色人种。其中一个最声名狼藉的例子来自2015年。可以自动标注照片的谷歌照片在分类毕业照和建筑图片时很有用。但是,它也把黑人标记成了大猩猩。

2016年,Beauty.AI网站使用AI机器人作为选美比赛的裁判。人们发现,与皮肤颜色深的人相比,皮肤颜色浅的人会被判定为更具吸引力。2017年,使用神经网络创建照片滤镜的FaceApp创建了一个火辣滤镜,可以使人的肤色变浅,赋予他们更多欧洲人的特征。Rachel在Twitter上展示了一个用户的真实面貌以及App创建的火辣版本。

图片 1

Thomas谈到了Joy Buolamwini和Timnit Gebru发表的一篇学术论文,他们评价了来自微软、IBM和Face++(一家中国公司)的几款商用计算机视觉分类器。他们发现,分类器对于男性的效果好于女性,对于肤色浅的人效果好于肤色深的人。差距相当明显,对于浅肤色男性,错误率基本为0%,而对于深肤色女性,错误率在20%到35%之间。Buolamwini和Gebru还按照肤色深浅分析了女性错误率。错误率随着肤色加深而增加。肤色最深的类别,错误率在25%到47%之间。

案例3:词嵌入

Thomas研究的第三个案例是类似谷歌翻译这样的产品中的词嵌入。

比如有两个句子“She is a doctor. He is a nurse.”。使用谷歌翻译把他们翻译成土耳其语,然后再译回英语。性别就反转了,那两个句子现在变成了“He is a doctor. She is a nurse.”。土耳其语中的单数代词不分性别,翻译成英语时会按照固定的模式。其他单数代词不分性别的语言也会出现这种情况。按照记录,有许多单词的翻译定式支持女性懒惰、女性忧伤等许多性格特征。

Thomas解释了为什么会出现这种情况。计算机和机器学习把图片和单词当成数值来看待。同样的方法被用于语音识别和图片标注。这些算法的工作原理是,它们读取提供的图片,输出类似“穿黑衬衫的男性在弹吉他”或者“穿橘色背心的建筑工人正在路上施工”这样的东西。在类似谷歌智能回复这样的产品中,同样的机制可以自动提供邮件回复建议——如果有人询问你的假期计划,那么智能回复会建议,你可能想说“还没有计划”或者“我正准备要发给你”。

Thomas举了fast.ai课程“面向程序员的实用深度学习”中的一个例子。在这个例子中,我们提供单词,获得一副图片。提供单词“tench(丁鲷)”(一种鱼)和“net(网)”,它就会返回一张丁鲷在网中的图片。该方法会仔细搜索一串单词,但对于相似的单词,它不会告诉我们那意味着什么。因此,虽然“cat”和“catastrophe(灾难)”可能是有顺序的,但是它们之间没有任何语义关联。

一个更好的方法是把词表示成向量。词嵌入高维向量。她举了“kitten(小猫)”、“puppy(小狗)”和“duckling(小鸭子)”的例子,这几个词可能彼次之间都很接近,因为它们都是动物宝宝。但是,“avalanche(雪崩)”可能就远,因为其因为它与其他词之间没有真正的联系。

图片 2

关于词向量的更多信息,请查阅Adrian Colyer的文章“词向量的神奇力量”。

Word2Vec

Word2Vec是谷歌发布的一个词嵌入库。还有其他类似的库,如Facebook的fastText,斯坦福大学自然语言处理团队的GloVe。训练这些库需要大量的数据、时间和计算能力,不过,这些团队已经完成了这项工作,并且发布了自己的库供公众使用,因此还是很方便的。由于是已经训练过的版本,所以用起来就容易多了。GitHub上提供了所有这三个项目的代码,Thomas自己的词嵌入工作坊也是如此。你可以使用Jupyter Notebook运行她的程序,并尝试不同的词。

相似的词,“puppy(小狗)”和“dog(狗)”或“queen(王后)”和“princess(王妃)”,在距离上非常接近。当然,不相关的词,如“celebrity(名人)”和“dusty(满是灰尘的)”或“kitten(小猫)”和“airplane(飞机)”的距离就比较远。该程序使用了余弦相似度,而不是欧氏距离,因为你不会希望在高维空间中使用欧式距离。

你可以使用这种方法获取语言的某些信息。你还可以找到距离特定目标单词最近的10个单词。例如,如果你查找距离“swimming(正在游泳)”最近的单词,那么你会获得类似“swim(游泳)”、“rowing(划船)”、“diving(潜水)”、“volleyball(排球)”和“pool(池塘)”这样的单词。单词类比也有用。它们捕获类似“西班牙之于马德里正如意大利之于罗马”这样的东西。不过,这里有许多地方会产生偏差。例如,“man(男性)”和“genius(天赋)”之间的距离比“woman(女性)”和“genius(天赋)”之间的距离小得多。

研究人员更系统地研究了词篮。比如,他们有一篮或一组花:“clover(三叶草)”、“poppy(罂粟花)”、“marigold(万寿菊)”、“iris(鸢尾花)”等,他们还有一篮昆虫:“locust(蝗虫)”、“spider(蜘蛛)”、“bedbug(臭虫)”、“maggot(蛆)”等。他们有一篮令人愉快的词(health、love、peace、 cheer等)和一篮令人不愉快的词(abuse、filth、murder、death等)。研究人员会查看不同词篮之间的距离,他们发现,花和令人愉快的词距离比较近,而昆虫和令人不愉快的词距离比较近。

本文由威尼斯在线平台发布于威尼斯在线平台,转载请注明出处:近些日子是机器学习和AI不创设,剖判和堤防机器

关键词:

国际空间站将打印人类软骨组织,在太空也能3

原标题:在太空也能3D打字与印刷?国际空间站将打字与印刷人类软骨组织 在高空3D打字与印刷?国际空间站将打字与...

详细>>

是什么扶助咱们应对死去的,中观望哪些

原题目:人类的“自己”是怎么帮衬大家应对死去的? movie.douban.com/review/8200064/ 据海外媒体报导,德意志联邦共和国...

详细>>

火星探测器,终于等来一个晴天

“沙尘幽灵”(视频链接: 机遇号在2004年1月24日与另一探测器「勇气号」(Spirit)成功登陆火星展开探索之旅,「机...

详细>>

全球最大规模光电产业盛会,展会亮点抢先看

原标题:敲黑板!划重点!展会亮点抢先看! 遇见,全球最大规模的光电产业盛会 经历了18年的飞速发展,中国国际...

详细>>