首页 » 健康城市 >

偏见侦探:研究人员努力使算法公平

2020-02-16 15:26:34来源:

2015年,一个担心的父亲向Rhema Vaithianathan提出了一个仍然困扰着她的问题。一小群人聚集在宾夕法尼亚州匹兹堡的地下室,听她解释软件如何解决虐待儿童的问题。每天,区域热线都会接到数十个人怀疑孩子有危险的电话;然后,其中一些会被呼叫中心人员标记以进行调查。但是该系统无法捕获所有滥用情况。Vaithianathan和她的同事刚刚赢得了一项价值50万美元的合同,以构建一种帮助算法。

健康经济学家Vaithianathan是新西兰奥克兰科技大学社会数据分析中心的共同负责人,他向人群介绍了该算法的工作原理。例如,接受电话培训的工具(包括家庭背景和犯罪记录)可以在来电时生成风险评分。这可以帮助电话筛选人员标记要调查的家庭。

Vaithianathan邀请听众提问后,父亲站起来讲话。他说,他一直在沉迷于吸毒,并且社会工作者过去曾将一个孩子从他的家中带走。但是他已经很干净了一段时间。借助计算机评估他的记录,他为改变自己的生活而付出的努力会没有价值吗?换句话说:算法会不公平地判断他吗?

我们可以打开AI的黑匣子吗?

Vaithianathan向他保证,人类将永远处于困境,因此他的努力不会被忽视。但是,既然已经部署了自动化工具,她仍然会思考他的问题。越来越多地使用计算机计算来指导可能改变生活的决定,包括被指控犯罪后应拘留哪些人;哪些家庭要调查潜在的虐待儿童行为,以及“趋势是“决定性警务”?,警察应该关注哪些社区。这些工具有望使决策更加一致,准确和严格。但是监督是有限的:没有人知道有多少人在使用。他们不公平的可能性正在引起警觉。例如,在2016年,美国记者辩称,用于评估未来犯罪活动风险的系统歧视黑人被告。

AI Now Institute联合创始人Kate Crawford说:“最让我担心的是我们提出的系统应该能够缓解问题,但最终可能会加剧这些问题。”纽约大学研究中心,研究人工智能的社会意义。

随着Crawford和其他人挥舞着红旗,政府正试图使软件更具责任感。去年12月,纽约市议会通过了一项法案,成立了一个工作组,该工作组将建议如何公开共享有关算法的信息并调查其是否存在偏见。今年,法国总统伊曼纽尔·马克龙(Emmanuel Macron)表示,该国将公开其政府使用的所有算法。在本月发布的指南中,英国政府呼吁那些在公共部门处理数据的人员要透明且负责。将于5月底生效的《欧洲通用数据保护条例》(GDPR)也有望促进算法责任制。

在这样的活动中,科学家们面临着使算法公平化意味着什么的复杂问题。像Vaithianathan这样的研究人员与公共机构合作,试图构建负责任的有效软件,他们必须努力解决自动化工具如何可能带来偏见或加剧现有的不平等现象,尤其是如果将其插入已经具有歧视性的社会体系中。

“有相当活跃的研究人员社区,他们正在尝试开发从外部审核这类系统的方法。”

下载MP3

盐湖城犹他大学的理论计算机科学家Suresh Venkatasubramanian指出,自动化决策工具提出的问题并不完全是新问题。评估犯罪或信用风险的精算工具已经存在了数十年。他说,但是随着大数据集和更复杂的模型变得越来越普遍,越来越难以忽视它们的伦理含义。计算机科学家别无选择,只能立即参与。我们不再只是把算法扔在篱笆上,看看会发生什么。?/ p>

公平权衡

当匹兹堡所在的阿勒格尼县人类服务部的官员在2014年要求提供有关自动化工具的建议时,他们尚未决定如何使用它。但是他们知道他们想对新系统持开放态度。数据分析,研究与评估办公室部门副主任艾琳·道尔顿(Erin Dalton)说:“非常反对使用政府资金提供黑匣子解决方案,在这里我可以告诉我在做什么”。该部门有一个建于1999年的集中数据仓库,其中包含有关个人的大量信息,包括住房,心理健康和犯罪记录。道尔顿说,Vaithianathan团队提出了令人印象深刻的出价,将重点放在儿童福利上。

阿勒格尼家族筛查工具(AFST)于2016年8月推出。对于致电热线的每个电话,呼叫中心员工都会看到由自动风险评估系统生成的1到20之间的分数,其中20对应于指定为最高风险的案例。AFST预测,这些家庭最有可能在两年之内将孩子从家中带走,或者由于来电者怀疑有虐待行为而再次将其转介到该县(该县正在取消第二项指标,似乎并不能完全反映出需要进一步调查的案例)。

加州斯坦福大学的独立研究员Jeremy Goldhaber-Fiebert仍在评估该工具。但是道尔顿说,初步结果表明它有所帮助。她说,呼叫中心工作人员转介给调查人员的案件似乎包括更多的合法关注事例。呼叫筛选程序似乎也正在对具有相似配置文件的案件做出更一致的决定。尽管如此,他们的决定不一定与算法风险评分相符。该县希望使两者更加接近。

改革预测性警务

在部署AFST时,道尔顿希望获得更多帮助,以判断它是否可能有偏见。2016年,她邀请匹兹堡卡内基梅隆大学的统计学家Alexandra Chouldechova来分析该软件是否歧视特定人群。Chouldechova已经在考虑算法中的偏见,并将权衡一个引发对该问题的实质性辩论的案例。

那年五月,新闻网站ProPublica的记者报道了佛罗里达州布罗沃德县法官使用的商业软件,该软件有助于确定是否应将被指控犯罪的人在审判前从监狱中释放。记者说,该软件对黑人被告有偏见。该工具称为COMPAS,它生成的分数旨在衡量一个人在释放后两年内再次犯罪的可能性。

ProPublica团队调查了数千名被告的COMPAS分数,这些分数是通过公开记录请求获得的。通过比较黑人和白人被告,记者发现不成比例的黑人被告是“爱滋阳性者”?他们被COMPAS列为高风险,但随后没有被指控另一种犯罪。

该算法的开发者是位于密歇根州的一家名为Northpointe的公司(现为俄亥俄州坎顿市的Equivant),他们认为该工具没有偏见。它说,COMPAS同样擅长预测被归类为高风险的白人或黑人被告是否会得罪(所谓的“回归平价”概念的例子。肖尔乔乔娃(Chouldechova)很快表明,诺斯波因特(Northpointe)和ProPublica的公平措施之间存在紧张关系。预测奇偶校验,相等的假阳性错误率和相等的假阴性错误率都是“公平”的方式。但是,如果两组之间存在差异(例如白人和黑人被重新拘押的比率),则在统计上是无法调和的(请参阅“定义“空气”的流程)。“渊国可以”拥有全部。伦敦大学学院负责机器学习的研究员迈克尔·韦尔(Michael Veale)说,如果您想以一种方式做到公平,那么在听起来合理的另一种定义中您可能就不公平。

如何定义“空气”?/ h3>

研究算法偏差的研究人员说,定义公平的方法很多,有时是矛盾的。

想象一下,在刑事司法系统中使用的算法会将分数重新分配给两组(蓝色和紫色)​​,以防他们再次被捕。历史数据表明,紫色人群的逮捕率较高,因此该模型会将紫色人群中的更多人归类为高风险人群(参见上图)。即使模型开发人员通过不直接告诉他们的模型一个人是蓝色还是紫色来避免偏见,也会发生这种情况。那是因为用作训练输入的其他数据可能与蓝色或紫色相关。

高风险状态不能完美预测翻车事件,但是算法开发人员试图使该预测变得公平:对于两个群体,“高风险”对应两年之内被翻车事件的概率为三分之二。(这种公平性称为预测均等。)未来的逮捕率可能不会遵循过去的模式。但是在这个简单的示例中,假设他们这样做了:如预期的那样,蓝色组的十分之三,紫色组的十分之六(每组中三分之二的高危人群)确实被重新逮捕(表明在底部的灰色条中)。

该算法具有可预测的奇偶校验。但是有一个问题。在蓝色组中,有7人中有1人(14%)被误认为是高风险;在紫色组中,只有4人中有2人(50%)。那么紫色的人更有可能是“积极阳性”?被误认为是高风险。

只要蓝色和紫色小组成员以不同的比率被重新逮捕,那么将很难实现预测均等和相等的假阳性比率。而且,在满足第三种公平性标准的同时,从数学上讲不可能做到这一点:假阴性率相等(被确定为低风险但随后被捕的个人;在上面的示例中,该比率等于33%紫色和蓝色组)。

有些人会认为紫色组较高的假阳性率是歧视。但是其他研究人员认为,这不一定是算法偏差的明确证据。而且,这种不平衡可能有更深层次的根源:首先,紫色集团可能被不公平地作为逮捕目标。在根据过去的数据准确地预测紫色人群中将有更多人被捕时,该算法可以概括“可能巩固”先前存在的社会偏见。

雷切尔·考特兰

实际上,从数学上来说,还有更多定义公平的方法:在2月的一次会议上,计算机科学家Arvind Narayanan做了题为“?a href =“ https://www.youtube.com/watch?v=jIXIuYdnyyk”的演讲。 “ data-track =” click“ data-label =” https://www.youtube.com/watch?v=jIXIuYdnyyk“ data-track-category =”正文文本链接“> 21种公平性定义及其政治意义??”他指出还有其他人。一些研究了ProPublica案的研究人员,包括Chouldechova,注意到尚不清楚错误率不相等是否表明存在偏见。斯坦福大学的计算机科学家Sharad Goel说,它们反而反映了这样一个事实,即一个小组比另一个小组更难做出预测。“事实证明,这或多或少是一种统计伪像。” / p>

对于某些人来说,ProPublica案凸显了以下事实:许多机构缺乏资源来寻求和正确评估算法工具。“任何事情,向我们展示的是雇用Northpointe的政府机构没有给他们提供一个明确的定义,” Rayid Ghani说,他是美国大学数据科学与公共政策中心的负责人。伊利诺伊州芝加哥。“认为政府需要学习和接受有关如何请求这些系统,如何定义应测量的指标以及确保由供应商,顾问和研究人员提供的系统实际上是公平的培训。” ?/ p>

阿勒格尼县的经验表明,解决这些问题非常困难。当Chouldechova应要求在2017年初开始挖掘Allegheny数据时,她发现其工具也遭受了类似的统计失衡。该模型具有一些“非常不理想的特性”?她说。在种族和族裔群体中,错误率的差异远高于预期。而且,由于尚不清楚的原因,被算法评为最高虐待风险的白人儿童与获得最高风险评分的黑人儿童相比,离家的可能性较小2。Allegheny和Vaithianathan团队目前正在考虑切换到其他模型。Chouldechova说,这可能有助于减少不平等现象。

尽管统计失衡是一个问题,但算法中存在更深层次的不公平现象-它们可能加剧社会不公正。例如,COMPAS之类的算法可能旨在预测未来犯罪活动的可能性,但它只能依靠可衡量的代理,例如被捕。警务实践的变化可能意味着某些社区的目标不成比例,人们因犯罪而被逮捕,而其他社区可能会忽略这些犯罪。华盛顿特区一家非营利性社会正义组织Upturn的董事总经理大卫·罗宾逊说:“即使我们准确地预测了某些事情,我们所准确预测的事情也可能是不公正的后果。”在很大程度上取决于法官在多大程度上依赖这种算法来做出他们的决策。

Allegheny工具也受到了类似的批评。作家和政治学家弗吉尼亚·尤班克斯(Virginia Eubanks)认为,无论该算法是否准确,它都将在有偏见的输入上起作用,因为黑人和混血儿家庭更容易接到热线电话。此外,由于该模型依赖于Allegheny系统中的公共服务信息-并且由于使用此类服务​​的家庭通常较贫困-该算法通过对较贫困的家庭进行更严格的审查来公平地惩罚较贫困的家庭。Dalton承认可用数据是一个限制,但她认为该工具是必需的。该县在今年早些时候在AFST网站上发布的对Eubanks的回应中说:“不幸的社会贫困问题并没有否定我们有责任提高那些引起我们注意的儿童的决策能力。”

透明度及其局限性

尽管一些机构构建自己的工具或使用商业软件,但学者们发现他们需要从事公共部门算法的工作。在芝加哥大学,加尼一直与包括芝加哥公共卫生部门在内的许多机构合作,共同开发一种工具,以预测哪些房屋可能含有危险的铅。在英国,剑桥大学的研究人员与达勒姆郡的警察一起研究了一种模型,该模型可以帮助确定谁将干预方案作为起诉的替代方案。戈尔(Goel)和他的同事们今年成立了斯坦福计算政策实验室(Stanford Computetional Policy Lab),该实验室正在与包括旧金山地方检察官办公室在内的政府机构进行合作。地区检察官办公室的分析师玛丽亚·麦基(Maria McKee)说,与外部研究人员的合作至关重要。她说:“所有人都有正确和公正的感觉。”“但是我们经常没有工具或研究来准确地,机械地告诉我们如何到达那里。”?/ p>

人们强烈希望按照阿勒格尼(Allegheny)采取的方式提高透明度,阿勒格尼(Allegheny)与利益相关者进行了接触,并向记者敞开了大门。当算法处于“无法为算法审计,审查或公开辩论而无法打开的闭环”时,通常会加剧问题。 AI Now Institute的Crawford说。但是尚不清楚如何最好地使算法更加开放。加尼说,简单地释放模型的所有参数将为它的工作方式提供很多见识。透明度也可能与保护隐私的努力发生冲突。在某些情况下,公开太多有关算法工作原理的信息可能会使人们玩系统。

Goel说,问责制的一大障碍是代理商通常不会收集有关工具使用方式或性能的数据。“很多时候,没有透明度,因为没有什么可分享的。”例如,加利福尼亚州立法机构制定了一项法案草案,呼吁采用风险评估工具来帮助减少被告必须支付保释的频率。因惩罚低收入被告而受到批评。Goel希望该法案要求在法官不同意该工具的情况下收集数据,并在每个案件的具体细节(包括结果)上收集数据。“他的目标是从根本上减少监禁,同时保持公共安全,”他说,“我们必须知道”有效吗? / p>

克劳福德说,将需要一系列“排队过程”基础设施,以确保对算法负责。4月,AI Now Institute为有兴趣采用算法决策工具的公共机构概述了一个框架3。除其他外,它呼吁征求社区的意见,并赋予人们对针对他们做出的决定提出上诉的能力。

人工智能研究有一个盲点

许多人希望法律能够执行这些目标。纽约伊萨卡市康奈尔大学研究人工智能道德和政策问题的研究员索伦·巴洛卡斯(Solon Barocas)说,这有一些先例。在美国,当对他们的信用做出不利决定时,一些消费者保护规则会向公民做出解释4。Veale说,在法国,早在1970年代就可以找到赋予解释权和对自动决策提出异议的能力的立法。

重大考验将是5月25日生效的欧洲GDPR。一些规定(例如获得有关自动决策情况下所涉及逻辑的有意义信息的权利)似乎促进了算法的责任性。但是英国牛津互联网研究所的数据伦理学家布伦特·米特尔施塔特(Brent Mittelstadt)表示,GDPR实际上可能会为那些想要评估公平性的人创建“合法雷区”,从而阻碍了它的发展。测试算法是否沿某些方面有偏见的最佳方法(例如,该算法是否偏爱一种种族而不是另一种种族)需要了解有关进入系统的人员的相关属性。但是Mittelstadt表示,GDPR对使用此类敏感数据的限制非常严格,而且处罚很高,以至于那些能够评估算法的公司可能没有动力去处理这些信息。他说:“这似乎将限制我们评估公平性的能力。”

GDPR规定的范围可能会引起公众对算法的了解以及提出上诉的能力,这也是一个问题。按照书面规定,某些GDPR规则仅适用于完全自动化的系统,这可以排除算法影响决策但有人应做出最终决定的情况。米特尔施塔特(Mittelstadt)说,这些细节最终应在法院澄清。

审核算法

同时,研究人员正在推进检测算法偏差的策略,这些算法尚未公开审查。Barocas说,企业可能不愿意讨论他们如何解决公平问题,因为这首先意味着要承认存在问题。他说,即使他们这样做了,他们的行为也可能会缓解偏见,但不能消除偏见。“关于这一问题的任何公开声明也不可避免地表明问题仍然存在。”但是最近几个月,微软和Facebook都宣布开发检测偏见的工具。

一些研究人员,例如波士顿东北大学的计算机科学家Christo Wilson,试图从外部发现商业算法中的偏见。威尔逊(Wilson)创造了模拟乘客,声称他们是在寻找Uber出租车,并已将虚拟简历上传到工作网站以测试性别偏见。其他人正在构建他们希望可以在自我评估中普遍使用的软件。5月,Ghani和他的同事发布了名为Aequitas的开源软件,以帮助工程师,政策制定者和分析人员审核机器学习模型中的偏差。数学家Cathy O'eil一直在提倡算法决策的危险,他创立了一家公司,该公司正与公司私下合作来审核他们的算法。

一些研究人员已经要求在刑事司法应用程序和其他领域中退后一步,从狭focus地关注建立预测算法。例如,一种工具可能擅长预测谁将不会出庭。但是最好问一下为什么人们不露面,也许要设计出可以提高出现率的干预措施,例如文本提醒或交通帮助。纽约大学法学院的民权律师和种族正义倡导者文森特·索瑟兰(Vincent Southerland)表示:“这些工具通常可以帮助我们在边缘进行修补,但我们需要的是全面变革。”那就是说,围绕算法的激烈辩论,“使我们所有人都提出并回答了有关我们正在使用的系统及其运行方式的这些非常棘手的基本问题?”

Vaithianathan现在正在将其虐待儿童预测模型扩展到科罗拉多州的Douglas和Larimer县,她认为,即使将嵌入其中的总体系统存在缺陷,也可以构建更好的算法。就是说,“算法可以直接投入到这些复杂的系统中”?她说:必须在了解更广泛背景的人们的帮助下实施这些措施。她说,但是即使是最大的努力也将面临挑战,因此,如果没有直截了当的答案和完美的解决方案,透明是最好的政策。“总是说:如果可以的话,请诚实。”

自然558,357-360(2018)