康奈尔大学博士生研究人工智能“黑箱”偏置值问题

来源：互联网发布：linux 模糊查询文件名编辑：程序博客网时间：2024/06/09 14:30

来自美国康奈尔大学的博士研究生萨拉·谭（Sarah Tan）等人在arXiv发表的论文中提出了一种解决“黑箱”算法验证问题的方法。

在股票交易、医疗决策等领域，越来越多的人工智能应用取代了人类去做最终的决策判断。但是这些人工智能算法只是在它被训练的特定数据集上表现良好，而且在很多实例中，我们会在这些算法中人为地添加很多与人类主观经验相关的偏置值。在保释批准、贷款批准这类风险评估模型中，各种偏置值带来的影响尤其明显。在这类模型中考虑申请人种族的影响显然是不合法的，但是算法可能会根据申请人的受教育情况或者家庭住址进行关联分析，产生对应的种族偏置影响。而更为棘手的是，很多人工智能算法因为太复杂，或者发明算法的公司不会公开算法运行过程，使得这些人工智能算法变成了“黑箱”问题。虽然之前也有研究人员想要开发相应工具对这些算法一探究竟，但一直没有取得很好的进展。

来自美国康奈尔大学的博士研究生萨拉·谭（Sarah Tan）等人在arXiv发表的论文中提出了一种解决“黑箱”算法验证问题的方法。在这篇论文中，研究人员测试了两种“黑箱”风险评估模型，分别是借贷平台LendingClub的贷款风险和违约率评估模型以及Northpointe公司的被告犯罪率评估模型,该模型被很多法院用在罪犯量刑过程中作为参考。研究人员采用双管齐下的方法来弄清算法运行原理。首先，他们采用与LendingClub及Northpointe公司的算法工作原理一致的方法模拟了这两类“黑箱”模型，并得到他们在初始数据集上的风险评估输出值。然后他们建立第二个模型来模拟现实世界中的真实输出值，并通过分别控制原始数据集中不同变量的变化来判断哪些变量对最终输出结果影响最大。

在LendingClub模型的模拟过程中，研究人员分析了从2007年到2011年之间一些到期贷款的数据。这些数据包含许多变量，但研究人员发现该公司的评估模型可能忽视了贷款人的年收入和贷款目的这两个变量的影响。忽视年收入的影响还可以理解，因为这些数据在申请过程中很容易伪造。但是忽视贷款目的的影响却有点无法理解，因为贷款目的同贷款风险高度相关，例如小企业贷款的风险会比婚礼费用贷款大得多。因此，LendingClub可能忽视了一个很重要的变量。

Northpointe公司的COMPAS算法声称在提出量刑建议时不会考虑被告的种族信息。但是ProPublica的一项调查中显示，记者在收集分析了通过COMPAS算法辅助判刑的案例后，发现了种族因素的影响。在本次模型模拟实验中，研究人员使用了ProPublica收集的数据以及被告的年龄、性别、收入状况、前科数以及服刑时间，发现模拟结果与ProPublica的调查结果一致，即COMPAS算法在辅助判刑时受到了年龄或种族的影响。

批评者可能会说这些模型复制是不准确的，研究者只是根据自己的需要做出了相应的推测，算法中的各种主观偏置值确实会造成影响。如同马萨诸塞大学的布莱登·奥康纳（Brendan O'Connor）教授评论，如果算法公司不愿公开算法运行的详细过程，那么采用类似于本文中的模型研究是弄清算法运行原理的一个合理方法。

阅读全文

0 0