当人类和机器不一致-“人工智能错误”的神话和通过最佳决策解锁人工智能的承诺- Debevoise数据博客

机器正在越来越多地做出传统上由人类做出的重要决定，比如谁应该获得工作面试机会，或者谁应该获得贷款。出于合法的法律、声誉和技术原因，许多组织和监管机构并不完全信任机器自己做出这些判断。因此，人类通常仍然参与人工智能决策，这被称为“人在循环”。例如，在皮肤癌检测中，这一过程现在可能涉及人工智能机器检查痣的照片，并对癌症风险做出初步评估，然后由皮肤科医生确认或拒绝这一决定。

对于这类决策，当人类的安全面临风险，并且有一个客观正确的答案(即，痣是否癌变)时，人工智能决策的人类审查是合适的，实际上，这可能是法规所要求的。但是，关于人类应该在何时、如何审查人工智能决策，以及对于没有客观正确答案的决策(例如，谁应该得到面试机会)，应该如何进行审查的文章很少。本文试图通过提出一个实现最佳人机联合决策的框架来填补这些空白，而不是假设人类的判断总是胜过机器的决策。

人工智能决策人工审查的监管要求

大多数涉及机器决策的法规都要求人类审查带有重大风险的机器决策。例如，欧盟《通用数据保护条例》第22条规定，欧盟公民不应受制于对他们有重大影响的“完全自动”决策。欧盟委员会提出的《人工智能法案》同样规定，应设计和开发高风险人工智能系统，使其能够受到自然人的有效监督，包括使人类能够干预或中断某些人工智能操作。在美国，拜登政府最近发布的《人工智能权利法案蓝图》(该法案不具有约束力，但可能会对未来的美国人工智能法规产生影响)规定，人工智能系统应由人类监控，以便在自动化系统出现故障或产生错误时进行检查。

这些和其他人工智能法规要求人类对自主决策进行一定程度的监督，以捕捉所谓的“算法错误”，即机器所犯的错误。这样的错误确实会发生，但这些规则存在缺陷，以至于它们意味着，每当人类和机器做出不同的决定或得出不同的结论时，机器必然是错的，而人类必然是对的。正如下面所讨论的，在许多情况下，客观上没有正确的决定，以有利于人类的方式解决分歧并不总是会导致最佳结果。

在《福布斯》最近关于人工智能伦理和自主系统的文章，兰斯·艾略特提供了一些解决人机分歧的替代方案，而不是默认人类总是正确的观点:

机器的决定占上风;
采用某种预先确定的妥协立场;
另一个人被引入决策过程;或
另一个机器被引入决策过程。

艾略特正确地指出，几千年来，社会已经发展出几种有效解决人与人之间分歧的方法，事实上，我们经常设计一些流程，让这些分歧浮出水面，以促进更好的整体决策。创建一个类似的系统来识别和解决人机分歧，将是未来五年人工智能部署和监管的基本挑战之一。正如下面所讨论的，对于许多人工智能应用来说，要求人类审查机器的决定并在人类不同意时推翻它是有意义的。但对于某些决策，这种方法将导致更多的错误，降低效率，增加责任风险，应该采用不同的争议解决框架。

不是所有的错误都是一样的——假阳性和假阴性

对于许多决策来说，有两种不同类型的错误——假阳性和假阴性——它们可能会产生非常不同的后果。例如，假设每100名患者中，皮肤科医生可以在90%的时间内准确地识别出一颗痣是否癌变。对于接受错误诊断的患者来说，如果医生的错误是将一颗痣误诊为癌性(即假阳性)，而不是将一颗癌性痣误诊为良性(即假阴性)，情况会好得多。假阳性可能会导致不必要的活检，得出痣是良性的结论，这涉及一些额外的不便和成本。但这显然比假阴性(即错过癌症诊断)更可取，后者可能会带来灾难性的后果，包括延误治疗甚至过早死亡。

现在，假设一台检查痣照片是否为皮肤癌的机器也有90%的准确率，但由于机器接受的训练与医生非常不同，并且没有将图像与其他医疗信息(例如，家族史)联系起来考虑，机器会犯与医生不同的错误。当医生和机器对痣是良性还是癌变存在分歧时，对病人来说最佳的结果是什么?考虑到假阳性的相对较小的成本和不便，最佳结果可能是如果要么医生或机器认为这颗痣是癌变的，就会把它剃掉，然后送去做活检。所以，在决策过程中加入一台机器并将其视为与医生平等的人增加错误的总数。但是，由于决策解决框架减少了潜在灾难性错误的数量，整体决策过程得到了改进。相反，如果人类的决定总是占上风，那么就会出现机器检测到癌症，而人类没有，所以没有进行活组织检查，癌症后来才被发现，这可能会因为延迟诊断而对患者产生极其负面的影响。这显然是一个不太理想的结果，会增加成本，承担责任风险，最重要的是，会对患者造成伤害。

不是所有的决定都是对的或错的——排序和选择

机器有时也会犯错。如果一辆半自动驾驶汽车错误地将丰收的月亮识别为红灯并急刹车，这就是一个错误，人类司机应该能够推翻这个错误的决定。相反，如果人类司机喝醉了酒或睡着了，他们的驾驶决定可能是错误的，不应该占主导地位。

但是，许多机器决策并不适合二元的对/错评估。例如，考虑信贷和贷款决策。一个信用记录非常有限的人提出的贷款申请可能会被人类银行家拒绝，但人工智能工具可能会考虑非传统因素，比如点对点转账应用程序的现金流交易，从而接受这笔贷款。对于这类决定，很难将人类或机器定义为对或错。首先，如果贷款被拒绝，没有办法知道如果贷款被批准，贷款是否已经还清，因此拒绝决定不能评估是对还是错。此外，决定哪一种观点应该占上风取决于各种因素，比如银行是否在试图扩大借款人池，以及假阳性(即向可能违约的个人放贷)是否比假阴性(即不向可能全额偿还贷款的个人放贷)带来更多或更少的风险。

排名的错误选择和有效等价物的需要

许多基于人工智能的决策代表二元的是/否选择(例如，是否承保贷款或是否应该检查痣是否患有癌症)。但一些人工智能系统被用于在候选人之间进行优先排序或分配有限的资源。例如，算法经常被用于对求职者进行排名，或优先考虑哪些患者应该接受有限数量的可供移植的器官。在这些人工智能排序系统中，申请人会被打分和排名。然而，大卫·罗宾逊在他的书中指出，代码中的声音在美国，如果一个人的算法给出了9.542分，而另一个人的分数几乎相同，只有9.541分，那么就把他当作更好的肾移植候选人，这似乎是武断和不公平的。这是一个例子，排名算法的精确性创造了一个有意义的选择的错觉，而在现实中，两个候选人实际上是相等的，应该使用其他一些方法来在他们之间进行选择。

人类和机器发挥各自的优势，共同决策

尽管人工智能在乳房x线照片或核磁共振成像中改善癌症识别方面做出了巨大努力，但这些自动化筛查工具在诊断方面仍难以超越人类医生。医生阅读乳房x线照片据报道,但人工智能工具经常会漏诊15%到35%的乳腺癌表现不佳医生。人工智能用于乳房x线照片分析的挑战不同于上面讨论的皮肤癌筛查，因为乳房x线照片的假阳性成本要高得多;乳房组织的活检比剃掉皮肤上的痣更具侵入性、耗时、痛苦和昂贵。

然而，最近研究发表在《柳叶刀》杂志上的研究表明，一个复杂的联合决策框架，由医生和人工智能工具共同工作，并相互检查彼此的决定，可以导致更好的乳房x光检查结果——无论是在减少假阳性(即，在没有癌症时，乳房x光检查被错误地归类为显示癌症)还是在减少假阴性(即，在有癌症时，乳房x光检查被错误地归类为未显示癌症)方面。

根据这项研究，建议的最佳工作流程包括训练机器将乳房x线照片分为三类:(1)自信正常，(2)不自信，(3)自信癌变:

自信的正常:如果机器判断乳房x光片明显正常(大多数情况下都是这样)，放射科医生就会对这一决定进行复核，他知道机器之前的决定。如果放射科医生不同意这台机器，并认为可能存在癌症，那么就需要进行额外的检查或活检。如果进行了活检，结果是阳性的，那么机器的决定被视为假阴性，活检结果被用来重新校准机器。
不自信或自信的巨蟹座:如果机器确定乳房x光片很可能是癌性的，或者机器不确定自己的决定，那么乳房x光片就会被转交给另一位放射科医生，他不会被告知机器做出了这两个决定中的哪一个。如果放射科医生独立地判断乳房x光片很可能是癌变的，那么就要求进行活组织检查。如果放射科医生独立地确定乳房x光片是正常的，那么就不会再发生任何事情如果这张乳房x光片之前被机器归类为“不确定”。然而，如果放射科医生将乳房x光片归类为正常，但机器之前已经判定乳房x光片可能是癌变的，那么就会触发一个“安全网”，然后警告放射科医生不一致，并要求他再次检查乳房x光片(或另一名放射科医生检查)。在第二次检查之后，放射科医生可以改变他们最初的决定，同意机器进行活组织检查的决定，也可以否决机器的决定，继续将乳房x光检查归类为正常。

这个复杂的工作流程可以获得卓越的结果，因为它优化了每个贡献者都有优势的决策元素。这台机器在快速和一致地判断哪些扫描明显不感兴趣方面做得更好。放射科医生更善于确定哪些潜在的有趣扫描结果实际上是有趣的，但医生作为人，并不总是更好。在某些情况下(例如，当医生疲劳、分心、匆忙等)，机器可能会更好，因此在这个过程中插入一个安全网，以捕捉这些情况，从而优化整体决策过程。这是一个很好的例子，说明了为什么人机决策的工作流需要针对特定的问题进行调整。在这里，让人的决定总是占上风不会取得最好的结果。只有通过一个复杂的框架，让决策者发挥自己的优势，弥补彼此的弱点(例如，机器永远不会疲劳或无聊)，才能显著改善结果。

创建解决人机分歧的框架

同样，监管机构对人工智能决策的关注，很大程度上是为了要求人类审查机器做出的某些决策，并纠正机器的错误。对于需要快速和大量做出的低风险决策，这通常是正确的决策框架，即使它并不总是最准确的。人工智能的主要好处之一是速度，在设计任何人机决策框架时，必须小心，不要以整体效率的重大损失为代价，在优化精度方面取得微不足道的收益。

但在许多情况下，人工智能做出的决定正在显著地影响着人们的生活，因此，效率不如准确性或严谨性重要。在这些情况下，当人类和机器存在合理的分歧时，假设人类是正确的并且应该占上风并不总是最好的方法。相反，最佳结果来自对特定争议的分析，以及针对特定决策过程和自动化技术量身定制的解决框架的实施。

下面是一些例子，说明不同的人机决策框架是如何根据情况而适用的。

选项1:人在循环中:机器审查大量候选人，并通过对他们进行排名来进行初步评估，但实际的选择是由人做出的

决策的例子:

谁应该接受某一特定工作的面试。
谁应该被某所大学录取。
哪些保险索赔应调查潜在的欺诈。

因素:

这台机器善于从较弱的候选人中挑选出较强的候选人，但在一组较强的候选人中选择最好的则不那么擅长。
机器从大量的弱候选人中找到强大的候选人，节省了大量时间。
最终的选择决策是非常复杂的，有很多无形的因素。
在最终的选择决策中，人们期望由受该决策影响的人参与。

选项#2 -人工控制:机器在没有人类参与的情况下做出初始决定，如果有必要，可以快速被人类推翻

决策的例子:

信用卡购买是否存在欺诈，该信用卡应被禁用，以避免进一步的欺诈。
一辆半自动驾驶汽车是否应该刹车以避免碰撞。

因素:

需要在持续的基础上做出大量的决定，在大多数情况下，决定是什么都不做。
决策必须非常迅速地做出。
在做出正确决定时，即使是短暂的延迟，也有造成重大伤害的风险。
这些决定很容易逆转，在机器做出决定后，人类可以很容易地进行干预。
通常有一个明确的正确或错误的决定，人类可以很快确定。

选项3:机器权威:在与人类的分歧中，机器占上风

决策的例子:

AI网络安全检测工具可以防止人类通过电子邮件发送可能传播计算机病毒的恶意附件。
一辆半自动送货卡车会在检测到司机睡着或严重醉酒时靠边停车。

因素:

需要迅速作出决定，以防止重大损害。
如果人错了，对人的安全或财产有很大的风险，如果机器错了，风险就小得多。
人类决策能力受损的可能性。

选项4 -人类和机器平等:如果是人类还是机决定X，那么X就完成了

决策的例子:

决定是否将可能癌变的痣送去做活组织检查。
哪些员工在使用电脑访问高度机密的公司文件之前应该接受额外的安全检查。

因素:

机器和人都有很高的精度，但他们会犯不同的错误。
机器或人类遗漏某些东西(即假阴性)的成本远远高于机器或人类标记一些结果不是问题的东西(即假阳性)的成本。

选项#5 -混合人机的决定:人与机器互相检查对方的决定，有时没有事先知道对方的决定;对于高风险决策人类和机器显然不同意，的一个人(或另一个人)被提醒，并被要求再次审查决定。

决策的例子:

评估乳房x线照片，以确定它们是否表明癌症的存在，以及是否应该进行活检(如上所述)。
在诉讼或调查中向对方律师出示大量文件之前，审查这些文件，以确定它们是否包含律师与客户之间的保密通信。

因素:

假阳性和假阴性都有很大的代价。
重要的决定是在极少数情况下做出的，而且大多数情况都不有趣。
机器非常擅长自信地识别不感兴趣的案例，这个决定可以很快得到人类的确认，并在必要时重新校准。
在相当多的情况下，机器无法确定正确的决策。
机器不太擅长确定哪些潜在的有趣案例实际上是有趣的，但机器可以通过额外的训练来提高。
总体而言，人类更善于判断哪些潜在的有趣案例实际上是有趣的，但人类并不总是更好，在某些时候(当人类疲劳、分心、匆忙等)，机器会更好。

结论

这些例子表明，解决机器和人类之间的争端有几种可行的选择。有时，环境需要一个简单的工作流程，由人为决策主导。然而，在其他情况下，可能需要一个更复杂的框架，因为人类和机器擅长决策的不同方面，而这些方面不容易结合在一起。

在未来几年，通过采用人工智能来改善人们生活的努力将会加速。因此，对于监管机构和政策制定者来说，认识到优化人机决策的几种选择将变得越来越重要。要求人类审查每一个重要的人工智能决策，并在他们不同意的情况下总是用他们的决定代替机器的决定，可能会不必要地限制某些创新，在许多情况下不会产生最佳结果。相反，法律应该要求人工智能开发者和用户评估并采用人机争议解决框架，通过降低人和机器错误的风险，提高效率，并提供适当的机会来挑战或从过去的错误中学习，从而最有效地释放人工智能的价值。在许多情况下，该框架将涉及人类决策优于机器，但并非所有情况都是如此。

如欲订阅数据博客，请按在这里．

的Debevoise人工智能监管跟踪器(DART)现在可为客户提供帮助，帮助他们快速评估和遵守当前和预期的与人工智能相关的法律义务，包括市政、州、联邦和国际要求。

NYDFS发布其网络安全法规的正式修正案

网络直播:NYDFS对第500部分网络安全规则的新修订草案

相关的帖子

网络广播:为美国证券交易委员会针对注册投资顾问的新网络安全规则做好准备

ChatGPT就ChatGPT在法律职业中的作用采访了ChatGPT

科罗拉多州人工智能保险规则草案是人工智能治理监管的分水岭