模型破坏-联邦贸易委员会的强大的新人工智能和隐私执法工具- Debevoise数据博客

一个联邦贸易委员会最近的和解这是监管机构通过要求公司销毁算法或模型，向违反人工智能(“AI”)或隐私的公司施加巨额成本的最新例子。随着企业在大数据和人工智能项目上投资数百万美元，还有监管机构越来越担心关于与自动化决策相关的风险(例如，隐私、偏见、透明度、可解释性等)，公司必须仔细考虑与某些数据实践相关的监管风险。在这篇Debevoise数据博客文章中，我们讨论了监管机构可能要求“算法追缴以及一些避免这种结果的最佳做法。

模型破坏补救措施如何产生

当监管机构正在审查一个复杂的模型时，就会出现这个问题，该模型使用所有者未被法律授权用于该目的的数据进行训练或增强。例子包括:

A公司建立了一个模型来筛选简历，并决定哪位求职者能进入面试阶段。该模型是在现任和前任员工不知情或不同意的情况下，使用他们的简历进行训练的;
B公司建立了一个模型来审查贷款申请，并决定谁是不可接受的信用风险，部分基于违反某些网站使用条款从互联网上抓取的数据;而且
C公司建立了一个可以识别虚假新闻的人工智能模型。该模型是使用来自可靠来源的经过验证的新闻文章进行训练的，但A公司没有获得为此目的使用新闻文章所需的许可证和版权。

如果确定AI模型是使用法律上不允许的数据开发的，那么就会出现两个问题。首先，是否可以从模型中完全去除受污染的数据，或者模型的性质是否排除了这种可能性?其次，即使模型可以完全清除受污染的数据，对数据违反的适当补救措施是否包括销毁模型?

W.W. International & Kurbo

2022年3月3日，公平交易委员会达成了法院批准结算与Kurbo, Inc.和W.W. International合作，正式名称为国际慧俪轻体(合称“慧俪轻体”)。联邦贸易委员会的指控称，慧俪轻体在没有必要的通知和同意的情况下收集和保留儿童的个人信息，违反了《儿童在线隐私保护法》(“COPPA”)和《联邦贸易委员会法》第5节。和解协议包括强制救济，要求慧俪轻体删除或销毁未经父母同意而在网上收集的13岁以下儿童的任何个人数据，以及使用这些个人信息开发的任何模型或算法。该和解协议还禁止慧俪轻体在没有父母同意的情况下，“披露、使用或受益于”在和解日期之前获得的任何个人信息。至于金钱补偿，慧俪轻体还同意支付150万美元的民事罚款因为各种数据违规包括“保留在网上从儿童收集的个人信息的时间超过为实现收集信息的目的而合理必要的时间。”虽然FTC无权对最初违反FTCA的行为进行民事处罚，但FTC可以对最初违反其执行的其他法规(如COPPA)进行民事处罚。

Everalbum

我们第一个关于模型破坏的文章在2021年初，联邦贸易委员会要求Everalbum删除其面部识别算法，据称这些算法是通过误导消费者而开发的，让他们相信Everalbum没有使用面部识别，除非用户启用或打开它。据称，该公司违反了美国联邦贸易委员会法案第5(a)条，向客户承诺，只有在用户选择加入的情况下，才会对用户的内容使用面部识别，如果用户停用了他们的账户，它就会删除用户的内容，但没有遵守这两项承诺。在宣布和解协议时，前联邦贸易委员会委员(现任消费者金融保护局局长)罗希特·科普拉，所述“首先，联邦贸易委员会提议的命令要求Everalbum放弃其欺骗的成果。具体来说，该公司必须删除任何通过不当获取的照片增强的面部识别技术。委员们此前曾投票允许违反数据保护法的人保留大部分价值来自非法获取数据的算法和技术。这是一次重要的路线调整。”

Everalbum案并不是联邦贸易委员会第一次要求一家公司删除算法，这些算法是用它没有被允许以那种方式使用的数据创建的。在2019年,联邦贸易委员会下令剑桥分析公司销毁了通过所谓欺骗手段从消费者那里收集信息的算法。

为什么要用算法卸货是有效的补救措施

特别是对FTC来说，模型破坏是一个强大的新工具，特别是在涉及人工智能技术的涉嫌违规行为方面。由于最近最高法院的判决AMG资本管理公司根据《联邦贸易委员会法》(FTCA)第13(b)条，联邦贸易委员会无法获得公平的金钱救济。然而，联邦贸易委员会仍然可以获得一系列广泛的非金钱衡平法救济，在某些情况下，这些救济的范围可能比被视为非法的行为更广。这些被称为“围栏”补救措施，旨在防止未来的非法行为。

此外，绝大多数联邦贸易委员会案件的结果是和解，联邦贸易委员会通常可以通过和解获得补救措施(包括规定的禁令补救措施)，而仅凭法院命令可能无法获得这些补救措施。根据联邦贸易委员会最近的和解协议，很明显，联邦贸易委员会打算寻求算法泄露补救措施，除非法院裁定这种补救措施超出了委员会的权限。

对于所有监管机构来说，模型破坏可能是一种强有力的惩罚和威慑，因为:

许多复杂的模型花了数年时间开发，耗资数百万美元，而且不容易复制或取代;
富数据集通常用于训练多个模型，因此如果数据集被污染，几个模型可能会受到影响;而且
即使受污染的数据只用于训练一个模型，许多模型的输出也会作为其他模型的输入，因此在某些情况下，算法卸除可能需要销毁同一模型链或聚类中的几个模型。

因此，公司应考虑采取措施，降低可能导致实施这一强有力补救措施的违规行为的风险。

避免模型破坏的要点和技巧

不要等待人工智能监管来建立治理和合规模型

作为我们之前提到过美国证券交易委员会，联邦贸易委员会以及其他监管机构不会等待新的针对人工智能的法规来采取与复杂模型使用相关的执法行动。联邦贸易委员会在这些案件中指控了非常传统的违规行为——公司在使用客户数据进行培训或运营模型方面进行了虚假陈述，这种虚假陈述构成了违反1917年通过的《联邦贸易委员会法案》第5(a)条的不公平或欺骗性行为或做法。

识别高风险模型

考虑创建一个系统，用于识别重要的模型或相互连接的模型集群，这些模型可能包含将模型置于破坏风险中的输入，并具有一种方法，通过该方法可以审查这些模型的遵从性和风险。

审查高风险模型对模型输入的使用权

考虑实施政策、程序和培训，以确保公司(1)了解用于高风险模型的培训和操作的输入，(2)授权将数据用于这些目的。考虑进行抽样审核，以确保所提供的任何必要通知不具误导性，并在有需要时获得适当的同意。

业务持续发展计划

考虑创建一个计划，以确保在特定的高风险模型被命令销毁或由于其他原因失效时，不发生重大中断，继续运行。联邦贸易委员会规定的销毁时间很短(90天或更短)，这表明企业可能需要迅速采取行动，更换监管机构认定为非法使用数据的不义之财的模型。

跟踪用于训练重要模型的数据

如果某一组训练数据被监管机构认定受到了污染，那么对公司来说，证明其他模型没有使用同一组数据进行训练可能就变得很重要。因此，公司应该考虑为用于训练、验证和操作重要模型的数据类型提供可靠的文档。

对供应商和收购调查的需要

企业越来越多地通过收购或第三方供应商安排来增强其人工智能能力。鉴于数据违规的风险，公司应考虑实施稳健的人工智能勤奋和风险评估过程由第三方开发或将被收购的重要人工智能应用程序或数据集，可能包括:

确定人工智能应用程序是否使用敏感的消费者数据(包括生物特征信息或有关受保护阶层成员的数据)或其他可能受到未经授权使用指控的数据开发;
评估供应商或收购目标采取了哪些步骤，以确保提供了所有适当的通知，并获得了授权;而且
评估与这些授权相关的文档。

考虑降低与受污染模型相关的风险和成本的方法

在某种程度上，公司已经收集和使用数据进行模型训练

可能被视为有问题，应努力确定是否

任何补救措施都可以:

提供适当的数据使用事后通知，如果对数据使用的这种改变可能被认为是重大的，或者所涉及的数据可能是敏感的，则考虑在必要时获得同意;
在可能的范围内，从模型中完全清除潜在的受污染的数据，并记录该过程，可能在第三方公司的帮助下提供一些测试或审计功能;
如果公司有义务暂时或永久停止使用模型，则计划可能导致的任何业务中断;
确保向董事会和投资者充分披露模型可能因受污染的培训数据而不得不被废弃的风险;而且
评估风险是否可以通过保险或其他方式进一步减轻。

结论

联邦贸易委员会的这些和解协议，以及算法泄露的前景，对依赖消费者数据来训练和运营重要人工智能应用程序或从第三方获得人工智能许可的公司具有重大影响。

监管机构关注人工智能的公平性、偏见和隐私问题，并且越来越有可能发现数据以监管机构认为令人反感的方式被用于模型开发的实例。当这种情况发生时，从算法中提取不合规数据可能是极其困难的，特别是对于机器学习或人工智能模型，这使得破坏成为监管机构的合理补救措施。因此，大量投资人工智能和大数据的公司应该考虑实施政策、程序、培训和治理来降低风险。

作者要感谢Debevoise法律助理Emily Harris对这篇文章的贡献。

订阅我们的数据博客，请点击在这里．