Debevoise数据博客

我们写过几次关于公司的需求减少他们收集的数据量并清除旧数据。数据最小化降低了法律、网络安全和隐私风险,这些风险与公司拥有大量不需要存储在系统或供应商上的机密信息有关。但是,正如许多公司开始遵守新的监管义务以摆脱旧数据一样,他们也在实施需要大量机密信息的人工智能和大数据项目,这可能会使他们的数据最小化工作复杂化。当考虑到用于训练当前运行的人工智能模型的机密数据要保存多长时间时,这种紧张关系尤其具有挑战性。

摆脱旧数据的监管要求

数据最小化法通常规定,应当保留非公开数据,直到出于合法商业目的或法律原因(如未决诉讼或监管要求)不再需要为止。例如,在某些情况下,联邦贸易委员会(“FTC”)认为,根据《联邦贸易委员会法》第5条,保留个人数据的时间超过合法业务或法律目的所需的时间是“不公平的”商业行为。同样,《纽约盾牌法案》(New York Shield Act)要求公司在不再需要用于商业目的的合理时间内处理纽约居民的私人信息。此外,《2020年加州隐私权法案》(“CPRA”)第4条禁止企业保留消费者个人信息或敏感个人信息的时间超过合理必要的时间,NYDFS网络安全规则、弗吉尼亚州和科罗拉多州隐私法、GDPR和2018年英国数据保护法中也存在类似的数据最小化要求。

应用于人工智能训练数据的数据最小化要求

当将这些数据最小化要求应用于用于训练人工智能模型的大量机密公司或个人信息时,出现的明显问题是:()在模型运作时维持训练集是否构成合法的商业目的;和(2)是否保留任何法律或监管指南所要求的训练集?

首先考虑第二个问题,对于人工智能训练数据必须维护多长时间,似乎没有任何具体的法律要求。一些州的保险监管机构表示,他们希望能够审查用于开发某些模型的数据,并能够对模型本身进行审计,在某些情况下,审计可能包括用于训练模型的数据。例如,康涅狄格保险部门表示它有权要求保险公司向该部门提供用于构建承保文件中包含的模型或算法的数据。类似地,科罗拉多州人工智能保险规则草案如果被采纳,将要求在科罗拉多州运营的人寿保险公司为其模型保留详细的文档,包括用于训练模型的数据集的描述。

培训数据保留需要考虑的因素

至于第一个问题——维护人工智能训练数据是否构成合法的业务目的——有几个因素需要考虑。一方面,通过摆脱旧的敏感训练来降低隐私和网络安全风险,另一方面,在模型的性能受到某些审查的情况下,可以访问人工智能模型的训练数据,在这两者之间取得平衡,公司应该权衡:

  1. 培训数据的性质,包括是否包含大量有关客户或员工的敏感个人或生物特征数据,以及这些人居住的司法管辖区和公司部署这些模型的地方;
  2. 适用于基础训练数据的一般保留或删除要求(g。如果敏感的客户个人信息被用于训练人工智能模型,是否有监管要求或公司政策要求在一段时间后删除这些数据,无论其是否用作人工智能训练数据);
  3. 可能与保留培训数据相关的任何网络安全、隐私和监管风险,包括在响应数据访问请求或响应诉讼中的发现请求时必须查看数据;
  4. 无需访问完整的训练数据集就可以测试模型的性能;
  5. 如果与该数据相关的模型将成为诉讼或监管调查的对象,保留该培训数据的好处和风险;
  6. 与保留培训数据有关的存储和处理成本;和
  7. 与适用于培训数据的各种保留选项相关的管理和遵从性负担。

这些因素适用于不同类型的模型。对于在部署后继续学习的持续学习(“CL”)模型,可能有理由将模型输出保留更长时间。由于这些模型通常会不断发展,监管机构和法院可能会争辩说,在发生性能问题或其他监管问题时,模型的早期输出对于理解其后来的性能很重要。生成式人工智能模型在保留训练数据方面提出了独特的挑战,因为它们的训练是连续的,训练数据量非常大,而且大多数用户都无法访问这些训练数据。

人工智能训练文档的数据保留框架示例

在模型运行时维护。公司可以将模型的训练数据保留到一段合理的时间(例如,(1年)模型退役后。

这种方法的一个好处是,它确保在模型的整个生命周期内,训练数据将可用于分析、响应监管查询或防止民事索赔。另一个好处是该政策的简单性,这将使遵守相对容易。就风险而言,这种方法增加了网络安全和隐私风险,因为数据的可用时间可能很长,这也可能涉及巨大的存储成本。此外,长期保留培训数据可能会增加与数据访问和数据删除请求以及诉讼发现相关的负担。

离线维护或一年后删除。另一种方法是将模型的训练数据保存到一个合理的时间(如。(一年)在模型运行后,保留训练数据的描述,以及字段和相关元数据,然后删除实际的训练数据或将其存储在离线存储位置,直到相关模型完全退役。

这种方法的优点包括降低网络安全和风险,降低与保留数据相关的存储成本。在这种方法下,如果仅仅对训练数据和元数据的描述不足以响应与模型有关的监管要求或不足以抗辩民事索赔,则可以提供训练数据的离线副本。潜在的缺点包括离线存储数据可能会使隐私审计复杂化,以及数据访问和数据删除请求。将离线数据联机以满足法规遵从性或诉讼可能代价高昂,并且离线数据仍可能会被发现。

一年后将数据匿名化。另一种方法是将训练数据保存到合理的时间(如。(一年)在模型运行之后,然后维护训练数据的描述,以及字段和相关元数据,并存储训练数据的匿名版本,直到模型完全退役。

这种方法的主要优点是,匿名数据以及对训练数据及其元数据的描述可能足以满足监管要求和对民事索赔的防御,同时降低隐私和网络安全风险,特别是因为匿名数据通常不受隐私和数据最小化要求的约束。另一方面,对于一些公司来说,满足为避免隐私义务所必需的去识别标准可能是困难和昂贵的。这种更复杂的保留策略也可能使整个组织的一致性遵从更具挑战性。最后,存在一些风险,即匿名数据、培训数据描述和元数据一起可能不足以满足所有监管要求或支持对民事索赔的抗辩。

如欲订阅数据博客,请按在这里

Debevoise人工智能监管跟踪器(“DART”)现在可以帮助客户快速评估并遵守其当前和预期的人工智能相关法律义务,包括市、州、联邦和国际要求。

这篇博文的封面是由DALL-E制作的。

作者

Avi Gesser是Debevoise数据战略与安全小组的联合主席。他的业务重点是就广泛的网络安全、隐私和人工智能问题向大公司提供咨询。您可以通过agesser@debevoise.com与他联系。

作者

Mengyi Xu, Debevoise律师事务所诉讼部助理,注册信息隐私专家(CIPP/US)。作为本所跨学科数据战略与安全部门的一员,她帮助客户应对复杂的数据驱动挑战,包括与网络安全、数据隐私、数据和人工智能治理相关的问题。梦易的网络安全和数据隐私业务侧重于事件准备和响应、法规遵从和风险管理。可以通过mxu@debevoise.com与她联系。

作者

Michael Pizzi是国际争端解决、国际公法和数据战略与安全部门的助理。您可以通过mpizzi@debevoise.com与他联系。

作者

Jackie Dorward是Debevoise & Plimpton律师事务所的法律助理。

Baidu
map