欧盟开发、运用生成式人工智能系统中的数据保护体系概览
2024-09-06 09:41:45 | 来源:人民法院报 | 作者:郝荣
 

  生成式人工智能系统可以在对已有数据识别、分析的基础上自主生成新的内容,增强人类解决问题的能力,并且已经被广泛运用到智能办公、智慧科研、智慧医疗等多个领域,为社会发展带来便利,但同时也为数据保护带来新的挑战。欧盟作为人工智能的积极开发者和运用者,对生成式人工智能中的数据保护问题进行了探索,并颁布了一系列法案和指南,形成了全方位、多层次、重实效的数据保护模式。

  数据处理存在的风险

  在生成式人工智能系统开发、运用过程中,对于数据的处理主要集中在准备阶段、训练阶段和输出阶段,包括输入、存储、运算、输出等不同程序。这些程序对于数据的处理都存在风险,具体表现在以下方面:

  第一,数据收集方面,存在侵权的风险。生成式人工智能系统是利用算法、模型和规则,从大规模数据中集中学习,以创造新内容的人工智能技术,其开发、训练都需要大量数据做支撑。

  实践中,生成式人工智能系统开发的数据来源包括以数据爬虫技术为典型的主动构建形式和“输入——收录”为典型的被动构建形式两种。主动构建的数据依赖数据爬虫技术获取,但开发者不当爬取数据的行为可能超越数据搜集的正当性边界,侵犯国家的数据主权。被动构建的数据依赖于用户输入的内容,开发者可能因为违规搜集用户信息,侵犯用户的信息权和知情权等权利。

  第二,数据存储方面,存在隐私泄露的风险。生成式人工智能系统的开发者需要将收集的数据储存在服务器上,以供其进一步分析。但是由于网络安全问题,存储在服务器上的数据存在被泄露的风险,包括主动泄露、隐含泄露、系统漏洞泄露等方式。

  数据一旦被泄露,会造成一系列消极影响。从生成式人工智能系统的开发而言,数据被泄露、损毁,模型对数据的分析可能出现错误,如果模型在错误分析的基础上作出错误的决策,可能影响数据的开发价值。从主体权益视角而言,个人信息数据的泄露可能侵犯个人的权益;企业数据的泄露可能引发企业之间的不正当竞争;政府数据的泄露可能造成公共利益、国家安全利益等被侵害的消极后果。

  第三,数据运算方面,存在算法歧视的风险。生成式人工智能系统的开发遵循以下路径,即开发者首先需要选取样本数据,在对样本数据进行标注分类的基础上,利用评分结果训练反馈模型,最终形成生成式人工智能系统模型。

  根据生成式人工智能系统的开发路径可以明确,生成式人工智能系统对于世界的认知源于算法,开发者对原始数据的标注是模型认知的基础。开发者对于数据的不恰当标注可能导致生成式人工智能系统的决策逻辑具有偏见,依据生成式人工智能系统得出的结果也会存在歧视等问题。

  第四,数据输出方面,存在生成虚假内容的风险。生成式人工智能系统输出的信息只是模型依据特定规则对信息筛选之后给出的单一且标准化的内容,该内容的真实性和准确性无法保障。所以,生成式人工智能系统输出的内容可能是虚假信息,甚至是恶意的内容,进而对人的行为和决策造成消极影响。当虚假信息被恶意利用,还可能会危害国家安全和稳定。

  数据安全保护体系

  欧盟的《人工智能法案》《通用数据保护条例》《数据法案》和《人工智能伦理准则》等对生成式人工智能系统开发、运用中的数据保护作了规定,确定了一系列原则和具体措施,基本形成了全方面、多层次、重实效的数据安全保护体系。

  第一,数据保护原则包括数据最小化原则、准确性原则和透明性原则。

  最小化原则。该原则要求生成式人工智能系统的开发者限制搜集和处理个人数据的范围,以防止个人数据被滥用。一方面,生成式人工智能系统的开发者不得随意搜集个人数据信息,其搜集的个人数据信息需要以满足特定的处理目的为限度。另一方面,生成式人工智能系统的开发者可以通过匿名化、假名化等形式对个人信息数据进行处理,尽可能地减少对个人信息的侵犯。

  准确性原则。该原则要求生成式人工智能系统的开发者和使用者要尽可能地保障数据内容的准确性。具体包括两个方面的内容:一方面,开发者在开发生成式人工智能系统过程中,应当尽可能地使用高质量、标注准确的数据集而且及时更新并删除不准确的信息;另一方面,使用者在使用第三方提供的生成式人工智能系统时,必须通过尽职调查、评估审核开发者所用数据、取得系统开发者使用数据准确性的合同保证和文件等方式,尽力确保数据的准确性。

  透明性原则。该原则要求生成式人工智能系统的提供者公开、披露算法的设计原理、数据输入和输出规则等内容,增强生成式人工智能系统的可追溯性和可解释性。一方面,生成式人工智能系统的提供者需要让相关主体了解系统的原理。对于使用者而言,开发者需要就模型训练中使用的内容制定详细的摘要并公开,供生成式人工智能系统的使用者了解、使用。对于部署者而言,开发者需要适当告知部署者该人工智能系统的能力和局限性。另一方面,生成式人工智能系统的提供者要确保个人意识到其在与人工智能系统交互,以防止虚假信息对于个人决策的影响。

  第二,数据保护基本实现了从输入端到输出端的全过程保护与监管。

  生成式人工智能开发前期,开发者必须保障信息搜集的合法性和信息存储的安全性。

  首先,开发者搜集个人信息时应当获得个人肯定、具体、明确的同意。如果用户撤销同意,开发者必须停止对个人数据的持续使用。如果生成式人工智能系统的开发者声称其不处理个人数据,包括对个人信息数据进行匿名化处理和使用合成数据时,应当提供详细信息予以证明。

  其次,开发者不得将通过网络爬虫技术获得的个人数据用于生成式人工智能系统的开发。通过数据爬虫技术获取的个人信息是在当事人不知情的情况下获取的,个人信息处理的目的、方式等会发生相应的变化,可能导致数据主体失去对个人信息的控制,所以不得将其运用于生成式人工智能系统的开发。

  最后,开发者需要积极采取措施减轻生成式人工智能系统对个人权益构成的威胁和风险。开发者需要不断提升处理系统漏洞的能力,以防恶意第三方利用系统漏洞改变生成式人工智能系统的使用、输出或性能对个人权益造成的侵犯。

  生成式人工智能系统开发过程中,开发者需要保障训练数据的恰当性。

  一方面,开发者需要准确标注数据。开发者需要审查数据标注可能存在的偏差,尤其关注可能影响个人健康、安全、基本权利和欧盟法律禁止的歧视等方面的数据偏差。

  另一方面,欧盟通过问责和监督机制防止人工智能系统对于个人产生的偏见。具体而言,欧盟组织机构应当采取留存文档等措施,确保处理数据活动可追踪、可审计,以减少因为过度依赖系统提供的结果而导致自动决策和确认偏差。

  生成式人工智能系统开发后期,开发者需要控制以下风险:

  市场准入方面,欧盟将人工智能划分最低风险、低风险、高风险、不可接受风险等四个等级,明确不同等级人工智能系统市场准入规制,以保障数据安全。

  技术方面,欧盟明确了生成式人工智能系统的开发者需要在传统信息技术系统安全控制的基础上,提升加密、防止数据泄露、云计算安全等技术水平,尤其需要提升针对模型的逆向攻击、提示词注入攻击、越狱攻击等安全漏洞的维护能力,以保障数据安全。

  监管方面,欧盟明确了数据保护官制度。数据保护官作为数据主体和数据保护监督机构的联系人,需要了解生成式人工智能系统的工作方式,比如生成式人工智能系统具体如何处理个人数据、如何输入和输出个人数据、如何实施决策信息等内容,在此基础上监督系统开发者适时更新数据、记录所有流程,并通过对数据保护影响评估提供建议,以实现对数据的保护。

  欧盟通过一系列法案和指南规范,为生成式人工智能系统开发、运用过程中的数据保护形成了全方位、多层次、重实效的数据安全体系,为数据保护提供了依据。

  (作者单位:中南财经政法大学法学院)

责任编辑:黄东利