生成式人工智能数据合规研究系列(四)个人信息保护篇

作者:天达共和律师事务所 数据合规团队

观点

在本系列第一篇《生成式人工智能数据合规研究系列(一)——法律与监管概述篇》 、第二篇《生成式人工智能数据合规研究系列(二)——网络安全篇》以及第三篇《生成式人工智能数据合规研究系列(三)——数据安全篇》中,我们主要进行了关于国内外生成式人工智能(“生成式AI”)数据合规法律和监管环境的梳理,并分析了生成式AI服务提供者在网络安全和数据安全方面可能面临的风险和防范。承接前三篇内容,我们继续推出本系列研究的第四篇“个人信息保护篇”。本篇是系列研究的最后一篇,在本篇中,我们将为您梳理和分析企业在开发和运营生成式AI的过程中在个人信息保护方面可能遇到的法律风险,并提出具有操作性的风险防范建议,供相关企业参考。  

根据《中华人民共和国个人信息保护法》(“《个人信息保护法》”),个人信息是指以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息[1],个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等[2]。在生成式AI的开发阶段,通常涉及到从公共互联网爬取数据作为其训练语料;而在生成式AI的运营阶段,通常在生成式AI与用户进行文本、图片的交互场景下都有可能涉及个人信息的处理。以下我们分别从输入AI的数据、AI生成的内容、个人信息泄露三个方面论述风险及防范建议。

一、输入AI的数据涉及的个人信息保护风险及防范

1. 风险概述

输入AI的数据,包括直接用于训练的数据(包括基于合作方的数据集、基于爬虫的外采数据集、人工标注数据集)以及用户在使用生成式AI的过程中主动输入的数据(人机交互数据集)。

目前主流的生成式AI,例如以智能对话为主要功能的ChatGPT,都是从最初的模型开始,通过不断输入海量数据训练、迭代而成,训练阶段主要为生成式AI正式投入运营前的预训练,在投入运营后,视情况也会涉及一定的优化训练。如本研究第三篇“数据安全篇”所介绍,用于生成式AI训练的数据主要来源于基于网络爬虫的外采的数据,因涉及海量网页数据,难免可能对爬取到个人信息,例如在网页上的自然人的姓名、性别、家庭住址等个人信息,其中也不乏身份证号码等敏感个人信息[3]。

此外,用户在使用生成式AI时,为进行内容生成,需要主动输入人机交互数据,例如输入聊天AI的提问内容或输入绘画AI的提示词(prompt),可能被用于AI的训练,这些数据中可能包含用户自身或其他自然人的个人信息。

在目前世界各国强调个人信息保护并积极建立相应个人信息保护制度的大背景下,如生成式AI直接对互联网上的个人信息进行爬取,或未经授权收集、使用用户输入的个人信息,则有可能构成对个人隐私权或个人信息权益的侵害。特别地,在我国,爬取未公开个人信息涉嫌直接侵犯公民的隐私权或个人信息权益[4],而即使爬取已公开的个人信息在特定情况下仍可能侵犯个人信息权益[5]。

2. 防范建议

为最大程度控制合规风险,我们建议尽量选择不包含个人信息的数据集作为生成式AI的训练数据,同时尽量不收集用户输入数据或不将其作为训练数据使用,为此,生成式AI服务提供者可提高在网络爬取和用户输入两个环节个人信息识别的准确性,并对识别的个人信息进行剔除或进行匿名化处理。如果缺乏上述条件或确有必要收集和使用包含个人信息的网络爬取数据集或用户输入的个人信息,生成式AI服务提供者应确保处理个人信息具备合法基础并履行相关个人信息保护义务。

①提高个人信息识别的准确性

无论是网络爬取数据的情境,还是收集和使用用户输入信息的情境,为尽量避免侵犯相关权益(包括隐私和个人信息权益),目前主流方式采用了机器过滤机制,具体而言:

在过滤网络爬取数据方面,企业会使用如自然语言处理(NLP)算法、模式识别等技术手段,通过数据清洗工具自动识别和删除可能包含个人信息的数据。但考虑到目前个人信息的外延具有不确定性,同时各行业监管要求对于个人信息的认定标准有一定区别,通过数据清洗机制对个人信息进行剔除难免会存在一定漏洞。

在过滤用户输入信息方面,企业会设置敏感词库过滤机制屏蔽,但通常只能屏蔽人工预设的特定词语或字段,无法主动识别某一特定内容是否属于个人信息,不具备识别个人信息的功能。

考虑到上述机器过滤机制在个人信息识别方面的局限性,我们建议在使用机器过滤机制的同时,增设人工审核机制,通过制定、完善细化个人信息识别规则、加强个人信息保护方面的培训等方式,加强审核人员对个人信息筛选的把握程度,提升识别个人信息的准确程度。如仍难以判断某一类信息是否属于个人信息,在必要时可咨询外部律师等的专业意见。

②对输入数据进行匿名化处理

《个人信息保护法》将技术上的脱敏处理区分为法律上的“去标识化”[6]和“匿名化”[7],其中去标识化处理后的个人信息仍属于个人信息,而匿名化处理后的个人信息不再属于个人信息。因此,对训练数据以及用户输入数据中的个人信息,如企业不希望将其剔除或难以剔除,可考虑进行匿名化处理后再导入,以有效避免个人信息合规风险。考虑到现阶段法律法规并未规定匿名化的技术要求,我们认为目前在大部分情况下,对个人信息进行脱敏处理可能仍仅能达到去标识化的效果,而无法达到匿名化的效果,因此,建议企业根据特定情况具体分析,评估相应脱敏处理是否已达到法律上的匿名化效果。

③在必须收集个人信息时,确保处理个人信息具备合法基础

如企业在技术上识别个人信息、对其进行匿名化处理存在困难,业务流程上无法排除对个人信息的收集和使用,或确有必要收集和使用个人信息,则企业应根据相关法律要求,确保处理个人信息的合法基础,即向相关个人告知生成式AI使用过程中个人信息的处理情况,并取得其同意;涉及处理敏感个人信息的,还应取得单独同意。

二、AI生成内容涉及的个人信息保护风险及防范

 1. 风险概述

①未经授权向用户提供/公开个人信息的风险

生成式AI服务提供者应确保生成式AI输出的内容(例如,智能问答AI生成的回答结果,绘画AI生成的图片等)不包含个人信息和隐私信息(包括但不限于自然人的身份证号码等),否则将会导致未经授权提供/公开个人信息风险。

通常而言,生成式AI输出带有个人信息内容的前提是已将个人信息作为训练数据输入生成式AI。对于面向公众开放的生成式AI,这类情况可能构成公开相关个人信息;如果仅限于向特定用户提供个人信息,也可能构成个人信息的对外提供。

根据《个人信息保护法》,公开个人信息[8]、对外提供个人信息[9]、处理敏感个人信息[10]均应向用户告知并取得单独同意,除非有其他处理个人信息的合法基础[11]。如生成式AI服务提供者未履行上述义务,或在用户输入自己以外的其他自然人个人信息的情况下未取得相关个人信息主体的授权,则生成式AI服务提供者在大多数情况下将不具备处理个人信息的合法基础,产生法律风险。由于生成式AI的算法黑箱,还可能构成以自动化决策[12]的方式处理个人信息,如未满足针对自动化决策的合规要求,也会产生法律风险。

此外,如果个人信息涉及隐私的,未经授权提供/公开他人隐私还会涉及对隐私权的侵犯[13]。

②可能影响儿童个人信息、隐私权益的风险

对于部分聊天对话类的生成式AI,根据域外的监管实践,考虑到输出内容可能对儿童的心智造成不良影响,部分国家还会要求这类生成式AI履行年龄验证义务等,以保护儿童相关权益[14];在我国,《个人信息保护法》明确规定不满十四周岁未成年人的个人信息属于敏感个人信息[15],并要求“个人信息处理者处理不满十四周岁未成年人个人信息的,应当制定专门的个人信息处理规则”[16],生成式AI处理者如不履行上述保护儿童个人信息、隐私权益义务将导致法律风险。

2. 防范建议

根据生成式AI的技术原理,如能有效控制输入AI数据中的个人信息,则可以在较大程度上控制AI生成内容中的个人信息。对于已输入AI用于训练的个人信息,考虑到可能作为输出内容呈现给其他用户,我们同样建议企业采用机器过滤机制加人工审核机制。如上述机器过滤以及人工机制仍无法避免AI的生成内容中包含个人信息,企业仍应按照前述建议确保处理个人信息具备合法基础,例如,可通过隐私政策等方式,向用户告知其输入的内容可能用于训练并出现在AI生成的内容中而构成“对外提供个人信息”的情形,并取得用户的单独同意。

通过算法向用户输出个人信息可能构成通过自动化决策的方式处理个人信息,生成式AI服务提供者还应遵守《个人信息保护法》及其配套制度中针对自动化决策的相关义务,向自动化决策涉及提供个人信息的员工提供便捷的拒绝方式[17]等,以及《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》中关于设置便捷有效的用户申诉和公众投诉、举报入口,明确处理流程和反馈时限,及时受理、处理并反馈处理结果的相关义务[18]。

在输出内容涉及的儿童个人信息保护方面,我们建议在生成式AI产品的隐私政策/授权函中明确该产品仅面向成年人提供,并设置专门条款就儿童个人信息保护规则予以必要说明。

三、个人信息泄露导致的风险及防范

1.  风险概述

《中华人民共和国网络安全法》(“《网络安全法》”)、《中华人民共和国数据安全法》(“《数据安全法》”)、《个人信息保护法》明确规定了网络运营者、数据处理者、个人信息处理者的数据安全、个人信息安全保护义务,其中关于网络运营者、数据处理者的安全保护义务已在本研究第二篇“网络安全篇”以及第三篇“数据安全篇”中进行了分析。根据《个人信息保护法》,生成式AI服务提供者作为个人信息处理者应当在个人信息处理的全生命周期内保护个人信息安全可控,防止个人信息泄露的风险[19]。此外,我国最新的立法趋势也专门提及了生成式AI服务提供者处理个人信息时应履行个人信息保护义务[20]。

因此,一旦生成式AI涉及的相关网络/信息系统发生数据泄露导致个人信息、隐私或其他合法权益受损,监管部门和个人均有权依据相关法律规定向训练、运行并提供生成式AI服务的主体(包括个人或组织)追责。除上述立法外,我国在行政执法和司法实践中都支持了该观点:

①在行政执法方面,自2018年起,针对网络乱象,我国公安机关开始实行“一案双查”制度,即在对网络违法犯罪案件开展侦查调查工作时,同步启动对涉案网络服务提供者法定网络安全义务履行情况的监督检查。生成式AI服务提供者作为个人信息处理者如未尽到网络安全义务,对个人信息泄露有过错的,会被追究行政责任甚至刑事责任。去年生效的《中华人民共和国反电信网络诈骗法》已通过立法方式,将上述“一案双查”制度确立为法定程序[21]。

② 在司法方面,如造成个人信息泄露导致个人权益受损,个人信息主体起诉要求赔偿的,基于特殊的过错推定原则,生成式AI服务提供者如不能证明自身没有过错,还可能承担民事责任[22]。

2. 防范建议

防止个人信息泄露等安全事件的发生作为数据合规的重要部分,涉及网络安全、数据安全、个人信息保护多方面的合规义务和风控方案,为最大程度防止个人信息泄露造成的法律风险,除我们在本研究第二篇“网络安全篇”以及第三篇“数据安全篇”提供的建议外,我们还建议企业按照相关法律法规的要求,全方位、多角度,从个人信息全生命周期进行个人信息保护体系化建设,例如,

在公司管理层面,建立完善个人信息保护内部制度并任命相关负责人;

在个人信息安全事件的对应方面,建立个人信息保护应急预案并落实;

在个人信息安全保障技术措施方面,建立分级分类保护等技术措施;

在第三方安全管理方面,明确个人信息处理全流程中的数据处理关系,确保合作方具有相关资质以及数据安全保护能力,并通过协议等方式约定双方的权利和义务;

在法律要求的情形下,事前进行个人信息保护影响评估[23]等。

结语

去年年末,OpenAI研发的生成式AI——ChatGPT横空出世,标志着AI技术正式进入大模型时代。生成式AI代表了AI技术发展的最前沿,一方面,我们认识到并感慨于AI技术所蕴含的无限潜能;但另一方面,我们也意识到并担忧于产生深刻变革的AI技术无论是对企业还是个人,都势必将带来与以往截然不同的法律风险。

作为法律工作者,我们深切地感受到新兴技术的发展正不断冲击着现有法律体系,在法律的理解和适用上提出了新的挑战,也意识到技术的不断发展和迭代可能会在某一个时间点深刻地影响未来的立法、监管及合规体系;而对企业而言,在各类新兴技术层出不穷的今天持续摸索适合自身发展的合规策略,无疑是保持市场竞争力的关键之所在。

在本系列研究中,我们深入探讨了在2023年赚足眼球的新兴技术生成式AI在数据合规的方方面面——从国内外法律和监管环境,到运营生成式AI的企业在网络安全、数据安全、个人信息保护方面可能面临的各类风险,再到相应的风险防范建议,我们希望通过本系列研究抛砖引玉,引发更多新兴技术背景下的企业合规探讨,同时对企业在新技术浪潮下的合规策略提供一定的参考意见。

以上是我们生成式人工智能数据合规研究系列的全部内容,感谢阅读!


注释;

[1] 《个人信息保护法》第4条第1款。

[2] 《个人信息保护法》第4条第2款。

[3] 《个人信息保护法》第28条:敏感个人信息是一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息,包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周岁未成年人的个人信息。

[4] 《民法典》第111条:自然人的个人信息受法律保护。任何组织或者个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。

[5] 《个人信息保护法》第27条:“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息;个人明确拒绝的除外。个人信息处理者处理已公开的个人信息,对个人权益有重大影响的,应当依照本法规定取得个人同意。

根据上述规定,如在个人明确拒绝的情况下爬取公开信息,或爬取对个人权益有重大影响的公开信息未取得个人同意的,将构成对个人信息权益的侵犯。

[6] 《个人信息保护法》第73条第(3)项:去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。

[7] 《个人信息保护法》第73条第(4)项:匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。

[8] 《个人信息保护法》第25条:个人信息处理者不得公开其处理的个人信息,取得个人单独同意的除外。

[9] 《个人信息保护法》第23条:个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。

[10] 《个人信息保护法》第29条:处理敏感个人信息应当取得个人的单独同意;法律、行政法规规定处理敏感个人信息应当取得书面同意的,从其规定。

[11] 《个人信息保护法》第13条规定了个人信息处理的合法基础:符合下列情形之一的,个人信息处理者方可处理个人信息:

(一)取得个人的同意;

(二)为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需;

(三)为履行法定职责或者法定义务所必需;

(四)为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需;

(五)为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息;

(六)依照本法规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息;

(七)法律、行政法规规定的其他情形。依照本法其他有关规定,处理个人信息应当取得个人同意,但是有前款第二项至第七项规定情形的,不需取得个人同意。

但需要注意的是,在生成式AI的商业场景下,处理用户输入和网上爬取的个人信息,难以适用同意以外的其他合法基础。

[12] 《个人信息保护法》第73条第(2)项:自动化决策,是指通过计算机程序自动分析、评估个人的行为习惯、兴趣爱好或者经济、健康、信用状况等,并进行决策的活动。

[13] 《民法典》第1032条:自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。

[14] 例如,今年3月31日,意大利个人数据保护局宣布暂时禁止用户使用聊天机器人ChatGPT,理由是ChatGPT缺乏年龄核实系统来验证用户年龄。

[15] 《个人信息保护法》第28条。

[16] 《个人信息保护法》第31条第2款。

[17] 《个人信息保护法》第24条第2款:通过自动化决策方式向个人进行信息推送、商业营销,应当同时提供不针对其个人特征的选项,或者向个人提供便捷的拒绝方式。

[18] 《互联网信息服务算法推荐管理规定》第22条、《互联网信息服务深度合成管理规定》第12条。

[19] 《个人信息保护法》第51条:个人信息处理者应当根据个人信息的处理目的、处理方式、个人信息的种类以及对个人权益的影响、可能存在的安全风险等,采取下列措施确保个人信息处理活动符合法律、行政法规的规定,并防止未经授权的访问以及个人信息泄露、篡改、丢失:

(一)制定内部管理制度和操作规程;

(二)对个人信息实行分类管理;

(三)采取相应的加密、去标识化等安全技术措施;

(四)合理确定个人信息处理的操作权限,并定期对从业人员进行安全教育和培训;

(五)制定并组织实施个人信息安全事件应急预案;

(六)法律、行政法规规定的其他措施。

[20] 《生成式人工智能服务管理暂行办法》第9条:提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务。涉及个人信息的,依法承担个人信息处理者责任,履行个人信息保护义务。

提供者应当与注册其服务的生成式人工智能服务使用者(以下称使用者)签订服务协议,明确双方权利义务。

[21] 《反电信网络诈骗法》第29条第2款:公安机关办理电信网络诈骗案件,应当同时查证犯罪所利用的个人信息来源,依法追究相关人员和单位责任。

[22] 《个人信息保护法》第69条第1款:处理个人信息侵害个人信息权益造成损害,个人信息处理者不能证明自己没有过错的,应当承担损害赔偿等侵权责任。

[23] 《个人信息保护法》第55条。


作者

作者动态

作者其他文章

相关领域

Copyright © 1998-2018 天达共和律师事务所 京ICP备11012394号
联系我们 关注公众号
联系我们