专业研究
邦盛研究|生成式人工智能(Gen AI)浪潮下的数据合规“暗礁”——服务提供者的合规要义与应对路径(下篇)
2026-05-09

生成式人工智能(Gen AI)正加速渗透各行业,但其在模型训练、应用与优化过程中,数据安全与个人信息保护风险日益突出。本文从企业法律监管定位的角度,结合生成式人工智能底层技术原理,通过模型训练、模型应用、模型优化三个方面,重点分析生成式人工智能服务提供者在数据安全与个人信息保护方面的合规风险与应对。


本文接续上篇,进一步分析生成式人工智能服务提供者在数据及个人信息处理方面的合规风险,并提出应对策略。



三、AIGC服务提供者的数据安全与个人信息保护合规要义


从上述对Gen AI和AIGC相关原理的简述中,可以清晰地看到对于Gen AI和AIGC而言,数据起着关键和决定性作用。《暂行办法》从AIGC研发和使用的角度定义了两种角色,即前文提到的提供者和使用者。

根据《暂行办法》的定义,提供者是利用Gen AI技术提供Gen AI服务(包括通过提供可编程接口等方式提供,见图-2)的组织、个人,该定义实际包含提供者的两种类型,即Gen AI技术开发者和服务提供者,开发者可能直接向使用者提供服务,也可能被提供者集成其技术,再由提供者向使用者提供服务。而在实务中,相关实体往往不会仅扮演单一角色。


f1a3bc2c8966977488f88eb034a4a3d3.png

图-2:以软件层面的可编程接口API类比客户在银行办理存取款业务,在API调用过程中,客户端(有存取款需求的客户)会通过API(银行工作人员)发送请求,API将请求(相关身份材料等)传递给服务器(银行系统)后,服务器根据请求进行相关处理,最后通过API将处理后的响应结果返回给客户端。


2023年初,美国商务部下属的国家标准与技术研究机构(National Institute of Standards and Technology, NIST)发布了一份《人工智能风险管理框架》(Artificial Intelligence Risk Management Framework, AI RMF 1.0),该框架不仅限于生成式人工智能,而是为人工智能相关技术风险管理整体搭建了一个AI生命周期模型,包括规划与设计(Plan and Design)、数据收集与处理(Collect and Process Data)、模型架构与使用(Build and Use Model)、验证与确认(Verify and 1 Validate)、部署与使用(Deploy and Use)、操作与监控(Operate and Monitor)共六个维度[1]。从Gen AI的角度,结合我国立法要求,则应重点关注模型的训练、应用和优化三个阶段。


(一)模型训练


在模型训练阶段,提供者的合规要点主要涉及数据来源和数据质量两个方面,前者强调数据来源的合法性,后者侧重数据的真实性、准确性、客观性和多样性。


1. 数据来源


训练模型的数据来源目前主要包括自采数据、开源数据、商业训练数据、使用者输入信息等[2](见图-3)。提供者应注意根据其使用的不同来源有针对性的关注合规风险并采取相应的措施。


7db7fdff24beac9aee9bb6223762810f.png

图-3


1)自采数据。自采数据包括提供者自行生产的数据和自行从互联网采集的数据。爬取公开数据是自采数据和数据训练的主要方式之一,在自动化访问和收集互联网公开数据的过程中,如果涉及突破被访问目标技术措施,并成功抓取数据,提供者需注意:第一,确保不影响目标系统或网站的正常运行,控制访问流量和频率;第二,关注网站Robots协议,不得绕开或者破解目标网站、系统的技术保护措施;第三,爬取的数据类型应为公开的前台数据,不得对其进行超过合理限度的处理,涉及个人信息的,应避免爬取;如确需爬取的,需要符合个人信息保护的相关规定。具体而言,在涉及一般个人信息用作训练数据时,应取得对应个人的同意并符合其他相关法律、行政法规的规定;涉及敏感个人信息时,则还应取得对应个人的单独同意。

2)开源数据。开源数据通过开源许可证(开源协议)明确数据使用的条件和限制。因此,使用开源训练数据时,应注意该数据来源的开源许可文件对许可方保留的权利与被许可方的使用边界相关内容。

3)商业训练数据。此类数据系采购数据,需重点关注采购合同、合作协议等文件的法律效力,并要求交易方或合作方提供数据来源、质量、安全等方面的承诺及相关证明材料,并对这些材料进行审核。

4)使用者输入信息。使用者通常为To C端用户,其对Gen AI的每一次输入行为——无论是提问、对问题的修正,还是发布的具体处理任务要求,都可能包含用户自身信息数据的输入,因此,提供者如要将此类信息用作训练数据,则需获得使用者的授权。


2. 数据质量


本文在上篇对Gen AI的运作原理进行论述时,实际上已经提到过数据质量对于AIGC的重要性,在此再从数据标注和数据训练两方面作进一步细化分析。

1)数据标注

Gen AI数据标注(Data Annotation)是指通过人工操作或使用自动化技术机制,基于对提示信息的相应信息内容,将特定信息如标签、类别或属性添加到文本、图片、音频、视频或者其他数据样本的过程[3]。数据标注的不一致性、偏见、错误等产生的噪声(Noise)会导致模型对数据学习和识别的偏差,导致AIGC出现幻觉现象或生成不公平或歧视性内容。

因此,提供者在涉及数据标注时,应注意制定标注规则,包括标注目标、数据格式、标注方法、质量指标等内容;明确具体标注任务类型,对含有文本、图片、音频、视频、时间序列等不同内容的标注任务确定任务要求;制定标注结果的质量及安全性核验方法和安全事件应急和处理机制。此外,应注意对数据标注人员进行安全培训、明确标注任务分配、进行有效的人员管理。

2)数据训练

为避免数据价值观偏差和模型可信度降低,提供者应注意确保训练数据的多样性和时效性。通过严格细致的数据分析和筛选,保证训练数据的代表性,并根据目标需求涵盖不同领域、群体、层级、地区、文化等。此外,训练完成的数据并非固定不变,提供者应对这些数据保持监控和评估,并适时调整,以确保数据来源紧跟相关领域最新动态,持续提升AIGC的准确性和可靠性。


3. 处理核心数据、重要数据


在数据来源和数据质量之外,提供者也需要对核心数据和重要数据的处理额外关注。《数据安全法》对核心数据和重要数据都有明确规定,国家市场监督管理总局和国家标准化管理委员会联合发布的数据分类分级标准则进一步提供了不同角度数据分类分级的参考依据[4]

此外,各行业领域也相继出台规定,对具体行业的核心数据和重要数据划分予以明确和细化。例如,《工业和信息化领域数据安全管理办法(试行)》,根据数据遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益等造成的危害程度,将工业和信息化领域数据分为一般数据、重要数据和核心数据三级,并对三级数据的具体划分要素予以明确。Gen AI服务提供者在进行模型训练时,如果涉及对核心数据、重要数据的处理,就需要更加严格地履行相关义务,并准确定位所在行业的具体规定和要求。


(二)模型应用


在模型应用阶段,对提供者而言同样需要注意数据安全合规义务。由于涉及进入To C端的应用,因此该阶段的合规侧重将主要针对个人信息保护相关内容,包括对个人信息的合规处理、数据跨境传输以及个人信息主体的权利保障。


1. 个人信息处理


根据《个人信息保护法》的相关规定,处理个人信息应当遵循合法、正当、必要和诚信原则,明确处理目的、方式和范围,并采取对个人权益影响最小的方式。此外,应格外注意如果涉及对敏感个人信息的处理,则必须获得该等个人的单独同意。


2. 数据跨境传输


当Gen AI服务提供者将服务器部署于海外时,存储在服务器上的数据就可能涉及数据跨境传输。根据相关法律规定,在企业属于关键信息基础设施运营者(CIIO)或处理的数据类型和数量达到法律规定的类型和数量后,数据跨境传输必须通过特定的合规途径完成。数据出境的三条合规路径包括通过国家网信部门组织的数据出境安全评估、经专业机构进行个人信息保护认证、或者按照国家网信部门制定的标准合同与境外接收方订立合同约定双方的权利和义务。提供者应根据实际情况完成相关评估、审批或申报工作。


3. 个人信息主体的权利保障


《个人信息保护法》明确规定了个人对其个人信息处理的具体权利,包括知情权、决定权,并有权限制或者拒绝他人对本人个人信息进行处理;此外还包括查阅、复制、更正、补充权,个人有权请求个人信息处理者就其行使这些权力予以配合和协助。基于此,提供者应确保对个人权利保障有充分认识,并保证个人能够充分行使其法定权利,建立有效的沟通反馈机制,并对个人的相关请求予以及时处理。


(三)模型优化


在模型优化阶段,最典型的风险在于通过人机交互收集的数据本身被用于模型的迭代训练。实务中,已经出现使用者与提供者签订的协议中,使用者对提供者从其获取的数据和相关信息的应用提出明确限制,或直接禁止用于提供者模型优化的情形。反之,提供者也在通过Gen AI服务平台公开的用户协议或隐私政策对用户数据的处理方式予以明示。特别是提供者需要向使用者明确其数据可能用于模型迭代训练等处理活动,并为使用者事先有效的同意或拒绝提供选择便利。



四、结语


本文从Gen AI服务提供者的角度,以数据安全和个人信息保护为切口,通过生成式人工智能的底层运行原理,分析了提供者在Gen AI以及AIGC中可能面临的合规风险和应对。随着我国人工智能领域法律法规的不断健全完善,以及司法实践场景的丰富,企业在人工智能发展中不同角色下的合规义务也将更加清晰明确。



【参考资料】

[1] Artificial Intelligence Risk Management Framework (AI RMF 1.0) ,[202604-15]

https://www.nist.gov/itl/ai-risk-management-framework

[2]《网络安全技术生成式人工智能服务安全基本要求》(GBT45654-2025)

[3]《网络安全技术生成式人工智能数据标注安全规范》(GBT45674-2025)

[4]《数据安全技术数据分类分级规则》(GBT43697-2024)

contact
北京总部
北京市海淀区中关村大街19号 新中关大厦写字楼A座12层
Tel:010-8287 0288
Fax:010-8287 0299
E-mail:baclaw_bj@baclaw.com
  • 首页
  • 电话
  • 顶部