专业研究
邦盛研究|生成式人工智能(Gen AI)浪潮下的数据合规“暗礁”——服务提供者的风险与应对(上篇)
2026-05-08

生成式人工智能(GenAI)正加速渗透各行业,但其在模型训练、应用与优化过程中,数据安全与个人信息保护风险日益突出。本文从企业法律监管定位的角度,结合生成式人工智能底层技术原理,通过模型训练、模型应用、模型优化三个方面,重点分析生成式人工智能服务提供者在数据安全与个人信息保护方面的合规风险与应对。


2022年到2024年,随着ChatGPT和DeepSeek的先后问世,生成式人工智能(Generative Artificial Intelligence, Gen AI)以其优越的学习能力和强大的内容创造、任务自动化和决策优化能力,快速发展并覆盖包括创意内容与媒体、数字营销与电商、教育、金融服务、医疗健康、软件开发、工业制造与研发、游戏与娱乐等诸多领域。

2026年甫一开年,OpenClaw,也即“龙虾”——一款开源AI智能体工具更是将人工智能的重心从感知智能向生成智能进行了深度拓展。生成式人工智能服务提供者在依托技术优势向市场提供服务、实现自身发展的同时,对人工智能生成内容(Artificial Intelligence Generated Content, AIGC)因 Gen AI核心运作机制本身在进行对内容的技术输出后给企业在提供服务及运营过程中带来的潜在合规风险亦不容忽视。

这其中,数据安全与个人信息保护作为近几年备受关注的企业合规建设重点领域,结合数据在Gen AI底层技术原理中扮演的关键角色,为生成式人工智能服务提供者在相关合规风险与应对方面带来了新的挑战。



一、立法情况


与欧盟《人工智能法案》(Artificial Intelligence Act)涵盖对人工智能实践禁止规定、通用模型义务、保密和处罚的整体框架立法,以及日本于去年通过的仅强调政府对技术发展趋势进行监测、调查滥用情况、鼓励相关主体自愿合规的《促进人工智能相关技术研究、开发与应用法案》(Act on Promotion of Research and Development, and Utilization of Artificial Intelligence-related Technology)不同,我国在人工智能领域的立法目前整体呈现出从国家政策纲领出发,以网络、数据和个人信息相关法律为基础,通过专项监管法规与部门规章以及国家标准进行针对性领域的法律监管和规范的特点。

2023年7月13日颁布的《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)作为我国首部针对Gen AI的专门立法,其与更早的《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》以及2025年9月1日生效的《人工智能生成合成内容标识办法》(以下简称《标识办法》)共同构建起我国对AI监管的雏形,而包括《网络安全法》《数据安全法》《个人信息保护法》及《科学技术进步法》在内的上位法则为我国人工智能相关法律监管提供了更加完整的总体架构。

此外,根据全国人大常委会公布的《2025年度立法工作计划》,人工智能健康发展方面的立法项目也在预备审议项目之列[1]。以欧盟为参照(其于2024年6月13日颁布了全球范围内首部人工智能综合性法律——《人工智能法案》)可以预测,我国在未来也很可能在现有的立法体系框架内,进一步出台人工智能领域的整体性、综合性法律。

从总体上看,《暂行办法》的核心要点在于其对人工智能的技术定义、服务范围、内容类型和主体责任进行了规制[2],也即“人工智能技术”是指具有多模态内容生成能力的模型及相关技术。这些内容类型包括文本、图片、音频、视频,以及《标识办法》中提到的虚拟场景;服务范围则限定为向中华人民共和国境内公众提供生成服务。《暂行办法》中还明确规定了Gen AI主体——服务提供者(以下简称“提供者”)和服务使用者(以下简称“使用者”)的相关责任,特别是提供者从Gen AI技术本身的研发、运行和优化,以及其对使用者从网络安全、个人信息保护角度的责任。

上述核心要点中实际上引出了两个值得注意的问题:

第一,《暂行办法》的规制对象为中华人民共和国境内向公众提供生成服务的主体,也就是说境外提供者和非公众场景使用者不受该法规的约束。如果企业仅在内部使用Gen AI技术,则在《暂行办法》项下将不承担法律责任。然而,这里有一个明显误区,也即《暂行办法》的不适用并不代表其他人工智能相关的法律也不适用,特别是涉及数据安全及个人信息保护时,其对所有涉及相关法律规制的主体皆适用。

第二,《暂行办法》实际上格外强调了提供者在Gen AI的研发训练、优化发展以及与使用者的关系中所必须遵守的规定,包括数据的来源、个人信息的收集、数据质量的保证等。

由此可见,数据和个人信息是Gen AI提供者必须关注的合规性关键问题之一。因此,理清数据和个人信息与Gen AI的关联,是企业从数据安全和个人信息保护角度应对相关合规风险的抓手,而了解Gen AI的技术原理便是不可或缺的先决条件。



二、Gen AI技术原理


1. 人工智能、机器学习、深度学习与Gen AI


在了解Gen AI的技术原理之前,有必要对其在整个人工智能的技术版图中进行定位。

人工智能包含多个分支,如自然语言处理、知识表示、自动推理、计算机视觉和机器人学等[3]。这些分支相互交叉依赖,而机器学习(Machine Learning, ML)是其中应用最广泛的分支之一,其核心是让机器从数据中自动学习模式或规则,以便做出预测或决策,主要类型包括监督学习、无监督学习和强化学习(这三种类型也会在AI模型构建中结合使用,比如同时包括监督学习和无监督学习特征的半监督学习)。

监督学习是指基于带标签数据(Labeled Data)进行训练的机器学习方法,通过对输入到输出的映射关系的学习,对新数据进行预测。简单来说,就是用标准答案训练机器这个学生,常见的应用场景包括语音识别、人脸识别等。

无监督学习是从无标签数据中发现数据模式,对数据进行分类、聚类(通过数据簇cluster,使同一簇内的对象高度相似,如银行对异常交易类型的聚类可以实现异常检测)、降维(保留关键信息的同时简化数据,如将像素数据降低以提升人脸识别速度)等。此种情况下输出的内容并非预设答案,而是数据的内在分组,常见的应用场景包括客户分群、推荐系统等。

强化学习则是基于奖励信号的学习方法,智能体(Agent)在与环境交互中,获得奖励或惩罚来优化其策略,以最大化长期回报,常见的应用场景包括自动驾驶、机器人控制等,“龙虾”的训练框架 OpenClawRL就以机器强化学习为核心。需要注意的是,Gen AI的技术基础层面虽然是以无监督学习为主,但实际上仍然融合监督学习对其进行优化,同时根据人类用户对其生成结果的偏好进行强化学习。

深度学习(Deep Learning, DL)是机器学习的一种强大方法,使用多层神经网络模拟人脑处理信息的方式,通过逐层自动进行特征提取进行机器学习。例如,在人脸识别中,从具象的人脸中提取器官,从器官中提取边缘形状特征,再将这些边缘抽象为像素,而其核心是无监督特征学习(Unsupervised Feature Learning),即不需要人工参与特征的选取过程。Gen AI属于深度学习中的生成模型技术方向,是深度学习发展到高级阶段的产物,其使用生成模型(Generative Model)技术架构创造全新的内容,而不仅仅是识别或分类现有数据。

由此可见,Gen AI是人工智能体系中以内容生成与创造为核心目标的技术领域,其主流实现高度依赖深度学习架构支撑。在文本生成领域,基于Transformer的自回归模型(Autoregressive Models, AR)占据主导地位,典型代表包括GPT系列、DeepSeek-R1等;在图像与视频合成方面,扩散模型(Diffusion Models)已取代生成对抗网络(GAN)成为主流技术方案,如Stable Diffusion、Sora等模型均基于该范式构建[4];绘画类内容生成主要由扩散模型完成,文本提示编码与语义理解环节依托Transformer架构实现;音乐创作则以Transformer及其变体为核心技术路径,并不普遍采用扩散模型。(见图-1)


0f0a2ff2a6525b643f10bef226e5c48a.png

图-1


当前Gen AI的技术生态主要由Transformer与扩散模型两类核心深度学习架构共同驱动。二者作为支撑内容生成的关键技术基座,在多模态场景中形成典型协同范式,例如,在“文生图”任务中,由Transformer类模型对文本提示(prompt)进行编码与语义建模,再由扩散模型依据编码信息完成图像内容生成,以此支撑各类生成式人工智能应用落地。


2. Gen AI运作原理与数据


人工智能的核心特征之一是“由人类设计,为人类服务,本质为计算,基础为数据”[5],其提供生成式内容的基础是通过对数据的采集、加工、处理、分析和挖掘,形成有价值的信息流和知识体系。因此,Gen AI的核心能力来自于对海量数据本质规律和概率分布的学习,然后利用生成模型生成新的数据。被用于学习的原始素材库可能是万册书籍或者亿张图片,通过深度学习,识别并建模真实世界数据的概率分布特征(例如,“举头望明【 】”后接“月”的概率远高于“亮”)。

当前主流Gen AI的训练流程主要包含预训练和监督下的微调(Supervised Fine-Tuning,SFT)两个核心阶段。前者是通过海量无标注文本或多模态数据,采用自监督学习方式完成模型基础语义理解、知识表征与通用模式建模,使模型具备基础性的语言生成与内容认知能力。以此为基础,SFT以预训练模型为初始化参数,利用小规模高质量标注数据对模型进行定向优化,使其适配特定任务需求,而不是从零开始构建和训练模型[6]。例如通过对法律条文、司法案例等相关领域数据进行监督微调,能够显著提升在法律场景下内容生成与问题应答的专业性和准确性。

可以说,数据是Gen AI的命脉所在,是其核心生产要素和技术运行的重要基础,而训练数据的规模和质量则直接决定AIGC的最终效果。数据规模决定AIGC的多样性和模型泛化能力,训练数据样本覆盖范围越广,模型能够捕捉的文字、语言、图像等复杂模态的模式就越精细;反之,如果数据多样性不足,则容易加剧模型偏见,导致输出结果存在显著偏差。举例来说,如果训练数据中90%的金融类案件都发生在上海,则模型可能习得不合理的相关性,AIGC就可能生成如“金融类案件必然发生在上海”这类不符合客观现实的错误推论。

此外,数据的质量越优,AIGC的可靠性也越高。如果数据源的信噪比(SNR)低(当包含大量错误、虚假或冗余信息以致有用信息被“淹没”时),则可能导致模型过度拟合噪声,也就是错误学习非本质性关联特征,就可能引发幻觉(Hallucination),生成与事实不符的内容,如并不存在的法律条文与案例等。

基于上述情况,为控制AIGC可能带来的内容偏差和风险,就需要提升数据清洁度,具体而言就是通过如去重处理(删除重复内容防止模型机械复制)和毒性过滤(移除违法、违规及不良信息防止生成有害文本)等预训练语料工程对数据进行清洗。



上篇结语


AIGC的最终优化阶段是通过人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)达成的,该方法利用人类的价值判断力来指导人工智能系统学习更复杂、更贴近人类期望的行为模型。也即在用户端通过使用过程的判断对生成结果进行修正和优化,我们的每一次提问或者提示词的输入,以及对生成内容进行的进一步问题修正,都能够为模型持续迭代优化提供数据支撑,进而不断提升Gen AI的可靠性与实用性。

综上,数据贯穿Gen AI模型的全生命周期,既是技术命脉,也是合规风险的核心。下篇将围绕模型训练、应用与优化三个阶段,系统梳理服务提供者在数据来源、数据质量、个人信息处理、数据跨境传输及模型迭代优化中的具体合规风险与应对路径,欢迎持续关注。



【参考资料】

[1]《全国人大常委会2025年度立法工作计划》,中国人大网,[2026-04-15]

https://www.moj.gov.cn/pub/sfbgw/gwxw/xwyw/202505/t20250514_519310.html

[2]《生成式人工智能服务管理暂行办法》

[3] 斯图尔特·罗素,《人工智能:现代方法》(第四版)[EB],人民邮电出版社有限公司,2022-12-01 [2026-04-15]

https://weread.qq.com/web/reader/fc332020813ab7942g0102adkc81322c012c81e728d9d180

[4]《计算机视觉的新浪潮:扩散模型(Diffusion Models)技术剖析与应用前景》,[2026-04-15]

https://blog.csdn.net/renhui1112/article/details/149081000

[5]《人工智能标准化白皮书》(2018版),国家标准化管理委员会工业二部,中国电子技术标准化研究院

[6] 龙志勇,黄雯,《大模型时代:ChatGPT开启通用人工智能浪潮》[EB],中译出版社,2023-05-01 [2026-04-15]

https://weread.qq.com/web/reader/441329e0813ab7eebg018756#outline?noScroll=1

contact
北京总部
北京市海淀区中关村大街19号 新中关大厦写字楼A座12层
Tel:010-8287 0288
Fax:010-8287 0299
E-mail:baclaw_bj@baclaw.com
  • 首页
  • 电话
  • 顶部