首席律师徐新明

13910160652

ciplawyer@163.com

关于我们

在线咨询

专利

更多 >>
商标

更多 >>
版权

更多 >>
商业秘密

更多 >>
反不正当竞争

更多 >>
植物新品种

更多 >>
地理标志

更多 >>
集成电路布图设计

更多 >>
技术合同

更多 >>
传统文化

更多 >>

点击展开全部

律师动态

更多 >>

2025.01.21

徐新明律师团队代理的福航公司与日本某株式会社发明专利权无效行政纠纷案终审胜诉

2024.03.18

历时八年：徐新明律师代理的埃利康公司发明专利无效行政纠纷案胜诉

2024.11.04

《华夏时报》采访徐新明律师：中创新航打响专利反击战，向宁德时代和特斯拉等索赔超10亿元

知产速递

更多 >>

审判动态

更多 >>

案例聚焦

更多 >>

法官视点

更多 >>

裁判文书

更多 >>

法律宝库

更多 >>

中国法库

法律法规立法动态政策指引
国际法库

他国法律国际公约

返回列表

首页 > 人工智能 > 理论前沿

生成式人工智能数据训练的合理使用规则研究

发布时间：2024-11-15 来源：中国版权杂志社作者：曹新明范晔

标签：生成式人工智能数据合理使用

字号: +-

563

摘要

生成式人工智能数据训练过程涉及对作品、资料、文献等数据的获取和利用，可能引发版权侵权。为避免版权侵权，人工智能开发者或者事前获得授权许可，或者依法获得侵权豁免。然而，传统许可模式在实践中难以支撑海量数据学习模式的需要；法定许可方案也面临交易成本和管理成本高昂的问题。以博弈论视角进行分析得出，合理使用是配置作品数据资源的较优路径，也是协调著作权人和人工智能开发者利益冲突的理性选择。对此，建议以《著作权法》第二十四条第一款第（十三）项的“兜底条款”为接口，在《著作权法实施条例》中引入生成式人工智能数据训练的合理使用专门例外。该条款应适当放宽适用条件，通过“三步检验法”的后两步进行限制，以此增加适用的弹性。

关键词：生成式人工智能；数据训练；合理使用；版权；博弈论

一、问题的提出

近年来，以ChatGPT为代表的生成式人工智能（Generative Artificial Intelligence，以下简称GenAI）被广泛应用于各类创作场景中，其创作能力和交互能力的提升依赖于大语言模型的训练，海量数据输入是形成理想的训练效果的基础，也是人工智能技术升级迭代的必由之路。在所需的海量数据中，作品数据作为高质量的数据资源，具有较大的算法训练价值，其中就包括处于权利保护期的版权作品。根据《著作权法》一般原理，除了合理使用和法定许可的特定情形外，任何人使用他人作品应当获得授权许可并支付报酬，否则属于侵犯版权的行为。2023年国家互联网信息办公室等七部门联合颁布的《生成式人工智能服务管理暂行办法》第七条规定，生成式人工智能服务提供者应当依法开展数据训练处理活动，使用具有合法来源的数据，不得侵害他人依法享有的知识产权。然而，为海量数据获取权利人的授权并不现实，“事前授权”模式的高成本与训练数据的海量特征之间形成张力。正是由于高许可成本和作品数据海量需求之间的冲突，导致版权纠纷频发。如在程序员们诉GitHub和OpenAI公司案中，原告指控被告未经许可使用其代码用于训练Codex程序，构成版权侵权；在美国艺术家群体诉Midjourney公司案中，原告声称被告未经版权人许可擅自爬取数十亿张图像用于模型训练，构成版权侵权；在Getty图片社诉Stability AI案中，原告控诉被告擅自从Getty图片库中复制超过1200万张图片以及图文配对信息用于模型训练，侵犯其版权；在《纽约时报》诉微软和OpenAI案中，原告主张被告未经许可将报刊上的数百万篇文章用于训练ChatGPT的行为构成版权侵权；在AlterNet等新闻媒体诉OpenAI案中，原告指控被告在训练ChatGPT的过程中，未经许可使用其新闻作品，违反《数字千年版权法》。在“全球AIGC平台著作权侵权第一案”中，我国法院认定某平台因其提供的AIGC服务在用户输入指令后生成了侵害原告奥特曼形象的作品，构成侵权。相关案件频发，促使GenAI数据训练的版权合法性问题成为全球关注的焦点。

针对该问题，国内学者大多主张调整合理使用规则，以比较法研究为基点，提出借鉴欧盟《数字单一市场版权指令》（以下简称《DSM指令》）“文本与数据挖掘”专门例外规则，或借鉴日本《著作权法》中的“计算机信息分析”合理使用条款，或采用美国灵活开放的合理使用模式。也有部分观点提出法定许可方案，少数观点提出遵循授权许可模式。可见，我国学界对解决该问题提出了各种可能的选择，但尚未达成共识。有鉴于此，本文首先明确GenAI数据训练的具体过程及其侵权风险，继而针对授权许可、法定许可以及合理使用方案的适用障碍进行详细的阐述，并以博弈论视角分析相关利益主体的策略选择，得出采用合理使用制度可能是较为合理的选择。最后，以《著作权法实施条例》（以下简称《实施条例》）修改为契机，对GenAI数据训练的合理使用条款进行设计，以期对相关立法的完善提供参考。

二、GenAI数据训练的版权侵权风险

为了明晰GenAI数据训练过程中哪些作品使用行为涉及版权侵权，以及侵犯哪些权能，有必要对GenAI数据训练的技术原理进行剖析，总结出诱发侵权风险的原因，并明确具体的侵权情形。

（一）GenAI数据训练实例

知识、数据、算力和算法是建构GenAI的四个关键要素，其中数据是关键核心要素。GenAI数据训练其实就是机器学习的过程，通过对大量数据进行分析建模，在掌握人类语言的基本规律后，理解用户指令并自主创建新内容。为了辨明此过程中哪些行为可能涉嫌侵犯版权，具体侵犯什么权能，需对其技术原理进行剖析。

以ChatGPT为例，其主体架构遵从“语料体系+预训练+微调”的基本模式。语料体系是模型的基础，包括预训练语料与微调语料两个部分。前者是从期刊、百科、论坛等渠道收集并经过初步清理后形成的海量无标注文本数据；后者是从开源代码库爬取、专家标注以及用户提交等方式收集加工的高质量有标注的文本数据。这些文本数据为ChatGPT学习过程提供了坚实的语料基础，是保证其技术应用和升级的关键要素之一。ChatGPT对海量数据进行大规模生成式预训练的过程采用自回归的训练策略，训练顺序按一般语言文字的顺序从左向右进行，训练内容为基于序列中当前的元素来预测下一个元素。通过大量训练可形成规模达千亿乃至万亿级别的参数，从而确保大语言模型对人类语言的理解和文本生成能力。在预训练之后，结合特定任务和专业知识库进行微调模型训练。在这个过程中，通过对高质量有标注的文本数据进行学习训练，不断调整自身参数，保证其产出与人类认知、需求和价值观一致，提升人机对话的顺畅性以及生成内容的准确性。数据贯穿机器学习的始末，被称为大语言模型的核心驱动力，其质量和容量不单单影响其生成能力的强弱，更决定了模型运行的成败。

GenAI 数据训练的整个过程大体上可以分为数据输入、模型训练和结果输出三个阶段。在数据输入阶段，主要的工作是获取数据并进行转码处理。获取的数据不仅需要大量的作品、资料等，而且需要大量示例信息，比如文本与图像、视频的对应关系等。在Getty Images v. Stability AI案中，原告就指出Stability AI不仅擅自复制其图像作品，而且利用了数十亿个详细的文图配对信息，这样的信息对于模型训练至关重要。数据收集、处理完毕后，将其输入计算机进行模型训练。以现下较火爆的“文生图”和“文生视频”软件为例，其在训练阶段广泛应用了扩散模型，扩散原理是“先增噪后降噪”，模拟一个从有序到无序再到有序的过程。具体来说，先给现有图像逐步施加高斯噪声，直到图像被完全破坏，然后再去噪还原图像。在这个过程中不断优化自身参数，以通过用户指令生成符合“文本与图像对应”的内容。在输出阶段，模型基于对训练数据的提取和处理，通过理解用户指令形成学习结果并予以输出。值得注意的是，GenAI并不以文本数据的“复制”或“重新组合”为目标，而是在训练过程中，将文本数据转换为计算机模型的最小单元，在学习最小单元之间的关系后，基于对指令的理解，重新生成内容，因此通常来说输出的形式与原作品可能具有相似性但并不完全相同。

（二）GenAI数据训练的版权侵权缘由

第一，作品数据的使用贯穿GenAI数据训练的全过程。在数据输入阶段，获取的海量数据涵盖公共领域的数据以及受版权保护的作品。前者包括超过权利保护期的作品、官方文件和事实信息等，可以为社会公众自由使用；后者指向尚处于权利保护期的版权作品，若未经许可擅自使用就可能导致侵权。训练数据可能涵盖的版权有两个层次：一是训练数据集中单个作品的版权；二是训练数据集作为整体汇编作品的版权。获取作品数据后，需对其进行转码操作以形成适合机器阅读的标准格式语料。在转码环节以作品形态区分两种情形：一是非数字作品，应先进行数字化再进行转码；二是已数字化的作品，直接进行转码。两种情形下，都涉及作品的复制权。数据的获取和处理行为，是对作品的合法使用还是侵权使用，决定了GenAI数据训练的整个过程是否正当。在模型训练阶段，对作品数据的学习和分析，是从大量表达中提取人类语言的基本规律和特征，再将其应用到具体场景中，学习的是作品的“表达形式”而非“思想”。在结果输出阶段，能够生成具有作品外观的形式，与原作品构成实质性相似的，就可能侵犯版权。综上，数据输入阶段需获取和使用受版权保护的作品，模型训练阶段是对作品“表达”的学习，输出结果也是具有作品外观的形式，因此GenAI数据训练全过程都与作品利用有关，导致产生版权侵权风险。

第二，对作品数据的“作品性使用”，使GenAI数据训练面临版权侵权风险。作品的使用贯穿GenAI学习训练的全过程，但针对知识产权对象的使用行为，并非均落入专有权的保护范围，专有权只能规制“知识产权法律意义上的使用”。因此，有学者借鉴商标法领域的“商标性使用”概念，将对作品的使用行为区分为“作品性使用”和“非作品性使用”，只有前者才可能属于侵犯版权的使用行为。GenAI本质是AIGC，是在学习海量作品的“表达”的基础上，不断训练“创作”能力，从而智能化生成特定内容，对作品的使用应当认为属于“作品性使用”。有学者以是否具有表达性内容的输出为标准，将机器学习分为“表达型”和“非表达型”两种。非表达型机器学习虽然在训练过程中复制、存储、汇编了作品数据，但不以使用作品的表达性内容为目的，通常是对事实信息的采集和分析，并且也无表达性内容的输出，因此不受版权专有权控制，不构成侵权。如人脸识别技术，该技术对照片的采集和训练旨在实现身份验证和安全监控等功能，并不包含用于人工智能训练的原始照片的任何表达性内容，属于非表达型机器学习。而GenAI对作品数据的使用并非针对原作品的事实信息，而是原创性表达，其输出的结果也并非实现目的性或功能性转换，而是形成了与原作品有关联的表达形式。在此意义上，可以认为GenAI数据训练属于“表达型”机器学习，对作品的使用属于“作品性使用”，因此可能构成对版权的侵犯。

（三）GenAI数据训练的版权侵权情形

GenAI数据训练的版权法律后果，实际上分别由数据输入阶段和结果输出阶段所吸收。在数据输入阶段，对作品的转码以及在监督学习的情况下人工对数据进行标记、整理和汇总的行为，可能涉及作品的复制权、翻译权、改编权和汇编权。对作品数据进行转码的过程是以“机器语言”重现作品，对作品的标记、整理和汇总也涉及对作品的全文复制，因此可能侵犯复制权。但这些行为不会侵犯权利人的翻译权、改编权和汇编权。原因在于：第一，将作品转码为机器语言，并非“翻译”行为，机器语言也并非“语言文字”的一种，因此与翻译权无关；第二，转码和标记行为不涉及任何独创性的表达，也未对作品内容进行改动，故而不会侵犯改编权；第三，对作品数据的整理和汇总仅作为训练数据使用而不对外发布，不会侵犯汇编权。同样地，上述行为也不会侵犯权利人的修改权和保护作品完整权。修改权和保护作品完整权属于“著作人身权”，在于保护作品不被擅自修改或歪曲篡改，以保证作者本意与作品意思的同一性。因此，构成侵权的前提在于修改后的内容与原作产生联结，使读者从作品联系上作者的性格、思想和情感。然而，转码和标注等行为既未对作品的内容进行实质改动，又未将操作后的作品进行传播，故而无关作品的修改权和保护作品完整权。

在模型训练阶段，对作品表达形式的利用可能涉及翻译、改编和汇编等行为，若训练数据是以非法方式获取的，那么上述作品使用行为当然构成侵权，但若训练数据是以合法方式获取的则应结合输出的结果予以分析。在输出阶段，生成的表达形式具有三种情形：一是全新作品；二是与原作品相同或相似的表达；三是保留原作品基本表达的具有独创性的作品。第一种情形不构成侵权；第二种情形下，若生成与原作品完全相同的表达，或者构成“实质性相似”，则可能侵犯复制权；第三种情形可能涉及对改编权的侵犯。如果GenAI开发者为了进行机器学习，或者为了实现研究结果的可验证性，将数据或文本上传至互联网，可能涉嫌侵犯广播权或信息网络传播权。若将机器学习的数据分析结果在互联网上进行传播，也可能导致广播权或信息网络传播权侵权。

三、GenAI数据训练的版权合法性障碍

由上文分析可知，GenAI数据训练行为可能侵犯复制权、信息网络传播权等权利。为消解版权侵权风险，可以选择事前获取作品的授权许可或者运用法定许可和合理使用条款依法获得侵权豁免。但这三种选择均具有实现和适用的障碍。

（一）GenAI数据训练授权许可模式实现之障碍

在当前的法律框架下，使用他人受版权保护的作品，应当事前获得授权许可并支付报酬。然而，训练数据的海量特征与授权许可模式的高成本之间形成张力，传统的授权模式在实践中难以支撑海量数据学习模式的需要。首先，授权许可模式虽然充分尊重私主体的意思自治，但由于市场主体的有限理性以及契约不完备的固有困境，获取授权往往需要经过反复的利益谈判才能达成，这导致交易流程繁琐，数据获取效率低下。其次，遵循授权许可模式，使数据交易成本过高，可能导致市场失灵。若对机器学习所需的海量作品一一寻求许可，不仅需要精准识别作品的来源并确定权属，而且需要就许可费和授权范围进行多轮磋商，识别成本和谈判成本较为高昂。在完美的市场上，如果在后使用作品产生的价值远高于许可成本，那么由市场机制发挥作用即可。但GenAI数据训练却以较高的交易成本叠加较低的预期收益，这就导致了作品许可市场的失灵。此外，部分著作权人对GenAI使用其作品具有抵抗和排斥的心理，造成了更大的磋商障碍。他们一方面担心人工智能技术的快速发展可能会影响自己的职业从而采取抵制态度，另一方面担心人工智能创作能力的逐渐增强，会使人类越来越依赖机器而导致创作能力逐渐退化。

当前，GenAI开发者可以通过与互联网平台和数据库服务商交易一站式获取数据，在一定程度上提升了授权许可的效率，似乎可以有效降低作品的交易成本。但由于缺少作品绝对集中的网络服务商，并且一揽子许可容易产生潜在的诉讼风险，导致交易成本高昂的问题仍难以克服。具体而言，无论是从互联网平台、公开网页或是数据库获得作品，都无法避免与著作权人进行额外、分散、逐一地协商，谈判和执行成本居高不下。一些互联网平台通过用户服务协议集中了用户发布的内容，并获得对该内容进行免费使用、非独家和分许可的权利。GenAI开发者可以直接与互联网平台进行谈判，获得授权后从平台批量下载数据。但是用户在服务协议中同意平台免费使用和分许可自己发布的内容，应当限于为维持自身运营以及提升服务质量等目的而进行的使用。将这些内容许可给其他服务提供者可能超出用户对服务协议的预期，潜在的侵权风险致使GenAI开发者无法掠过著作权人。对于数据库而言，分为两种情形：一是未经著作权人授权将作品数据一揽子许可给GenAI开发者的，若不额外与著作权人逐一协商，使用作品仍具有侵权风险；二是数据库受到著作权人共同委托的，获取作品数据集无须再向权利人获取许可，但由于委托数据库代理许可事宜的未必包含全部相关权利人，侵权风险仍然存在。即便顺利达成大规模的作品数据交易，高昂的许可使用费也是压在GenAI开发者肩上的“一座大山”。

（二）GenAI数据训练法定许可方案运用之障碍

为了解决作品许可市场失灵的问题，实现技术发展和文化创新的平衡，有学者提出运用法定许可制度，规定GenAI开发者可以不事先获取权利人的许可直接使用该作品，仅须向权利人支付合理报酬。这是通过立法预设交易条件替代私主体协商的方案，以弱化权利排他性的方式有效降低交易成本。满足法定条件的，即可跳过协商环节，以法律规定的特定方式使用作品，既保证了著作权人从市场中获取经济收益，又能避免逐一许可，提升数据获取效率。这一主张具有一定的意义，但是将GenAI数据训练行为增设为一项新的法定许可使用情形，并不符合法定许可制度的立法价值，同时仍然难以跨越高成本的障碍。

首先，在扩大法定许可范畴时，应当从制度的立法价值出发，避免想当然地利用该制度扭转作品许可市场的失灵。当前主张运用法定许可方案的观点，仅以法定许可产生的正向效应为论证基础，并未充分考虑GenAI数据训练行为与该制度的契合性。通过追溯美国版权法定许可制度的立法定位，发现其立法价值是在新的作品传播方式和传播主体出现时，用以调和新旧产业主体之间的利益分配的权宜之计。以录音制品的法定许可为例，起初音乐作品仅以乐谱的方式进行复制和发行，与图书共同隶属出版产业。随着音乐作品新传播载体的普及，音乐产业由乐谱发行向录音制品发行转型，由此出现了新的传播主体“录音制品制作者”。为了调和音乐作品传统出版者和录音制品制作者的利益分配矛盾，同时避免已取得授权的主体获得垄断地位，立法者赋予使用者在法律框架内平等录制音乐作品的权利。这种基于产业利益协调的立法价值，被定位为私人授权许可的补充，其适用被视为一种临时性、妥协性的制度工具，因此在立法设计上并未简化许可程序，反而增加严格的适用条件。我国法定许可制度具有较强的公共属性，其基本目标是促进作品的传播，实现著作权人、传播者以及公众之间的利益平衡。针对GenAI数据训练行为，运用法定许可方案的确能够调和著作权人和人工智能开发者之间的利益冲突。但是反过来，为GenAI数据训练行为设定法定许可规则却难以实现促进作品传播、保证公众及时获取作品等公共利益目标。原因是：第一，GenAI缺乏传播作品的经济诱因，其商业模式在于通过对大量作品的学习为公众提供生成内容服务，生成的作品甚至与原作品形成市场竞争关系；第二，社会公众并不依赖GenAI数据训练获取作品，公众所享受的乃是技术进步带来的作品创造力的提升。

其次，运用法定许可使用方案虽提升了获取作品的效率，但并未解决交易成本高昂的问题。第一，由于训练数据所需作品数量众多，所需支付的法定许可使用费用依旧高昂。作为理性的经济主体，当投资远高于回报时，GenAI开发者必定望而却步。在这种情况下，开发者可能放弃对GenAI技术的研发和应用，但更可能以承担侵权风险为代价来换取技术的发展和应用。因为对作品数据的使用通常比较隐蔽，权利人也较难举证证明。如此对于解决数据训练的合法性问题并无半分增益。第二，法定许可定价难以适应市场的灵活多变。法定许可主要通过定价权的转移，来实现财产权排他性的弱化。但无论定价权是通过代表谈判的方式协商再经由版权主管部门批准，还是直接由版权主管部门确定，都难以克服法定价格机制的固有缺陷。定价灵活性的缺乏不仅可能阻碍作品价值的实现，而且限制了市场有效率的竞争行为。第三，法定许可费的收取和管理工作将耗费巨大的成本。其一，法定许可的推行建立在对使用的作品数据进行充分公开的基础上；其二，要对数以万计的作品进行权属明晰以及分发许可费；其三，管理机构可能还需要代替权利人进行维权和应诉。上述过程，需要耗费巨大的人力、物力和财力，在扣除这些成本后，剩下的部分可能不足以实现对著作权人的激励。总的来说，运用法定许可方案可能使社会整体福利呈现净损失。

（三）GenAI数据训练合理使用条款适用之障碍

为促进技术发展，让GenAI开发者利用作品成为可能，将数据训练行为纳入版权合理使用制度也是一个选择。当前各国的立法政策也倾向于采用合理使用制度解决GenAI数据训练的合法性问题，如欧盟设定“文本与数据挖掘”的专门例外，日本规定“提供新的知识信息”的合理使用情形等。

我国《著作权法》规定的合理使用情形并不包括GenAI数据训练行为，只能试图通过解释论的立场将其解释为合理使用的特定情形之一。与GenAI训练数据相关联的合理使用情形主要有：个人使用、适当引用、科学研究的少量复制使用等。对于“个人使用”情形，使用作品的目的是“个人学习、研究和欣赏”，但这里的“个人”通常限于“自然人”，不能包括法人与非法人组织，更不能囊括人工智能系统。从欧盟《DSM指令》将“文本与数据挖掘”的主体限于“研究机构”和“文化遗产机构”可知，“个人”无法成为数据挖掘主体，“个人使用”也无法解释为包括GenAI数据训练行为；对于“适当引用”情形，首先要求对作品的使用是“适当”的，其次使用的目的在于“为介绍评论某一作品或者说明某一问题”，但数据训练过程对作品的使用并非“引用”行为，也突破了“适当”的限制，故而无法适用；对于“科学研究的少量复制使用”，虽然GenAI对作品数据的分析、处理可以视为科学研究行为，但是作为合理使用的科学研究，不仅存在主体限制（限于公立学校、科研院所等），而且存在数量限制（少量复制），因此GenAI数据训练行为也难以使用该情形进行抗辩。综上，无法将GenAI数据训练行为解释为我国《著作权法》规定的特定合理使用情形，原则上应构成侵害版权的行为。虽然我国法院在实践中吸收了美国合理使用的四要素标准，并在系列案件中突破了《著作权法》的封闭式规定。但这样的突破实际上是于法无据的，同时也造成了司法适用标准的混乱。此外，为解决GenAI数据训练的合法性问题而增设合理使用专门条款，受到过度偏向技术进步而忽略著作权人利益的批评。配置作品数据资源的方案选择，不仅需要衡量立法技术，还需充分考虑各方利益诉求。

四、博弈视角下GenAI数据训练相关利益主体的冲突和协调

GenAI数据训练的版权合法性争议，反映了著作权人（创作者）和GenAI开发者（使用者）的利益冲突。借用博弈论分析工具，能够更好地研判博弈参与者的策略选择，以探寻最优的解决方案。

（一）博弈论适用策略效用

博弈论是研究存在利益冲突与合作的主体在互动中作出理性选择的一种分析方法。其总体逻辑是，博弈参与者在掌握博弈规则（包括行为、时间和信息）的基础上，以自身利益最大化为目标作出决策选择，在先决策会对在后决策产生影响，从而产生动态的决策改进。博弈参与者被假设为“理性人”，在进行决策时，能够根据所掌握的信息以及其他参与者的决策实现目的最大化，把自身核心利益当作努力追求的最终目标。博弈论分析方法综合考虑了各博弈参与者的预期和实际行为，其效用在解释具有竞争性或利益冲突现象中尤其显著。

著作权人与GenAI开发者之间的矛盾源于经济利益冲突：GenAI开发者使用作品不仅不向著作权人寻求许可，而且生成的内容还可能影响原作品的市场利益。因此，著作权人希望维持对作品的严格控制，他人使用作品的必须获得许可并支付报酬；而GenAI开发者希望可以通过合理使用制度，以最低成本获取海量数据资源。二者作为理性人均以追求自身利益最大化为目标，其策略选择不仅回应自身需求，而且受到相互之间行为决策的影响。比如，当著作权人不愿意放弃许可权或获酬权时，GenAI开发者受制于过高的交易成本，要么选择放弃技术的升级应用，要么只能选择承担侵权风险。这种以追求自身利益最大化为目的，并且策略又相互影响的过程，符合博弈论的基本分析框架。鉴于GenAI的技术水平、数据训练规模、法律和政策导向以及市场现存作品等信息在一定程度上均是可公开获取的，博弈参与者的决策可以基于博弈信息以及其他利益相关主体的行为作出适当调整。博弈论适用的效用体现在：一是通过博弈分析，研判创作者、使用者以及社会公众在不同制度环境下作出的策略选择，可以清晰地得出不同的制度设计对于参与者群体策略选择的影响，从而衡量制度的激励功能是否充分实现；二是基于博弈论分析框架，分析各利益主体可能作出的理性行为决策，有助于形成最优策略组合下的纳什均衡。

（二）著作权人与人工智能开发者的博弈

从博弈论的视角出发，能为著作权人和GenAI开发者利益冲突的解决提供新的思路。在经典模型“囚徒困境”中，两名共谋犯均以追求个人利益最大化为目标，从而都作出“招供”的策略选择，但在该严格占优策略均衡下，双方却又陷入了对彼此来说都不利的局面。囚徒陷入困境的原因在于，一方从不招供转变为招供，个人能够获得减刑。但同时会增加同伙的刑期，这是该囚徒施加于同伙的负外部性。而在“猎鹿博弈”中，合作会成为多数情况下的选择。两个博弈模型最大的区别就在于：“猎鹿博弈”模型中，双方都选择合作具有可预期性，从而形成稳定而持续的状态；而在“囚徒困境”中，由于无法沟通且缺乏信任，导致难以形成稳定的状态。“囚徒困境”所引发的集体理性和个体理性对立是人们在社会合作中不可避免的实际问题。著作权人与GenAI开发者之间的利益博弈实际上就是“囚徒困境”的表现，若博弈双方均以自身利益最大化为目标进行决策选择，最终将形成对彼此都不利的局面。但是，著作权人与GenAI开发者之间的博弈可以建立在协商的基础之上，属于动态博弈过程，当二者在经历多次以“个人效用”为核心的策略后，发现还可能具有双赢的局面，这比严格占优策略所形成的局面更佳，那么二者就会在之后的博弈过程中尝试互建信任，驱使双方都选择合作策略。若假设博弈次数是无限的，商业往来也是无限的，那么二者的策略都将选择持续的合作，由此形成纳什均衡。

GenAI数据训练的合法性争议背后承载了人格利益、财产利益以及社会公共利益，不同利益之间的冲突和博弈，折射出“版权严格保护”与“作品自由使用”之间的紧张关系、“私人利益”与“公共利益”之间的权衡关系。在博弈参与者利益冲突的过程中，往往需要进行协调和妥协，以实现资源配置效益的最大化。对于著作权人而言，在保证合法权益（尤其是获酬权）的情况下，实际上并不排斥作品被使用。其可能的担心之处在于，作品被用于训练后生成的内容对原作品的市场利益产生影响或对原作品市场产生替代作用。如在美国国会听证会上，艺术家卡拉·奥尔蒂斯（Karla Ortiz）认为，艺术作品一经训练就无法被机器遗忘，艺术家们被迫与建立在自己作品基础上的人工智能模型竞争，对他们的权益产生很大的损害。但同时，GenAI服务能力的提升也会使创作者受益。创作者运用人工智能技术进行创作活动，能够降低生产成本，提升创作效率和产量，从而获得更多的市场利益，以此冲抵带来的负面影响。对于GenAI开发者来说，其希望在合法合规的前提下，以较低的成本获取大量作品；对于社会公众而言，其既是GenAI技术的受益者同时也是创作者，不仅希望能获得更好的内容生成服务，而且也希望生成的作品受到保护。这三方利益的调和以著作权人和GenAI开发者利益协调为前提，二者存在共赢的可能。在著作权人与GenAI开发者无法通过协商形成最优策略时，还可以通过法律法规对博弈的方式进行改变，从而达到帕累托最优。

（三）可能的博弈策略研析

当前，解决GenAI训练数据版权合法性问题的方案主要有：授权许可、法定许可和合理使用。从价值衡量来说，方案的选择需平衡“版权保护”“作品利用”和“技术进步”三项价值。上述三种方案，版权保护依次减弱，技术进步的促进逐渐增强。相较于授权许可方案，法定许可和合理使用都更加偏向技术进步，专有权效力被弱化；而授权许可模式是对版权的严格保护，但是限制了对作品的利用，不利于GenAI技术的进步。

在博弈过程中，若遵循授权许可方案，GenAI开发者将面临两种策略选择：一是只使用部分具有合法来源的数据进行训练，牺牲GenAI服务的质量；二是依旧使用海量数据，但以承受侵权风险支撑技术的应用和升级，背负作品数据非法使用的“原罪”。在进行风险和收益分析时，若技术升级应用所实现的价值远高于承受侵权风险所带来的成本，那么作为理性主体的GenAI开发者必定会选择第二种策略。对于著作权人来说，拒绝自身作品被GenAI开发者使用的，只能通过起诉维护权利，但需要承担诉讼成本和时间成本，对于个体而言并不具有与人工智能公司抗衡的能力，理性的著作权人通常只能选择息事宁人。

对于法定许可方案而言，虽然对各方利益均有兼顾，但根据上文分析可知，其在技术支撑、法律规制和实施保证等方面实现难度过高，并非收益最大的方案。而对于合理使用方案，其不足之处在于过度偏向GenAI开发者，而可能有损著作权人的利益。但实际上大多数的机器学习行为并不会损害著作权人的市场利益，可以预见的是，随着GenAI开发者对过滤技术的使用，不断提升防御诱导式提问的能力，输出与原作品实质性相同的情形逐渐减少。有观点认为，GenAI模仿了某位作者的“风格”，将造成对作品市场利益的实质性损害。但《著作权法》并不保护“风格”，上述情形虽然可能会影响原作者的市场利益，但却不是著作权法解决的问题。在博弈的过程中，已有作品数据的数量和质量是影响博弈策略的一个重要方面。当存在大量优秀的作品数据时，作品的合理使用对各方都有利；但当此类作品数据稀缺时，合理使用就可能损害创作者的利益。为更好地兼顾著作权人的利益，欧盟《DSM指令》为权利人设定了“选择退出”机制。但以理性人的角度分析，合理使用并未将著作权人置于利益分享的范围内，若权利人选择退出无须承担额外的成本，反而可以试图获取许可收益，那么著作权人可能都将倾向于选择退出。

如前所述，解决GenAI训练数据合法性的策略涉及三项价值。但从不同角度分析，价值侧重有所不同。从产业政策角度来看，合理使用制度可以减轻技术研发负担，促进产业发展，若要求逐一许可将承担过高成本，可能造成“公地悲剧”。从全球制度竞争的视角来看，欧盟、日本、美国均规定了关于GenAI数据训练或严或宽的版权举措，为应对人工智能制度竞争浪潮，我国也有必要采取合理使用制度以营造良好的人工智能产业发展环境。因此，在博弈视角下，合理使用制度是解决著作权人和GenAI开发者利益冲突的较优选择。

五、GenAI数据训练的版权合理使用条款设计

合理使用是配置作品数据资源的较优路径，也是协调著作权人和GenAI开发者利益冲突的理性选择。但是难以通过解释路径将GenAI数据训练行为纳入现有的合理使用情形；若是适用由美国判例法发展而来的“转换性使用”规则，可能存在适用范围过于宽泛，司法适用标准不一的问题。因此，通过立法以体系性规范为基础将GenAI数据训练行为明确为特定的合理使用情形，不失为一种选择。2020年我国《著作权法》第三次修改引入“三步检验法”，并新增“法律、行政法规规定的其他情形”这一兜底条款，为GenAI数据训练行为纳入合理使用范畴提供了制度空间。可以《实施条例》的修改为契机，增设GenAI数据训练的合理使用情形。

（一）《实施条例》引入GenAI数据训练合理使用条款的价值考量

首先，延续《著作权法》“宽进宽出”的分析框架，明确GenAI数据训练行为受到版权专有权控制，并适当放宽合理使用的标准。有观点提出，数据训练行为应当界定为“非作品使用行为”，将其排除在版权权利范围之外，这种做法优于“先进后出”的合理使用方案。也有观点区分不同阶段，认为数据输入和训练阶段对作品的使用不落入版权专有权控制范围。以上观点有待商榷。若严格设定著作权法的准入门槛，将GenAI使用作品的行为均定义为“非作品性使用”，将计算机的“临时复制”排除出“复制权”的控制范围，可能导致大量信息成果无法适用版权的分析框架。版权分析框架相较于其他创新性利益分析框架的优势在于，前者采取放宽准入的方式以应对海量信息成果带来的界权挑战。若过分限缩受《著作权法》控制的行为范围，对海量信息成果进行“事前界权”，可能导致整体社会成本的提升，错误地拒绝保护更可能挫伤创新热情。值得注意的是，将GenAI数据训练行为纳入《著作权法》的分析框架，也并不意味着让大量利用作品的行为承担侵权后果。通过合理使用规则，能够在后端提供恰当的“出口”，对无损于社会利益和著作权人合法权益的行为以及在市场失灵情形下的作品利用行为予以免责。如此，既能发挥《著作权法》“事后界权”的优势，对非典型作品使用行为予以足够的关注，又能有效降低社会成本，维持《著作权法》的激励功能。

其次，以利益平衡原则作为GenAI数据训练合理使用情形的价值指引原则。GenAI数据训练的合法性争议突出表现在著作权人和GenAI开发者的利益冲突。由上文分析可知，兼顾各方利益是破局的关键。合理使用制度旨在维系著作权人与其他参与性主体（传播者、使用者等）之间的利益平衡关系。随着传播技术的发展和数字环境下新作品使用方式的出现，在版权专有权效力得以延伸时，也应保障合理使用范围得到必要的扩展。实现“促进社会主义文化和科学事业的发展与繁荣”的立法目标，不仅需要保护版权人的利益，而且要关注社会公众的利益。公众作为作品的使用者是《著作权法》上不可或缺的主体，保证公众对作品的接触、欣赏和学习是实现版权立法目标的重要环节。GenAI开发者亦属于“公众”中的一员，引入GenAI数据训练合理使用条款，扩大训练数据的获取范围，有助于避免产生算法偏见，提升生成内容服务的能力和水平，助力文化繁荣。

最后，对引入的GenAI数据训练合理使用条款进行适当概括，赋予法官一定程度的自由裁量权。《著作权法》第三次修改引入“三步检验法”并新增“法律、行政法规规定的其他情形”这一兜底条款，但实际上对于合理使用依旧采取从严认定的原则，既要满足特定情形，又要接受一般条款的检验。这次修改虽通过增加兜底条款，提升了合理使用认定在一定程度上的灵活性，但是现行规定的12种情形，不仅在数量上远少于欧洲大陆法系国家著作权法规定的例外情形，而且寄希望于通过第13种情形不断增加权利限制的情形并不现实。原因在于，《实施条例》等行政法规修改频次较低，为配合《著作权法》实施修订后短期内再次修订的几率并不大。因此，在此次《实施条例》修订引入GenAI数据训练合理使用条款时，对该条款的设计不应再设置过多的“限制条件”，应对其进行适当的概括，让其接受一般条款的进一步限定，从而留给法官一定的裁量空间，方能更好地应对实践需求。

（二）《实施条例》引入GenAI数据训练合理使用条款的专门例外

为了解决作品许可市场失灵现象，促进GenAI相关产业的发展，协调著作权人和GenAI开发者的利益冲突，应当在《实施条例》中引入GenAI数据训练合理使用条款的专门例外。

首先，就适用主体而言，我国应选择不严格限定适用主体的立法模式。欧盟《DSM指令》第3条规定了“文本与数据挖掘”的强制性例外，适用于“研究机构”和“文化遗产机构”两类主体。欧盟对适用主体的明确，虽然可以增强规则适用的预期，但因限定主体导致适用范围过于狭窄而遭受批评。日本《著作权法》中“提供新的知识和信息”条款未限定适用主体。我国立法应选择不限定适用主体的做法。原因在于两个方面。其一，在GenAI技术应用中使用作品数据的主体，不仅包括高校、科研院所等教育和科研机构，而且包括社会机构和企业。企业作为提供GenAI服务的重要主体，不能忽略；此外，很多企业也成立了科研机构，若如欧盟一般将主体限定为研究机构，可能导致实践中区分困难的情形。其二，不严格限定适用的主体，能使该条款具备一定的弹性空间。我国合理使用制度采用“三步检验法”，除属于法定情形外，还需要接受一般条款的进一步限制。也就是说，在对作品进行商业性使用时，可能会因为影响了该作品的正常使用或不合理地损害著作权人的合法权益，而不构成合理使用。利用一般条款进行限制，可以赋予法官一定程度的自由裁量权，相对主体限定模式将更为科学，也更加合理地平衡了科学研究、产业发展和著作权人的合法权益。

其次，就适用条件而言，我国不应以非营利性目的作为适用条件。日本《著作权法》中“非享受性使用条款”适用于不涉及对作品思想或情感表达享受的情形，未排除以商业目的使用作品的行为；美国“四要素标准”虽然关注“作品使用目的与性质”，相较于非商业使用目的而言，商业性合理使用的认定可能需要更加正当的理由，但“转换性使用”并不绝对排斥商业性合理使用。我国立法也不应以非营利性目的作为适用条件。原因在于以下几个方面。一是相对于作品使用者获得的经济利益而言，著作权法更应注重所取得的社会利益。GenAI产业的发展关系国家战略，技术的应用和发展能够产生较大的社会效益，即便GenAI开发者具有直接或间接的商业利益驱动，也无法掩盖其带来的社会效益，适当牺牲著作权人的利益符合对价原则。二是为GenAI数据训练使用作品大多出于商业目的，需要付出巨大的成本，虽然不排除为了公益目的而进行投资的情况，但毫无疑问，投资者所追求的是人工智能技术的应用价值和商业效益。若排除商业目的的合理使用，该条款所产生的实际效用将微乎其微。三是我国合理使用制度并不排斥商业性合理使用。诸如“适当引用”等情形并未明确“非营利目的”，在司法实践中，也有法院认为对作品进行“适当引用”既可以是公益性的也可以是商业性的。如上文不限定适用主体的分析一般，放宽适用条件，通过一般条款进行限制，在实践中将具有更强的适用性。

最后，就适用行为而言，应尽可能囊括GenAI数据训练过程中涉及的作品使用行为。如上文分析可知，在GenAI数据训练过程中可能涉及对作品的复制、改编、广播和信息网络传播等行为。欧盟《DSM指令》仅将“文本与数据挖掘”的适用行为规定为“复制和提取”，无法囊括GenAI数据训练所涉及的作品使用行为。2018年日本《著作权法》修订，将侵权豁免的行为进行了扩大，删除了信息分析结果利用行为的限制条件，不局限于“记录”或“改编”，更改后的条款允许将信息分析结果进行发布、转让和公共传播。我国可以考虑借鉴日本的做法，为GenAI数据训练提供更为宽松的环境，将该条款适用的行为规定为复制、改编和向公众传播。

综上，本文建议在《实施条例》中引入GenAI数据训练的合理使用条款，将其设计为：“为生成式人工智能训练数据，复制、存储、改编他人已发表的作品以及将数据训练成果向公众提供。”

六、结语

GenAI技术的应用和升级以海量数据的“投喂”为基础。为破除GenAI数据训练的合法性障碍，域外多个国家和地区或引入专门例外规则，或通过司法实践对该问题进行灵活处理。我国也应积极采取行动，为数据训练合法性问题提供解决路径。著作权人和GenAI开发者之间的冲突并非不可调和，兼顾各方利益是破局的前提，相互信任是合作共赢的基础。通过对不同方案下博弈参与者的策略选择进行分析，发现合理使用是协调二者利益冲突的理性选择。从产业政策角度来看，合理使用制度能够为技术研发和应用减负，促进GenAI产业发展；从全球制度竞争的视角来看，为应对人工智能制度的竞争浪潮，我国有必要积极采取措施，完善合理使用制度以适应人工智能产业发展。因此，我国应在《实施条例》修改之际，引入“生成式人工智能数据训练”合理使用的专门例外，解决当下作品许可市场的失灵现象，协调相关利益主体的分歧与冲突，促进技术创新、文化繁荣与社会发展。

智能时代，与AI同行

首席律师 徐新明

专利

商标

版权

商业秘密

反不正当竞争

植物新品种

地理标志

集成电路布图设计

技术合同

传统文化

律师动态

徐新明律师团队代理的福航公司与日本某株式会社发明专利权无效行政纠纷案终审胜诉

历时八年：徐新明律师代理的埃利康公司发明专利无效行政纠纷案胜诉

《华夏时报》采访徐新明律师：中创新航打响专利反击战，向宁德时代和特斯拉等索赔超10亿元

知产速递

中企在美专利增长32%

市场监管总局对谷歌涉嫌违反反垄断法立案调查

国务院发布《关于药品领域的反垄断指南》解读（附一图读懂）

知识产权环球资讯丨欧盟就全球SEP费率设定向WTO投诉中国；热播剧...

国知局发布《2024年中国专利调查报告》

审判动态

叶永青承认抄袭，赔偿500万并公开道歉

《逆水寒》编辑器创作视频搬运侵权案

索赔1亿！每日互动起诉苹果侵害发明专利

高德红外商业秘密案新进展：部分嫌疑人在逃

IBM和格罗方德就高性能芯片纠纷达成和解

案例聚焦

知识产权强国建设第三批典型案例发布！

2023年度知识产权行政保护典型案例发布

2023年中国法院10大知识产权案件、50件典型知识产权案例

2023年中国法院12件知识产权重点宣传案例

最高法知产法庭成立五周年十大影响力案件

法官视点

以关键词隐性使用探析《反法（修订草案）》第七条五项

如何精细确定著作权损害赔偿额？

局域网环境下信息网络传播权侵权责任如何认定？

侵犯经营信息类案件的审理要点

首发经济背景下“有一定影响的”竞争法益认定

裁判文书

法律宝库

中国法库

国际法库

生成式人工智能数据训练的合理使用规则研究

相关文章

生成式人工智能训练数据的治理与构建

生成式人工智能数据训练知识产权合法性问题探讨

生成式人工智能生成内容标识义务研究

生成式人工智能预训练中权利限制制度的选择与建构

数字贸易中生成式人工智能的版权运营模式研究

评论

首席律师徐新明