-
专利
-
商标
-
版权
-
商业秘密
-
反不正当竞争
-
植物新品种
-
地理标志
-
集成电路布图设计
-
技术合同
-
传统文化
律师动态
更多 >>知产速递
更多 >>审判动态
更多 >>案例聚焦
更多 >>法官视点
更多 >>裁判文书
更多 >>内容提要
生成式人工智能技术的普及对著作权制度的影响主要体现在两个方面:一是输出端生成内容的可版权性与权利归属,二是输入端基于机器学习大规模使用他人作品的合法性认定。对于前者而言,在普遍坚持和认同自然人参与创作为可版权性前提的同时,全球各国对权利归属仍存在使用者和设计者的认知差别。对于后者而言,人工智能技术领先型和追赶型国家的制度选择存在较大差异:技术领先型国家更多借助判例法传统,等待传统版权产业与人工智能产业双方的充分博弈,延续以往平衡应对新旧产业冲突的路径,期待双方在充分表达利益的基础上实现产业合作途径的创新;技术追赶型国家的立法选择则更偏向于为人工智能产业提供发展空间。鉴于现阶段的技术水平和产业地位,我国有必要选择将技术追赶型国家的制度经验融入本土“三步检验法”,在机器学习的合理使用适用上破除“非营利性”和“适度性”局限。
关 键 词
人工智能 著作权 合理使用 可版权性 柔性条款
引 言
在大数据技术与硬件算力显著提升的协助下,人工智能能够用人类创作的标准实现文生文、文生图和文生视频。全球科技巨头纷纷将生成式人工智能与电子设备的操作系统深度结合,普通人可以利用该技术从事创作和创造,人类社会从机器代替体力劳动时代快速进入机器代替脑力劳动时代。以应用程序(APP)方式呈现给用户的人工智能服务,普通人输入提示词就能完成创作,呈现用户生成内容(user-generated content)与人工智能生成内容(AI-generated content)叠加的趋势,这些都放大并扩展了自用户生成内容时代即已存在的著作权问题。
根据人工智能和版权产业的反馈,用户生成内容与人工智能生成内容叠加导致的著作权问题主要表现在两个方面。一是在输出阶段,人工智能生成的内容是否属于著作权法保护的作品。实践中普通用户以提示方式运用人工智能生成的大量内容,在行政和司法确定其可版权性时,出现了既有共识又有争议的情况。自然人是作品的创作者被视为公理,但输入提示词的使用者是否属于作者的问题,域外和本土认定结果则存在差异。我国将输入提示词的使用者视为作者,美国版权局则认为提示行为不能被视为创作。二是在输入阶段,人工智能模型训练过程中大规模使用他人作品是否构成侵权。无论是域外还是我国都有著作权人禁止人工智能开发者和所有者收集自己作品并用于人工智能训练的诉讼。鉴于其中的分歧过大,且各方认可的典型案例尚未出现,因此诉讼双方尝试以和解补偿方式代替诉讼。
与此同时,在著作权法针对生成式人工智能的适用与调整问题上,发达国家在顶层战略设计、法律政策和司法裁判上已有明确回应,但技术领先型和技术追赶型国家采取的策略存在差异。我国作为人工智能技术追赶型国家,从激励人工智能产业发展,协调版权、互联网与人工智能产业利益的角度,宜充分借鉴发达国家经验,在判定自身定位的基础上通过法教义学续造和立法调整应对人工智能产业发展问题。
一、输出端的共识与争议:人工智能生成内容的可版权性认定
人工智能生成内容的可版权性判断和权利归属选择,是生成式人工智能普及过程中很早被讨论的问题。回溯自2016年生成式人工智能首次冲击公众认知至今的代表性文献可以发现,各国对此既有共识也有争议,共识在于坚持作者是自然人的底线,分歧则体现在人工智能生成内容是否包含了足够的自然人的智力劳动。
(一)共识性认知:维持自然人的主体地位与著作权法的稳定性
回顾人工智能技术普及的历史可见,2015年人工智能作为创作工具开始大量介入作品的创作环节,部分发达国家和国际组织也率先作出回应。2019年国际保护知识产权协会(AIPPI)在关于人工智能生成内容的决议中认为,只有当人工智能生成内容所具备的独创性(具体标准由各国国内法规定)源于人类干预,且同时满足受著作权保护的作品的其他要件的情况下,该内容才能被视为作品。2020年世界知识产权组织讨论了人工智能领域中与知识产权政策有关的问题以及后续行动,其发布的《人工智能和知识产权的立场声明》同样认为作者是自然人,且人工智能只能被视为辅助工具。德国马普创新与竞争研究所和欧盟委员会分别在2021年和2022年的报告中也提出,在没有人类创造性选择的情况下,人工智能生成的内容不受著作权保护。
自2022年开始,人工智能技术从决策式全面进入生成式阶段,其特点是根据用户输入的要求提供针对性的回应与解决办法。以ChatGPT为代表的人工智能已成为普通用户日常使用的应用程序,出现了诸多饱受争议的案件。但在创作来源及其认定标准上,各国仍然延续原有立场。针对多例版权登记申请中的争议,2023年3月,美国版权局发布旨在应对人工智能生成内容作品登记的《版权登记指南:包括人工智能生成材料的作品》,再次明确只有自然人才能成为作者。之前美国版权局已多次驳回生成式人工智能的版权登记,该指南其实是对这些裁决结果的总结。如在Stephen Thaler v. Shira Perlmutter et al.案中,法院认为,版权具有适应科技发展的延展性,而背后一以贯之的原则是即使有新的工具或媒介参与其中,可版权性仍以人类创作为必要条件。判决还援引了美国联邦最高法院1884年在Burrow-Giles案中“即使创作过程会使用新工具,也不会影响人类创造是可版权性认定的核心要件”的经典论断。与美国类似,欧盟法院也很早就认定仅有人类的创造受到版权保护。我国法院同样明确指出,自然人的创作是构成作品的必要条件,人工智能选定关键词搜索、收集后自动生成的报告不能体现自然人的创作。
上述统一立场的来源,是国际版权公约对作者身份界定的延续和肯定。《保护文学和艺术作品伯尔尼公约》(以下简称《伯尔尼公约》)、《与贸易有关的知识产权协议》《世界知识产权组织版权条约》都延续了人类中心主义的传统。《伯尔尼公约》虽然没有直接明确作者的范围,但从起草过程中的诸多文本都可以看出《伯尔尼公约》的核心精神在于促进人类的创造性活动。《伯尔尼公约》第6条之二规定的作者精神权利,以及第7条之一规定的作者死后的权利继承,都被公认为作者只能是自然人的法源基础,也一直影响着后续全球著作权立法。《美国版权局实践汇编》第306条就继承了这一基本理念,规定美国版权局登记原创作品作者身份的前提是该作品由人类创作。法国《知识产权法典》第111-1条规定,智力作品的作者享有精神和智力方面的权利以及财产方面的权利,说明法国也坚持只有自然人才能被视为作者。
从以上分析可知,各国关于人工智能生成内容有以下三点共识:一是只有自然人是著作权法上的作者,无论是国际条约,还是各国的法律和政策中直接或间接的表述,都延续了《伯尔尼公约》坚持以人为本的作者身份界定;二是人工智能生成内容是否具有可版权性,取决于创作中是否存在自然人的贡献;三是现有的著作权法体系基本能涵盖人工智能生成内容,无须推翻已有的制度构架重新塑造。
(二)争议性认知:人工智能生成内容的创作贡献
虽然各国在自然人才能成为作者这一立场形成共识,但在个案中如何认定存在自然人的贡献却存在差别。
以美国版权局为代表的机构认为,通过用户提示完成的人工智能内容是不可预测和不可掌控的,用户的提示行为更类似于建议而非创作,所以使用者不得被视为作者。不论创建的文本提示词多复杂或是经过多少次修改,都没有体现使用者自身的创作贡献,因此须提供新证据证明存在人类的智力贡献才可获得登记。这说明上述机构认为,现阶段人工智能生成内容中是否存在人类的智力贡献尚须新证据来证明,如果用户在生成过程中仅输入了提示词,则用户不得被视为作者,人工智能基于提示词所生成的内容亦不具有可版权性。
与之相反,我国已有法院在认同只有自然人方可成为作者的前提下,认为用户对提示词的选取和对生成过程中相关参数的调整都能体现审美选择和个性判断,所以输入提示词的用户应被视为作者。但在上海新创华文化发展有限公司诉某人工智能公司网络侵权责任纠纷案中,法院则认为侵权人是提供人工智能服务的主体,著作权归属人工智能服务的提供者。这意味着我国法院对使用者选取提示词的行为是否构成创作尚未形成共识,现阶段司法实践中存在将使用者或人工智能服务提供者视为作者两种立场。
上述三种差异化认知的分歧,在于对自然人参与程度和性质存在不同认知。以美国为代表的观点认为,美国版权局驳回当事人以人工智能生成内容申请版权登记的诉求,并非是否认人工智能生成内容的可版权性,而是认为用户在内容生成过程中选取提示词的行为不能成为用户创作的依据,须补充新证据加以说明,可版权性仍然处于不确定的状态。我国主流观点则认为,“输入提示词与调整参数”行为即可证明使用者从事了创作行为,因此人工智能的使用者是该人工智能生成内容的著作权人。上述国内外认定结论的差异,是建立在可版权性方面的立法极为近似的基础之上。无论是从法律的社会功能来看,还是从规制对象来看,从既有规范出发都是法律适用的重要前提:一方面,为维持法律自身和公众预期的稳定性,法律向来以“涵摄”的方式应对新的争议,不轻易调整变化;另一方面,虽然人工智能助力生成了大量内容,但与著作权法调整对象的数量和范围相比,仅占一部分,如果对不同的生成方式都设定一种新标准,法律将无法正常适用。但相似的立法却出现了截然不同的结论,说明即使现行著作权法足以应对人工智能生成内容,但立法解释工作仍然任重道远。
二、输入端的分歧与立场:人工智能生成内容机器学习的合理使用认定
(一)机器学习合法性的认知分歧及其本质
生成式人工智能大语言模型的准确性和有效性,依赖于事前训练时海量和高质量数据的输入。这些数据包含丰富的词汇、语法结构等,大多来源于受著作权法保护的文字、音频和视频类作品。人工智能开发者往往以数据挖掘等方式直接从互联网或数据库中获得上述作品,因而被著作权人视为落入复制权的范围。所以在“抓取—复制—编码—储存”等一系列数据挖掘过程中,未经著作权人许可获取作品显然存在侵犯复制权的风险。
但与人工智能生成内容的可版权性认定不同,机器学习中使用他人作品的合法性判定一直存在争议。这不仅是因为大规模使用数据对于人工智能技术的发展至关重要,还因为无差别地获取训练数据直接关联人工智能偏见的应对和市场公平竞争秩序的维护。其中的悖论在于,如果可以不经许可大规模使用著作权人的作品,著作权人不但无法从中获取收益,更面临被人工智能生成内容逐步取代的危险;反之如果使用以事前许可为前提,因权利保护而受限制的数据来源又可能导致人工智能生成内容充满错误和偏见,从而阻碍人工智能产业的发展。
在Tremblay v. OpenAI, Inc.案、Thomson Reuters Enterprise Centre GmbH v. Ross Intelligence Inc.案、Getty Images (US), Inc. v. Stability AI, Inc.案等案件中,著作权人普遍认为,机器学习过程中未经许可将其作品作为训练数据的行为构成侵权,包括Stability AI、OpenAI、Metal、Alphabet等在内的生成式人工智能企业全部在被诉之列。其中,The N.Y. Times Co. v. Microsoft Corp.案被视为版权产业与人工智能产业主体之间的典型碰撞。原告《纽约时报》既是版权产业的杰出代表,也是“职业创造内容”创作模式的典范。被告OpenAI和Microsoft是生成式人工智能的缔造者。作为传统依靠原创内容获取收益的代表,《纽约日报》指控OpenAI和Microsoft未经许可非法复制了其数百万篇文章训练ChatGPT和其他人工智能模型,侵犯了《纽约时报》的著作权。同时,ChatGPT在针对用户提示词的回应中,出现了大量转述或直接引用《纽约时报》刊载作品的情况,带来了类似于深度链接那样实质性替代被链接网站传播作品的效果。在美国作家协会诉OpenAI的案件中,美国作家协会同样指出,OpenAI为了训练人工智能大模型,在未经作者同意的情况下大量复制了著作权保护期内的图书。ChatGPT不但可以准确地概括作品的主题和人物关系,根据要求生成模仿特定作者写作风格的段落,还可以提供侵权作品的摘要,并在不改变原作品人物名称和关系的前提下生成新的续作大纲。但被告OpenAI认为,人工智能大模型训练与普通读者使用书籍的本质相同,都是建立在学习已有作品文字顺序、陈述方式和语法结构等的基础上,只是自然人作者未能从中获利而已。
回顾传播技术影响著作权制度变革的历史可以发现,技术对制度的冲击已多次出现。从早期的录音录像技术、广播技术、网络技术到如今的生成式人工智能技术,著作权法始终面临新旧产业保护的取舍问题,而且司法判决可能会对产业发展方向产生重大影响。在20世纪80年代将使用录像设备改变观看时间(time-shifting)的行为认定为合理使用的“索尼案”中,法院明确将录制电视节目的行为认定为合理使用,并认为使用具有“实质性非侵权用途”的录像设备不构成“帮助侵权”。该判决为录像设备的发展和普及提供了稳定的制度预期,调和了版权产业与录制设备生产者之间的矛盾。21世纪后,基于互联网便捷传输兴起而被广泛使用的点对点(P2P)技术,使版权产业与互联网产业的利益分歧再次成为著作权法亟须回应的问题。因此,美国联邦最高法院在Grokster案中引入了“积极诱导标准”(active inducement test),认为被告须对“不仅仅能够预料,更通过广告诱导侵权行为”的做法承担侵权责任。这一判断确认了网络服务提供者利用技术手段为用户提供侵权工具的非法性,为合法的在线市场发展提供了保障。
针对生成式人工智能的大规模诉讼,并不一定意味着生成式人工智能设计者、使用者或者平台存在侵权行为。只是每当新兴产业开拓新兴市场后,原市场中的权利人会因既有市场遭遇冲击或萎缩而捍卫自己的利益。此次人工智能发展给著作权法带来的冲击,本质上也是技术的使用显著降低了作品创作和传播的交易成本,使原有的权利范畴和权利限制设定难以保障著作权人的合法收益,进而弱化了著作权制度对创作与传播的正向激励。以《纽约时报》诉Open AI为代表的系列案件判决结果,将如同当年决定录像设备前景的“索尼案”和左右网络服务提供者命运的Grokster案一样,可能会对尚未真正获得盈利能力的人工智能产业发展态势带来重大改变。因此,在人工智能技术带来的新市场中清晰界定权利范畴及其归属,才能延续历史上著作权制度对新旧产业的协调作用,更好地促进人工智能产业发展。
(二)典型国家针对机器学习合法性认定的立场选择
由于算力的不断增强,生成式人工智能模型训练所涉及的参数语料已经达到万亿级标准,大规模的数据使用使得机器学习的合法性认定对生成式人工智能产业的发展产生巨大影响。基于促进本国人工智能产业的发展,不同国家都采取了符合本国国情的政策。根据人工智能技术与产业发展阶段的不同,目前主要存在技术引领型和技术追赶型两种发展类型。
1.技术领先型国家:在司法和立法的充分博弈中归纳结论
美国是现阶段生成式人工智能技术处于领先的国家。作为判例法国家,美国并未旗帜鲜明地采取全面鼓励人工智能产业发展的立法和司法选择,而是延续了其在录音、广播和互联网技术上的回应策略。一方面在立法上开展广泛听证,鼓励各产业和各阶层充分表达制度需求与理由;另一方面在司法上鼓励版权产业与人工智能产业主体通过诉讼表达利益诉求,以此判断制度安排的尺度和标准。这意味着美国立法和司法并未同步“创新”,而是采取相对保守的选择,旨在尽量科学客观地理解人工智能产业发展的需求。
自2023年5月开始,美国众议院组织了一系列关于人工智能与知识产权的听证会,但版权与人工智能产业的立场仍然存在差异,处于对立状态。人工智能行业代表认为,人工智能系统,尤其是在其早期的训练阶段,并不是简单地对接触的数据进行机械记忆,而是通过掌握语言、视觉特征和上下文信息的基本原理生成训练数据中并未出现的新内容。如果将人工智能的训练数据限定在非版权材料上,那么将导致人工智能系统语言理解能力以及其他技能相应下降。此外,公有领域的作品通常年代久远,已过版权保护期限,可能会导致人工智能系统学习到过时和存在偏见的内容。因此,借助受版权保护的作品训练人工智能系统的行为应当被纳入合理使用的范围。更多版权产业主体则认为,缺乏情感和经验的人工智能之所以能够生成内容,所依赖的只是大量未经许可使用且受版权保护的作品,为人工智能创造捷径只会削弱人类创作新作品的动力,如果忽视了人类情感和经验在音乐创作中的重要性,最终人类可能会面临的是一个无法区分原创与仿造的世界。与此同时,美国倡导产业界以行业自治的方式通过协商达成共识,如2023年推动谷歌、亚马逊、Metal、Microsoft等企业合作,采取自愿监管措施以规避人工智能技术开发产生的法律风险,包括但不限于开展安全测试、为人工智能生成内容添加数字水印、制定隐私与知识产权保护政策等。
在司法层面,美国法院继续充分发挥判例法的优势,希望各方在诉讼中充分表达后得出结论。模型训练的合法性问题,主要集中在转换性使用是否能够适用于机器学习。但转换性使用这一概念本身就是法官造法的结果,旨在应对当时已广泛出现的“二次创作”。随着社会的不断进步,这一概念的适用范围在司法上被不断拓展。在20世纪90年代首次确立转换性使用的“坎贝尔案”中,法院认为,在使用原作品时增加了“新表达、新含义或信息”即视为构成转换性使用。在应对不断丰富的社会表达和“二次创作”中,转换性使用的认定标准逐步放宽,即使是不加变化的直接使用,只要使用目的不同,也可归属于合理使用,而无须考虑使用行为是否具备“营利性”。例如,在“谷歌数字图书馆案”中,法院认为,即使谷歌是在营利性目的的驱使下利用其在图书搜索方面的主导地位巩固自身的竞争优势,当涉及高度转换性使用的情况时,不含因商业动机问题而妨碍合理使用的认定。谷歌的“片段视图”功能旨在通过向搜索者展示与搜索词相关的文本片段帮助用户判断搜索结果是否符合需求,虽然可能造成一定的图书销售损失,但是这种损失不足以使谷歌的使用成为实质的替代品。这种解释并非毫无争议,后来在审理类似案件时,法院并没有完全遵循之前全面偏向目的转换的解释路径,一些同样属于“挪用艺术”(appropriation art)和“混创”(remix)的使用行为,又再次被认定为非法使用。
综上可知,不论是美国版权局,还是美国各级法院,现阶段都对人工智能生成内容的版权问题持观望和保守态度。这一方面是因为判例法和产业主导的历史传统,使得美国期望充分了解行业发展需求和利益分歧,保障法律和政策的科学性;另一方面是因为美国人工智能处于领先地位,前期机器学习过程中对作品的大量使用已经基本告一段落,所以对合理使用的认定需求并不迫切。
2.技术赶超型国家:规制与激励策略并存
与美国相比,中国、欧盟和日本都属于技术追赶型国家或地区。针对人工智能产业带来的著作权问题,等待和观望并不可取,过于犹豫或者保守都可能会对人工智能产业发展带来消极影响,因此这些国家或地区须及时制定应对方案以激励产业快速发展。但因各自文化传统不同,技术追赶型国家或地区的立法又有平等型与优先型之分。
欧盟作为最早关注人工智能著作权问题的地区,主要借用著作权限制与例外条款中的“文本与数据挖掘”应对大模型训练中的作品使用问题。但欧盟主要强调对文本数据的大量获取只能是出于非商业目的的科研活动。从欧盟《数字化单一市场版权指令》的立法过程来看,鉴于文本与数据挖掘例外是否能扩张适用到商业领域争议巨大,难以形成共识,因此,欧盟最终在两个方面达成妥协:一是对于以非商业性使用为前提的强制性例外条款,其主体从仅科学研究人员扩张至教育机构和文化遗产机构;二是如果成员选择规定任何人都可以对其合法访问的作品与数据进行挖掘,就必须允许著作权人有权排除这种例外。2024年欧盟通过的世界首部全面监管人工智能的法规《人工智能法案》,承认《数字化单一市场版权指令》第3条和第4条规定的例外条款,并提出除非权利人作出保留的情况,通用人工智能模型训练过程中的文本与数据挖掘不构成著作权侵权。由于生成式人工智能开发者主要是营利性法人,其研发目的显然不符合非商业性,故在欧盟现有的制度体系下商业机构主导的人工智能模型训练难以被豁免。也正因为如此,作为《人工智能法案》通过后欧盟第一个机器学习合理使用判决,德国汉堡地区法院第十民事法庭在判决中强调,用于科学研究的人工智能训练不构成著作权侵权。法院并未适用德国《著作权法》第44条b款“用于商业目的的文本和数据挖掘”例外,而是根据第60条d款“用于科学研究的文本和数据挖掘”例外,认定大规模人工智能使用摄影作品创建大模型数据集的行为属于科学研究的例外。从德国判例所选择适用的规范可知,科学研究例外的适用范围要小于非商业性目的的例外,这说明欧盟对机器学习合理使用的考量仍然持非常严格的态度。
从产业发展与技术水平上看,日本属于典型的人工智能技术追赶型国家,将人工智能作为国家未来的支柱产业之一。相比于欧盟的谨慎,日本的核心目标始终是为生成式人工智能的发展提供制度保障。2007年前后,日本为Web 2.0时代的主流互联网产业搜索引擎服务提供者开启“信息大航海计划”,旨在激励开发从海量信息中准确检索和分析必要信息的技术。以物联网、大数据、人工智能等技术革新为基础的新产业革命,同样被日本认为是提高本土生产力的关键。这些技术可以通过对大量信息的集成、组合和分析创造出新附加值,因而日本提出著作权法需要更加灵活的权利限制规则。在人工智能生成内容机器学习中大规模使用他人作品的合法性问题上,日本在欧美国家陷入踌躇的时候快速确立了应归于合理使用的立场,并在不破坏既有法律传统的前提下进行了制度创新。
在立法上,日本采取快速修法的方式,在十年内对著作权法进行了三次密集修订(2009年、2012年、2018年)。从具体内容看,2009年增加了第47条之六的信息检索条款、第47条之七的信息分析条款、第47条之八的伴随电子计算机中的作品使用进行的复制条款。这些条款规定了极为宽泛的文本数据挖掘例外,既适用于商业目的,也适用于非商业的目的,即使是出于商业目的的数据挖掘与信息分析也不构成侵权。2012年,日本《著作权法》新增了第30条之四的技术开发条款,增加了以开发为目的的合理使用,成为后续柔性权利限制条款的雏形。2018年,日本再次以柔性权利限制规定为核心进行了新一轮的修法,整合第47条之七与第30条之四,成为新的第30条之四;修改第47条之四至第47条之九,精简为第47条之四的计算机附随性使用条款与第47条之五的信息处理轻微利用条款。日本通过修法实现了法律条款的多层次结合,兼顾灵活性与明确性,在设定柔性条款的同时,仍然坚持了对权利限制的类型化列举,没有破坏权利限制规范的稳定性和可预测性,在涵盖了人工智能机器学习的同时,也避免了陷入因适用美国合理使用制度中高度抽象的“四要素”要件所引发的司法争议。
更值得关注的是,日本没有照搬美国的判断标准,而是采取了符合本国既有立法传统的修法路径,通过在具体类型上设定柔性条款来全面解决涵盖计算机、生成式人工智能和信息分析等新问题。这说明即使是以具体列举为立法传统的国家,也能够在不调整原有法律框架的前提下通过局部调整回应技术迭代的需求。具言之,日本立法模式的创新主要体现在以下四个方面。
其一,对“非营利性”目的的突破。相较于其他国家大多将非营利性作为判断信息分析是否属于合理使用的重要条件,日本著作权法在柔性条款中破除了非营利性的限定。这意味着不仅以科学研究等非营利为目的的信息分析属于合理使用,而且以商业性为目的进行的信息分析同样可以属于合理使用,这显然为生成式人工智能模型训练提供了便利。
其二,对“有限使用方式”的突破。日本《著作权法》第30条之四规定,在使用的必要限度内,不以享受作品表达的思想或情感为目的,且未对著作权人的利益造成损害,即可以任何方式使用作品。换言之,只要符合“必要限度”与“不损害著作权人利益”,除复制外,向公众传播等利用行为也是被允许的。
其三,对“合法使用来源”的突破。日本规定即使不是合法取得的作品也可以在特定条件下使用。欧盟《数字化单一市场版权指令》规定,对非法下载的信息进行分析不合法。德国《著作权法》也明确提出,允许复制合法获取的作品,以便进行文本和数据挖掘,但当不再需要副本进行文本和数据挖掘时,应将其删除。但日本著作权法对使用来源不明的作品采取了宽容的态度,即使作品的合法性来源存疑,但如果是出于信息分析的目的使用就不被视为非法。这一突破显然为机器学习中不可避免地使用未经许可作品之情形提供了重要依托。
其四,对“分析途径”的突破。日本著作权法对数据分析的权利限制规定不仅适用于计算机的数据分析,也适用于不使用计算机的人工数据分析。即使生成式人工智能学习过程含有人类直接参与的复制行为,这一行为也被归于生成式人工智能的数据分析,而不会将其单独讨论或赋予可版权性,避免陷入有关主体或可版权性等无关争议中。
三、人工智能生成内容著作权规制的本土路径
(一)应然选择
我国作为人工智能技术追赶型国家,《新一代人工智能发展规划》(国发〔2017〕35号)就曾提出要抢抓人工智能发展的重大战略机遇。但由于我国立法选择了列举式的限制与例外制度,直接涵盖机器学习的例外条款尚不存在,如果直接适用判例法特色明显的“转换性使用”规则,又会导致制度丧失稳定性,亦不利于认定机器学习行为的合法性。日本在此方面进行了有益探索,率先提出了具有参考意义的柔性权利限制条款。
从搜索引擎到人工智能,日本一直通过远超其他国家或地区的快速修法频率为新兴技术的发展提供稳定的保护预期,同时以宽容开放的态度在法律政策上给新技术发展空间。在应对具体列举导致的僵化性上,日本曾充分讨论是否引入美国式合理使用制度。早在修法之初,日本已有学者呼吁引入对一般限制的合理使用制度,并在2012年著作权法刚刚修改后就建议采用更为灵活的解释来扩大合理使用制度的适用范围。但日本官方对此态度则尤为谨慎,2009年日本文化审议会著作权分科会在其报告中指出,日本法律应兼顾明确性和灵活性,采取“多层次”的立法模式将条款结合起来,而不是直接采用美国合理使用制度中高度灵活的“四要素”作为判定要件。即便如此,日本学者仍然没有放弃引入美国式的合理使用制度。这种呼吁最终影响了立法,2018年日本再次修改著作权法时,就采纳了创设柔性权利限制规定条款的折中路径,确立了一般条款与具体列举并存的体例。
作为同样选择了法定列举立法路径的国家,我国在修法频率和程度上更加谨慎,不但每次修法间隔时间长,且多是修改原法中公知的错误与疏漏,有争议的地方仍然处于搁置状态,因此司法实践中法院不得不通过实质上的“法官造法”来解决新问题。最高人民法院《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》(法发〔2011〕18号),就曾尝试引入美国合理使用制度中的“四要素”以缓解条款过于僵化的困境。在回应“二次创作”合理使用问题时,法院也试图借鉴美国经验,引入转换性使用。但这种做法不仅会破坏我国既有的著作权法制度体系,而且可能造成新的不确定性。实践亦证明,我国法院后来并未普遍认可转换性使用,后续司法实践也已放弃使用这一规则。这说明在应对机器学习带来的争议问题时,我国作为技术追赶型国家一方面在法源上仍须坚持“三步检验法”的制度框架,另一方面也应借鉴和采纳能够激励人工智能产业发展的立法与政策安排。
(二)权利归属认定模式调整
在人工智能生成内容满足作品构成要件的前提下,首先须确定人工智能生成内容的权利归属。在可版权性上,我国司法裁判将人工智能使用者认定为作者与域外认定存在明显差异。如果未来延续这一认定路径,对于如何认定创作将面临新的难题。因此,有必要从以下两个角度考虑权利归属的其他认定路径。
1.人工智能设计者作为作者,以激励设计者开发更符合创作需求的人工智能产品
从人工智能设计者的角度看,人工智能并非如自然人一般去理解语言或图形的含义,而是通过海量数据的学习发现其中的规律,并以此生成内容。其中探寻规律和范式的方法,依赖设计者如何选择数据样本以及如何标注算法反馈结果,因此现阶段将设计者视为作者更符合智力贡献来源的判断。在此基础上,法院可以类推适用委托作品规则。在无合同约定的情况下,著作权应由决定人工智能核心代码、训练数据来源和发展偏好的设计者享有。不论是否加入了新的学习资料,人工智能始终朝着设计者构想的状态发展,这实际体现的是人工智能设计者独特的创造和选择,也展现了人工智能设计者的价值判断。正如Aalmuhammed v. Lee案中美国联邦法院曾提出的“监督者”或“策划者”解释路径,对作品独创性有实质贡献的作者,必须能够预测和安排创作的结果。在早期计算机介入创作的可版权性认定上,这种标准已被美国法院在历次涉及权利归属的判决中广泛认可。在Nova Productions Ltd. v. Mazooma Games Ltd.案中,英国法院也有类似的认定。法院认为,在屏幕上显示的一系列动态画面不能形成额外的(extra)作品,因为玩家的操作没有带来比程序员的设计更多的技巧和努力(skill and labour)。程序员设计了游戏中的各种元素和外观,以及生成每一帧的规则和逻辑,并编写了相关的计算机程序,所以“对创作作出必要安排”(the arrangements necessary for the creation of the work)的主体应认定为游戏软件的程序员。甚至早在1982年的Williams Electronics, Inc. v. Arctic Internation, Inc.案中,美国联邦第三巡回上诉法院认为,无论玩家如何操作控制,游戏内容的许多方面都保持不变,所以游戏中大部分场景和声音的重复序列如果被视为作品,著作权人应该是游戏软件的设计者。
2.使用者作为委托人,通过提示词引导人工智能生成内容,并优先根据合同约定权利归属与风险规避
由于生成式人工智能技术尚在发展完善中,通过提示所获得的内容可能与他人作品存在实质性相似,为了避免此类著作权风险,提供生成式人工智能服务的平台往往通过“最终用户服务协议”约定著作权的归属。例如ChatGPT和Midjourney两款人工智能都对使用者所生成内容的著作权归属作了明确约定。Midjourney的协议区分了付费用户与非付费用户:针对付费用户,Midjourney在格式条款中规定所生成内容的所有权利归于使用者享有;针对免费用户,Midjourney则规定使用者不享有所生成内容的著作权,但Midjourney通过“知识共享协议”(creative commons license)以非商业使用为限允许使用者自由使用。如果用户使用网站生成的内容侵犯了他人的知识产权,无论是造成了商誉、利润或是数据损失,还是受到行政机关的处罚或司法机关的制裁,最终结果皆由用户自行承担。ChatGPT对权利归属并未区分付费用户与免费用户,但同样将所生成内容的所有权利让与使用者,同时声明所生成内容可能包含他人作品,以及用户输入类似提示可能生成同质化内容。类似这样的权利分配格式条款,能够帮助生成式人工智能的设计者规避法律风险。著作权人在发现人工智能生成内容与自己的作品构成实质性相似时,仍然可能会起诉人工智能的设计者,但在通过格式条款转让了人工智能生成内容著作权的前提下,设计者能够凭借用户服务协议向使用者追责。
(三)机器学习合理使用范畴认定
在新兴产业的保护问题上,我国已有借鉴发达国家成熟经验的先例。例如,在互联网产业发展的应对上,我国就借鉴了美国的避风港规则。但在面对人工智能产业发展时,我国尚缺乏如日本这样的积极立场。生成式人工智能进行数据训练时可能会存在大量复制已有作品的情形,《著作权法》第24条中的法定类型无法涵盖。鉴于修法频率所限,我国难以直接如日本著作权法那样纳入新的权利限制类型。所以更加值得学习的是日本著作权权利限制中的柔性条款,在不变动现有合理使用体系穷尽式列举的前提下,将更为宽泛的适用标准纳入“三步检验法”的解释。
目前我国与人工智能训练相关的著作权法的例外列举条款主要包含以下两类。
一是《著作权法》第24条第1款第1项“为个人学习、研究或者欣赏,使用他人已经发表的作品”。该类型符合人工智能数据训练中将人工智能的学习行为视为个人行为,但仍存在适用主体与适用目的上的障碍。从适用主体来看,我国合理使用制度并未明确规定个人的范畴,实践中多将个人限定于包括家庭在内的使用者本人的自然人身份,而生成式人工智能的行为主体多为组织机构而非自然人;从使用目的来看,“学习、研究或者欣赏”须基于非商业性目的,而生成式人工智能的数据训练基本具有营利性目的,并通过营利来反哺研发。因此,生成式人工智能适用《著作权法》第24条第1款第1项的障碍在于个人无法涵盖法人主体,“学习、研究或者欣赏”无法涵盖营利性的目的。
二是《著作权法》第24条第1款第6项“为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行”。该类型与人工智能训练的目的相同,虽然可以将部分生成式人工智能的分析、处理、训练等活动归于科学研究,但主体、目的和行为上的限制,导致该项无法完全准确适用。从适用主体来看,主导生成式人工智能训练的多为营利性法人。从适用目的来看,“科学研究”类型属于非营利性的使用目的,然而国家人工智能开放创新平台布局中所依托的科研平台几乎全都由商业性的科技公司承担,科研活动的商业化已逐渐成为一种大趋势,因此与该项所要求的非营利性目的相悖。从适用行为来看,“科学研究”应当属于“少量复制”,不应超出科学研究的需要。然而生成式人工智能的训练离不开海量数据资料的支撑,不可避免地存在大量复制使用的行为。
针对例外类型化的困境,有效的应对方式是直接增加生成式人工智能的新条款。但我国著作权法修改时间间隔较长,短时间内增加新类型难以实现,修改著作权法实施条例或制定司法解释也不能逾越上位法。因此,现阶段更可行的路径是借鉴日本的三个层次应对方式,通过法教义学续造既有条款。如,将日本著作权法中规定的非享受性、必要限度内附随性使用、轻微利用作为我国“三步检验法”第二步“不得影响该作品的正常使用”和第三步“不得不合理地损害著作权人的合法权益”的解释来源,扩张合理使用主体的范围,破除非营利性的限制,对复制行为进行宽松解释。正如日本文化厅在法律解读文件中提及的,著作权人从作品中获得的经济利益,应当来自那些为了满足自身智力和精神需求而使用作品的消费者所支付的对价;如果当事人使用作品不是为了享受作品含有的思想或感情,则其使用行为原则上不会损害著作权人的利益,因此不需要获得许可和支付对价。具体而言,可从以下两个方面对现有与模型训练中使用作品相关的著作权例外类型进行扩张解释。
第一,回应“三步检验法”第一步“特定且特殊”的要求,在不改变现有著作权法合理使用类型的前提下,通过扩大解释对合理使用的适用范围进行调整。
我国著作权法“个人学习、研究或者欣赏”合理使用条款中,并未明确界定何谓个人,仅在学界和司法判决中被约定俗成地限定为自然人,因此法律其实给予了基于社会发展需要重新界定个人与科研人员范围的解释空间。目前我国著作权法中并没有涉及人工智能的专门条款,但可以采取扩大解释的方法将作为法人或非法人组织的人工智能设计者、所有者纳入个人或科研人员范畴。如此安排有助于将实践中大量的机器学习纳入《著作权法》第24条的学习和研究范围内,但须对个人或科研人员范畴进行扩张解释。
当下我国关于人工智能的立法建议多聚焦于调整使用目的而非主体,扩张可以解释主体范围使其能够涵盖机器学习。事实上无论是用户生成内容抑或人工智能生成内容,都体现了全民创作的趋势。我国著作权法已预留有关主体的解释空间,因此在适用主体方面,可以借鉴日本经验,对个人和科研人员范畴进行扩张解释,将不以享受原作品表达为目的的使用视为合理使用。使用目的的扩大意味着尽量减少适用主体角度的约束,不再局限于商业性、非商业性或自然人、法人的分类,而是单纯回归使用目的角度,弱化现有合理使用制度对主体的狭隘界定,将重点置于使用目的之上。
第二,从使用目的的角度有针对性地将机器学习纳入合理使用,通过对“三步检验法”第二步和第三步的适用,弱化“学习、研究或者欣赏”和“科学研究”条款中对非营利性和少量复制的限制。
在适用目的方面,我国长期以来秉持非营利性要求,但结合“三步检验法”来看,营利性目的并不会必然影响作品的正常使用或是不合理地损害著作权人的合法权益。如日本《著作权法》第30条之四规定,只要当事人使用作品不是为了享受作品所表达的思想或感情即可,并列举了包括“用于信息分析的情形”等在内的三种“非享受性使用”。使用数据训练的行为构成该条款规定的“用于信息分析的情形”。通过借鉴这种“非享受性使用”目的的解释,可以实现借助“三步检验法”第二步和第三步对“学习、研究或者欣赏”和“科学研究”进行扩大解释。如果能够认定人工智能领域的机器学习在“营利性目的”和“大量复制”上满足“正常使用”和“不得合理损害”的要求,则我国著作权法合理使用的现有条款即可涵盖部分机器学习对作品的使用行为。
在适用限度方面,可以通过对“少量复制”的宽松解释,借鉴日本“向公众提供”豁免的经验,为生成式人工智能复制作品的行为提供通道。我国合理使用制度规定了对于“少量”复制的程度要求,但生成式人工智能的训练过程避免不了使用大量数据,大数据需要由不同的机器处理,属于计算密集型的操作。这就导致在人工智能领域复制行为与成本紧密相连,研发者需要控制复制件的数据以降低存储成本。一方面,文科类科研活动与理科类科研活动对作品的复制存在巨大的数量差异;另一方面,单纯从文义出发,“少量”本身即存在理解的分歧,如果遇到面向人数众多或作品篇幅较长的情况,复制的比例同样会同步增长。因此,对“少量”的认定不应该一以概之,而应结合具体的特定专业领域进行判断,可以将生成式人工智能机器学习中的复制行为认定为一种密集的“少量”复制。
结 语
生成式人工智能在输入端和输出端给著作权法带来了挑战。在全球应对路径既有共识又有争议的前提下,我国作为人工智能技术追赶型国家,既无法如技术引领型国家那样等待版权产业与人工智能产业的博弈结果,也无法对本土立法进行颠覆性的修改,应在优先考虑人工智能产业发展的基础上,借鉴同属于技术追赶型且制度积累较为相近的国家之制度经验,在法教义学上进行续造解释,将机器学习纳入合理使用的适用范围。同时在著作权归属上考虑法定和意定相结合的思路,及时回应客体可版权性、主体权利归属和机器学习的合法性争议,为生成式人工智能技术的发展营造一个友好且稳定的制度环境。
评论