13910160652
010-52852558
| |EN
首页 > 理论前沿 > 版权
  • 13910160652
  • ciplawyer@163.com

由ChatGPT窥探智能时代我国著作权法坚守与变革

日期:2024-09-26 来源:知识产权杂志 作者:黄细江 浏览量:
字号:

内容提要


“以人为本”是人工智能的根本理念,我国著作权法的作者权模式一开始就注定恪守作者中心主义。人工智能生成内容不能脱离主客体不可置换的逻辑基础,当其通过“图灵测试”、符合独创性要求时,考虑法的安定性、伦理性及帕累托最优,将其作为作品保护成为最优选择,使用者是作者。它仍以现有作品法定类型为依据,权利内容、权利保护期限不变,标记是获得诉讼保护的前提。而人工智能数据输入和机器学习尽管会使用受保护的作品及其片段,但因这种使用是非表达性使用、非竞争性使用,能够产生新知并促进人类整体发展,属于合理使用。未来我国著作权法应增加“文本与数据挖掘”合理使用特别条款。


关 键 词


人工智能 数据 著作权 合理使用


引 言


近年来,得益于算法及大数据技术的发展,机器学习突飞猛进,令历经数十年发展的人工智能理论成为现实。2022年11月30日,美国人工智能研究公司Open AI发布了ChatGPT,短短两个月,月度活跃用户已达一亿,成为全球互联网历史上用户增长最快的应用。在2023年3月16日百度发布“文心一言”之后,阿里、科大讯飞、商汤等企业相继发布了对标ChatGPT的产品。ChatGPT犹如拉开了人工智能技术的序幕,令人工智能技术走向市场,并开始得到广泛应用。2024年2月,Sora人工智能文生视频大模型令机器输出成果从文字转向视频,机器更加“智能”。以ChatGPT的出现为标志,人工智能已经从代码定义转向数据训练,技术过程可分为数据输入、机器学习、数据输出三个阶段,对应的著作权问题主要涉及机器读者、机器作者、机器作品三方面问题。可自ChatGPT出现以来,反对声亦不绝于耳:一是人工智能的训练“投喂”了作品,涉嫌侵犯著作权,引发作者群体起诉,“人机矛盾”激烈;二是人工智能能够替代重复劳动,“过于觉醒”令人担忧人类的未来。在数据输入上,与美国不同,我国暂未出现相关作者群体诉讼,也尚未有典型案件及相关探讨。被称为“全球AIGC平台侵权第一案”的“AI奥特曼案”,其判决也只是基于数据输出的实质性相似而将停止侵权的适用范围拓展至数据输入环节,并未评述数据输入中的合理使用问题。在数据输出上,美国历经“黎明的曙光案”“天堂的最近入口案”“太空歌剧院案”“日落照片案”四起版权登记案,明确否认人工智能生成内容的可版权性;我国则对人工智能生成内容的著作权持相对开放态度,在“菲林案”和“腾讯案”中,法院基本支持了原告著作权侵权的主张。中美数据输出的可版权性实践截然相反,国内研究成果颇丰却难成共识。特别是2023年北京互联网法院审理的“人工智能文生图第一案”将人工智能生成内容争议推至风口浪尖,机器作品再掀论争。人工智能引发的问题不得不令人反思它给著作权法带来的冲击和挑战。本文围绕“人机矛盾”现象,探讨人工智能数据输入、机器学习、数据输出相关的著作权问题及其立法应对,窥探人工智能时代我国著作权法的坚守、调适与变革。


一、著作权法恪守以人为本的核心理念


人是主客体关系中的主体,人类中心主义本身含有协调人类与动物及其他生态关系的价值意蕴。2023年10月18日,我国发布《全球人工智能治理倡议》,倡议“发展人工智能应坚持‘以人为本’理念”。我国著作权立法选择大陆法系的作者权模式,而非英美法系的版权模式,体现了对人的精神、作者中心主义的倾斜。


(一)以人为本的理念


在现有认知和宇宙观中,人居于食物链顶端,人是万物的主宰和中心。所有一切法秩序和社会规范都围绕人而建立。在近代西方哲学中,笛卡尔从理性主义认识论出发提出“我思故我在”命题,凸显了人在认知关系中的主体性。康德提出“人是目的”的哲学命题,其认为在人与物的关系上,物只是手段,是实现人价值的手段。人作为主体,物是客体,这种主客体不可置换。法是人的创造物,法就是人性发展的产物。技术再发达,人工智能具有从无意识的事物、行为中发现关联并像人一样行动的能力,但是这种状态或者行动最终也都是为了人的发展。法律、人工智能在人的发展上殊途同归。


(二)表达的主体性


纵观历史,追溯“创造”词源,它被假定为从属于人类。创造源于人类的思想,是人类思想的产物。人类是一切作品或发明的根源,是相关权利的主体。人是表达的主体,作品逃离不了“人”的因素及其主观评价。只有运用人的主观思维所形成的表达才是作品。例如,对于交通监控摄像头、商场监控摄像头所自动形成的影像,由于没有体现人的主观思维,无须考虑独创性要件即可得出不构成作品的结论。正如有学者所言:“作品与创作行为相互表征。将主体行为与对象联系起来的方式是主体的对象性与对象的主观化。具有法律意义的创作行为需要以作品的出现为标志,作品指向了创作主体的行为。”所以,表达专属于人,作品一定是人的创作结果,作品本身蕴含人的“个性”。


(三)人类审美的共通性


人的生理结构和机制以及心理活动的规律大致相同。社会实践的共同文明和知识普及建构普遍的心理结构,人类的审美往往具有共通性。在人机共生和矛盾初期,著作人格权恪守人的主体性,作品市场化也不能抹杀人性的彰显。审美意义以显性或隐性的方式存在于作品中,人类以其独有的方式通过作品共情,人的主体性是著作权法及审美的共同底色。离开人的主体性,无所谓审美,作品纯粹只是一件商品。人工智能从数据输入、训练到输出,可以模仿甚至接近人脑神经网络,但是其基本结构决定它难以形成具有与人类共通的意志、情感或审美。至少目前,生成式人工智能无法在理性思维系统之外涌现出人类的直觉系统。著作权法上的作品,在审美意义层面具有直觉性和非功利性,评价主体依然是人,人类感知也依然是著作权法的核心。而人工智能生成内容并没有建立起人与人的对话,不是著作权法上的作品。


二、人工智能生成内容的著作权法保护及其法律调适


否定人工智能生成内容可版权性的观点,主要理由在于人工智能生成的内容具有随机性、不确定性,机器“自主”参与了“创作”并决定了最终表现形式,而人不能控制机器“创作”最终呈现的表现形式。人类向人工智能程序输入相同的关键词、设定相同的参数,却生成不同的输出内容。人工智能进行了“有意识”的创作,它直接决定最终的表现形式,与相机和常规图像处理软件等创作工具存在本质区别。


(一)可版权性的人机协调


法律经由拟制、解释等多种方法得以续造,获得稳定性、权威性。著作权法的产生原因不是创作行为,而是技术发展促进了作品传播,亟待法律介入协调利益。按照劳动理论,作者是思想的输出者,必然对创作成果享有权利,但是著作权法通过法律拟制使非作者的主体也可成为著作权的权利人,如法人作品、委托作品、职务作品、视听作品等。著作权因技术而生,也因技术而变。


1. 从独创性诠释到人的实质性贡献


以概念思维从自然人生物特征出发容易否定人工智能的主体性和人工智能生成内容的可版权性,但类型思维强调共性,人类作品与人工智能生成内容在外观和经济利益方面具有同质性。创作活动作为一种社会事实,法律规则并不直接关注该事实本身。若仅局限于“人”的逻辑推演,现实纠纷及其解决会游离于著作权规范体系之外。独创性是认定作品的核心要件,为了避免循环论证,暂且不考虑人的主体要素,是否具有独创性是判断人工智能生成内容可版权性的关键。


著作权法并非自始就有独创性概念。著作权制度产生起初,出版商看重的是作品所带来的经济利益,作品的创作过程及创作程度并非其关注的重点,一切智力表达皆可成为作品,因而实用主义者通过“额头流汗”标准为大多数表达提供保护。此后,随着思想与表达的二分,基于是否予以保护的裁判需求,独创性成为比较理想的界限划分标准。实际上,与其说它是一种划分标准,不如说它是从结果反推保护或不保护的借由。


著作权法以一种作者本人以外的视角,审视作品的艺术水平,从而确定保护或不保护以及保护程度的高低。法律规范借助读者的作品观,夹杂读者价值的判断,对作品创作艺术水平进行作者主观外的客观评价。司法实践中,在解读作品时,法官被设定为一般读者,基于读者身份解读作品文本的思想以及其所达到的艺术高度。在不清楚人工智能生成内容是来源于人抑或人工智能的情况下,读者视角的评判者在判断独创性时,宜采取一种可被大众接受而倾向客观的标准。独创性标准渐趋于客观的可区别标准,淡化人的个性,突出其经济、社会价值。若将“人的创作”作为判断“独创性”标准之一,则混淆了权利客体的属性与权利归属在法律技术上的区别,破坏法律的基本逻辑。“独创性的判断不应当以作品来源于人类还是非人类为标准,而应当从社会大众的角度来观察作品本身。”若是人工智能生成内容可通过“图灵测试”与人类作品相媲美,其不同艺术风格又能被客观识别,即满足作品的独创性要求。有观点认为,人工智能生成内容仅仅只是算法分析、选择的机械式输出,预设规则和算法相同,输出结果唯一,没有独创性。但是,人工智能犹如具有神经网络的人脑一样能适时改变数据参数并推进算法,结果唯一的论证不仅不符合人工智能的技术创作原理,而且错误地将独创性与思想、精神及人格混同了。事实证明,在人工智能系统中输入相同关键词会出现不同结果。


独创性术语本身已剥离了表达的“人”要素,判断标准是外在的、客观的,在法律适用上可以单独进行。艺术没有高低之分,只要创作成果可与公有领域及其他作品相区分,其对文学、艺术和科学领域所贡献的价值是相当的,没有理由不给予著作权保护。技术越发展,越方便人类创作作品。从人类一字一句口述一个故事,到利用纸笔写下一部小说,再到利用人工智能输出一部诗集,人与最终成果不再直接相关,但人的创造性依然十分重要。在人机创作中,从参数设置、关键词选择、数据筛选到模型调适等过程都夹杂了人的创造性,人的贡献不可忽视,往往具有实质的决定性作用。人工智能生成内容的作品保护应当回归到人而非机器的贡献中去,哪怕人的贡献不是主要的,却是实质的,达到了决定作品基本属性的效果,也符合实质贡献标准。实质贡献理论摆脱了“智能机器-创作工具”的窠臼,具有功能主义价值,为人工智能生成内容的可版权性提供了法理基础。


2. 从法律的实然状态到现实的应然需求


任何的创作都立基于前人的积累,公有领域为作者创作提供土壤,是作品之源,作品最终又都将归入公有领域,继而成为后续创作的源泉。人类作品创作处于良性的生态循环链中。由于人工智能生成内容并非人直接产出,且生成内容的表现形式不为人所控制,按照现行著作权法的规定容易得出结论,即人工智能生成内容不可获得著作权保护,应当归入公有领域。


但是,通过“图灵测试”的人工智能生成内容,难以分辨创作主体,隐瞒人工智能的参与情况,能够使其获得强而全的著作权保护。若按照公有领域说和邻接权说,主动披露人工智能“创作”的事实却可能导致不保护或者弱保护的结果,则多数理性经济人会选择隐瞒而寻求获得完整的著作权保护。在诉讼中,如果原告不披露人工智能参与创作的事实,法官较难发现涉案作品是由人创作还是由人工智能生成,最终会给予后者强而全的著作权保护。这不利于鼓励人的诚信行为,而且严重侵害了公众的知情权。


法律既要符合逻辑,又不能违背常识,唯通过引导人性符合社会伦理,才可实现其规范功能。如果不给予人工智能生成内容以著作权保护,大量人工智能生成内容将进入公有领域并充斥版权市场。人类作品一经人工智能参与即可生成新的内容,若将它们全部归入公有领域,侵权者可以假借人工智能之名,行假冒之实,直接侵蚀原作品及其作者的权利。更重要的是,掌握人工智能先进技术的主体往往集中于具有优势资源的大企业、大集团,其容易通过人工智能对优秀的人类作品进行“洗稿”或“混剪”,在此基础上再演绎形成人类作品转而获得著作权保护。长此以往,大企业、大集团可以跨领域、跨艺术门类“吞食”作品,强者更强,造成“符号圈地”,违背版权制度文明共享的初衷。


规范并非逻辑的完美演绎,背后往往是各种利益博弈的结果。人工智能生成内容的可版权性问题,更重要的是考虑对这种“新形式”给予著作权保护所带来的市场效益以及对社会可持续发展的利弊权衡,实现对信息创作、传播过程中所涉主体利益进行权衡的帕累托最优。当人工智能主体说、公有领域说、邻接权说等均有缺陷,无法有效实现法律的规范功能时,立法者唯有作出最有益于人的妥协安排。现实需求永远是创造之母,是制度产生和发展的决定性力量。目前,为维护先发优势,产业有获得人工智能生成内容著作权保护的迫切需求。人工智能生成内容获得著作权保护,反过来又能激励智能创造,提高创作效率。当产业利益形成集群利益上升为立法意志时,人工智能生成内容获得著作权保护具有可行性。人工智能生成内容的著作权保护既合乎逻辑,又能实现法律的规范功能。所以有观点从纯粹逻辑推演出作品否定说,却又不得不承认人工智能生成内容最终获得著作权保护的实然状态。


在照相技术、摄影技术出现后,曾经存在因人的有限参与而反对保护摄影作品、视听作品的观点,但是如今摄影作品、视听作品业已成为法定的作品类型。为确保法的安定性,节省制度变革的成本,在人工智能主体说、公有领域说、邻接权说均存在缺陷的情况下,作品权利说能满足实定法的要求,符合立法目的和产业需求,成为最优选择。实践中,企业和法院也倾向于将人工智能生成内容作为作品予以保护。2020年,深圳市南山区人民法院就将腾讯公司的智能写作机器人Dreamwriter“撰写”的文章作为作品进行保护。2023年11月,北京互联网法院在“首例AI生成图片著作权纠纷案”判决中直接将人工智能技术或模型生成的图片作为美术作品进行保护。英国版权法规定,对人工智能生成内容“进行必要安排”的人为作者,也是对人的实质贡献的接纳和对现实的妥协。


(二)新合作模式下人工智能生成内容的归属


人工智能生成内容的过程中涉及众多主体,涵盖信息的搜集者、存储者、传播者等,关于人工智能生成内容的权利归属,学界和实务界莫衷一是。目前人工智能生成内容的作品归属主要是三种模式:设计者说、所有者或投资者说、使用者说。


就技术创作而言,人工智能生成内容是使用者决策的结果。不论是人机合作状态还是机器受托状态,使用者是创作和数据输入的启动者,在贡献度和支配力上具有优势。按照著作权法“思想-表达”的创作逻辑,使用者是离创作思想最近的人,人工智能生成内容作为使用者思想的外在表达,由使用者享有权利符合关于著作权正当性基础的人格理论与劳动理论。这也有利于鼓励使用者创作、产出更多的作品,符合著作权法的激励机制。就权责统一而言,行为人应对自己的行为承担责任,使用者对人工智能生成内容享有权利并承担责任符合“意思-行为-责任”的伦理架构,权责一致。若将设计者或者所有者作为权责主体,则人工智能开发越多,使用者运用越多,设计者或所有者承担的责任反而更多,不利于激励设计者或所有者对人工智能进行投资与开发。


就收益而言,使用者利用人工智能技术创作,所有者或设计者已经通过协议、流量等对价获得了补偿,再将人工智能生成内容的作品权利给予所有者或者设计者会导致重复收费。这不仅不符合公平原则,而且违背了人工智能海量数据训练的逻辑。毕竟使用者享有权利才能促使更多人使用智能技术,而人工智能技术优化迭代恰恰建立于海量数据基础之上,将人工智能生成内容的权利归属于所有者或设计者不利于海量数据的累积。就法经济学分析而言,法律通过经验来发现、通过理性来发展和调整社会关系,并以最小成本作出最大利益安排。比较优势是制度选择的重要考量因素。将使用者作为权利人具有相对优势,成为人工智能生成内容权利归属的不二选择。


英国版权法规定,对人工智能生成内容“进行必要安排”的人为作者,而“进行必要安排”的是用户。政策制定者根据技术发展及环境适用灵活的保护策略。这样可以克服法律滞后性的不足,实现法律安定性与技术发展的协调统一。为协调法律安定性与技术灵活性的矛盾,使用者为作者能使人工智能的使用和归责处于可控状态,在使用人工智能时又可通过软件转让或许可协议,根据现有合同规则以及职务作品、委托作品规则等灵活实现作品流转,避免侵权。在国内“首例人工智能作品案件”中,虽然法院基于人的要素否定了涉案的人工智能生成内容构成作品,但是依然将人工智能生成内容的“相关权益”给予软件使用者。人机合作创作中,人的输入与机器“创作”共同输出成果,机器不再仅仅是工具,而是能够随机主导输出不同的表达。与传统雇佣作品(受雇者仅为人而非机器)不同,著作权法还可以通过调整合作作品概念范围,将人机合作创作成果的著作权分配给具有实质贡献的使用者。


(三)区分标记是人机作品获得保护的前提


人始终是法律及其秩序的核心。安全是人工智能时代核心的法价值,和谐是其终极的价值追求。为了确保人的安全性,人工智能需要配备易于使用的关闭装置。英国《机器人和机器系统的伦理设计和应用指南》就提到,人类才是机器的责任主体,应确保找到某一机器人责任主体的可能性。


登记作为一种公示方法,是财产占有、获得保护、追溯责任主体最直观和最有效的手段之一。登记在著作权法上的初步证明效力已成为国际通行规则。登记在证据上有迹可循,又便于管理,可以追踪或搜集人工智能程序,方便采取紧急措施或者锁定责任人。若对人工智能生成内容进行登记,既可以方便区分人机作品,维护公众的知情权,又可以援此找到人工智能的责任主体,及时应对可能出现的违反阿西莫夫原则的情况,以便人类迅速采取紧急措施。日本就通过登记制度将人工智能生成内容与普通作品区别开来,由公众识别并各取所需,最大程度尊重人和社会的多样发展。


人工智能生成内容的数量可能呈现指数级增长,大规模登记将导致社会成本增加,基于与著作权自动取得制度衔接考虑,除了登记,我国可以通过修改著作权法实施条例、著作权登记管理办法或运用司法证据规则,将标记作为人工智能作品获得著作权保护的前提。而且,标记在法律上可作为推定善意的依据,如果人工智能生成内容构成侵权,可基于标记推定行为人具有主观善意,裁定其不赔偿、少赔偿或直接适用强制许可。最新出台的规章和判例都一再强调人工智能生成作品标记的重要性。2022年《互联网信息服务深度合成管理规定》第17条和2023年《生成式人工智能服务管理暂行办法》第12条均规定人工智能应标注区别标记。在“首例AI生成图片著作权纠纷案”判决中,法院认为基于诚信原则和公众知情权的需要,显著标注人工智能技术或模型是其生成内容获得著作权保护的基础。


一言概之,人工智能生成内容能够以作品形式表现,通过“图灵测试”甚至可以超越人类一般作品,若一律不给予法律保护,不仅会阻却人的创作、妨碍人工智能及其产业发展,而且可能侵害公众的知情权。在人本主义视角下,人的主体性依然具有绝对地位,在不否定人工智能作用的前提下对其生成内容予以法律保护,是现有著作权法的功能延展和体系协调,符合时代和法律的双重规律。


三、人工智能数据输入与训练的合理使用制度变革


人工智能创作过程中,数据输入只为更好地进行机器学习,唯有足够多的数据被用于机器学习、训练,才能发掘规律,获得规则,技术才能变得更智能,最终数据输出的结果才更符合人的目的。然而,数据输入和训练过程可能使用受保护的作品及其片段,涉嫌侵犯他人复制权、改编权、信息网络传播权等,势必阻吓人们对人工智能的研发投入。在著作权体系下,人工智能的数据输入与训练行为是否属于合理使用成为各国著作权法在智能时代无法回避的问题。


(一)“人机矛盾”下文本与实践的冲突


合理使用制度秉承平衡精神,追求促进文化事业发展与保护作者权益并重,通过调整创作者、传播者与使用者之间的关系,实现公共利益与个人利益的平衡。该制度体现了信息自由,更以“使用者权利”从良性生态循环的宏观视角激励人类创造及文明共享。


人工智能技术能够替代许多人类的劳动,节省人创作作品的成本,提高创作的效率和质量,具有显著的优势。然而,功能强大的人工智能产品背负着道德的责难,“人机矛盾”激烈。作者群体及其他著作权人认为其权利备受损害,他们主张:一方面,人工智能生成内容剥夺了人类作品的市场份额及人类审美的情感;另一方面,人工智能数据输入和训练攫取了其作品与片段。因此,权利人抗议人工智能剥夺与损害其著作权的事件时有发生。


2023年,包括索尼、环球音乐在内的多家音乐版权公司起诉Anthropic公司,认为Anthropic公司运营的人工智能产品Claude通过互联网抓取大量文本和其他潜在的数据建立人工智能模型,并使用许多语料库训练人工智能模型,进而形成立基于这些复制文本的输出,在这个过程中就涉及非法复制和传播受版权保护的作品,包括版权商拥有或控制的大量音乐作品。版权商认为,无论是人工智能模型训练的数据输入,还是人工智能模型生成内容的数据输出,都直接侵害其著作权,而且Anthropic公司教唆、鼓励用户侵权,也应承担间接侵权责任。因此,版权商要求Anthropic公司停止侵权、赔偿损失,并要求其说明人工智能模型的训练数据、训练方法和已知能力。2023年9月,美国17名知名作家集体指控ChatGPT大规模地盗窃他们的作品,要求多家互联网公司禁止使用他们的作品用于数据模型的训练。另外,其他多起诉讼也被提起,版权商要求使用作品素材的模型训练方承担责任或付费使用作品。


(二)机器学习合理使用制度的法律变革


非商业性使用、少量使用、公共利益需要是证成合理使用的主要理由。在作者中心主义影响下,著作权的内容不断扩张、权利保护期限多次延长,传统合理使用制度本身变得结构残缺或者内容虚化。尤其是人工智能数据输入和训练会大量使用作品,且多数具有商业目的,而非基于公共利益目的,传统合理使用制度不能反映人工智能技术发展的需求,亟待改变。基于此,不同国家和地区规定了“文本与数据挖掘”这一合理使用类型来豁免人工智能数据输入与训练中的著作权侵权责任,以促进人工智能技术发展及人类文明进步。


2009年,日本著作权法最早以“计算机分析”名义规定了文本与数据挖掘的合理使用制度。2018年,日本著作权法修订将“计算机分析”的目的修改为“提供新的知识和信息”,令合理使用制度更加开放、灵活,不再以是否具有商业目的作为判断标准。


在欧盟,文本与数据挖掘构成合理使用的限制较多,文本与数据挖掘仅限于科学研究。这种目的限制导致许多人工智能或机器学习的投入受阻,毕竟人工智能的前期投入并非单纯为了科学研究,或多或少夹杂着商业目的。2019年欧盟《单一数字市场版权指令》放开了文本与数据挖掘的科学研究目的限制,拓宽了合理使用的适用范围。不过,欧盟仍然保留了版权人声明不能用于文本和数据挖掘的除外规则,文本与数据挖掘的合理使用规则较为保守、谨慎。


在美国,合理使用的判断包含四个要素:使用的目的和性质、被使用作品的性质、使用作品的数量和所占比例、使用对作品潜在市场或价值的影响。从案例走向立法后,美国合理使用制度一向以灵活性、模糊性著称。数据输入是否属于合理使用须综合考量“四要素”进行判断,合理使用制度的灵活性令数据输入更具合法性。不过,美国合理使用判断标准历经案例累积,已从“四要素”向“转换性使用”发展,更加强调不同的使用方式和使用目的,以及该使用是否增加了足够的新的内容、含义等;若其作为版权客体整体地对人类知识具有贡献,那么这种使用属于转换性使用。对原作品而言,由于这种使用不是竞争性使用,法院并不太考虑其对原作品市场所带来的潜在影响。即便转换性使用了一定比例的受保护的作品,那也是合理的比例,故第二要素(被使用作品的性质)和第三要素(使用作品的数量和所占比例)在认定合理使用时所起的作用略小,而第四要素(对作品潜在市场或价值的影响)恰恰是判断第一要素(使用的目的和性质)时要优先考虑的措施,转换性使用举足轻重。


训练生成式人工智能所使用的数据,一部分属于公有领域的框架、结构、事实、思想等素材,即便包含受著作权保护的作品及其片段,这种输入仅是对人工智能机器的数据“投喂”,不是表达性使用。这种使用产生了新的、不同于原作品的交流或者扩大了原作品的使用范围,从而对人类知识具有贡献,属于转换性使用,不构成侵权。同时,即使数据输入是表达性使用作品,也可能构成合理使用,正如个人学习、欣赏作品属于表达性使用,而非转换性使用,但仍是合理使用的一种法定类型。况且,作品中本身含有不受版权保护的素材,即使是受版权保护的作品,接触和学习作品是作品创作的前提,接触和学习作品不应区分人与机器,任何人或者机器都有权以其自然学习的方式从受版权保护的作品中获得提升、优化。


(三)我国机器学习合理使用制度解构


在我国,“文本与数据挖掘”并非合理使用的具体类型。未来针对诸如ChatGPT的人工智能产品,假设前文所述美国的多起诉讼发生在我国,数据输入或机器学习能否因合理使用而免责,有待讨论。


第一,就机器学习技术本身而言,人工智能模型训练的输入数据有三类,一是自己经营累积形成并经加工处理的数据,二是通过购买或者通过接入获得许可的数据,三是直接通过互联网抓取获得的数据。第三种模型训练的数据包含互联网公开的自由数据,也包括受版权保护的作品及其片段。生成式人工智能从来不是为了记忆某些片段或复制作品素材,它是通过发现素材之间的关系、逻辑建立一个类似于人脑的神经网络,并在不断调整过程中优化产出结果。数据输入过程中的作品“投喂”并非为了表达,而是只为训练,以研究、确定语词之间的关系,发现规律。著作权法允许对作品的非表达性目的使用,数据输入也好,数据训练也罢,归根结底机器学习某种程度上只为训练,不为表达。例如,在谷歌图书馆案中,法院就认为谷歌扫描各个作品的文本,只是建立搜索系统或者作品文库的中间阶段,只传递书本的片段,脱离原作品的表达目的,从而构成合理使用。另外,构成著作权法上的复制须满足两个条件:一是能以有形载体的方式长久且稳定地被感知、重制、交流;二是复制的时间必须是相当久的,而非短暂、瞬间的。临时复制并不在作品的专有权控制范围之内,故数据输入或训练时哪怕使用了作品,也因过于短暂而不构成对复制权的侵犯。


第二,就机器学习的效益而言,社会收益是机器学习的重要考量因素。机器学习本身具有一定的社会价值,能够帮助研究者快速搜集素材,圈定与研究相关的问题或结论,并能够借助算法和大数据直接分析、预测素材之间的关联,降低科研的成本,拓宽研发的成果范围。只有机器学习涉猎的内容更广,人工智能才会变得更好、更安全、更公平。数据输入的语料库越小或越受局限,人工智能的数据训练和规则确立越受限制,越有可能存在算法歧视与偏见。机器学习会使用成千上万的作品数据库,能产生脱离原作品内容的新的输出,改变原作品的使用目的。著作权制度具有鼓励人们利用旧知创造新知的功能,利用旧作品及其片段输出新内容,这本身就符合著作权法的激励机制和立法初衷。


第三,就机器学习的可操作性而言,机器学习主要通过对语料的学习探究、模拟人类思维,构建模型规则,在此过程会利用不受著作权保护的“思想”,例如对于某些科学期刊文章,机器学习就是利用了最便利获取思想的方法。著作权制度中,思想与表达的界分本就模糊,机器学习在数据输入时更难区分哪些内容属于不受著作权保护的思想或方法。而且,作品无须登记即可自动获得保护,市场上存在不少低价值甚至无价值的作品,机器学习不得不面对这些作品。这些作品不仅涉及作者,还涉及其他的传播者、出版商等多元利益主体,难以获得全部主体的授权。起初,由于大量有价值文本的权利人收费,文本和数据挖掘并没有减轻行为人获得许可的负担。而此轮以ChatGPT为代表的生成式人工智能,数据输入与训练大量使用互联网上公开的信息,包括CC(Common Crawl)、维基百科等,从交易成本角度考虑,许可远不是经济高效的方式。况且,人工智能模型训练行为本质上是一种机器内部的非外显性作品利用行为,版权人存在发现模型侵权、举证模型侵权以及侵权内容比对等方面的判定困境。


最后,就法律依据而言,我国没有规定“文本与数据挖掘”合理使用条款,但是2021年修改的《著作权法》第24条增加了“权利的限制”的概括条款。该条可被阐释为合理使用的一般条款,即限于特定情形的已经发表的作品,不影响该作品的正常使用,未不合理地损害著作权人的合法权益。“少量使用”“不影响正常使用”“未不合理地损害合法权益”成为合理使用的三个构成要件。按照作品非表达性使用的合法性基础,合理使用的核心要素是不影响作品的正常使用,如果合理使用与原作品不是竞争性的,能够产生原作品以外新的、不同的使用,增进实用,整体促进人类知识进步,即便这种使用是大量的、普遍的,或者这种使用可能部分损害著作权人的合法权益,仍然应允许这种非竞争性使用的存在。这符合著作权法平衡版权人与使用人之间利益的目的。可见,在我国机器学习的合理使用能够在一般条款中获得法律支撑。


综上,在数据输入和机器学习过程中,即便使用了作品,也属于合理使用,行为人无须承担侵权责任。虽然我国没有“文本与数据挖掘”合理使用的特别条款,但是数据输入和机器学习能够从合理使用一般条款中获得扩大解释和法律支撑。在未来,我国应完善合理使用制度,建构人工智能产业友好型的著作权法。这不仅对人工智能产业具有重要的促进作用,而且还具有重要的“溢出效应”——解决算法偏见或歧视的问题。为促进人工智能技术发展并与世界接轨,我国《著作权法》修改时应增加“文本与数据挖掘”合理使用的类型化条款。


结 语


“智能互联网时代的深度法律变革,是一个没有预设蓝图和结果的探索过程,但这并不表明它混沌无序;相反,它呈现了从工业社会迈向信息社会的制度转型升级的趋向。”人工智能的出现是信息技术发展的必然过程,其目的是多样的,它绝不仅仅只为产生作品或者发明。人工智能并非为了获得知识产权保护才产生,也并非知识产权不保护就停滞不前。人工智能依旧是工具,是作为客体的物,而非主体。在主客体不能置换的基本法律框架之下,人工智能生成内容源自于人,而非智能机器,其版权应当归属于使用者,而非智能机器。为拥抱人工智能技术及其产业发展,机器学习属于合理使用。在技术成熟之前,人工智能的主体地位面临技术伦理和法律伦理的双重困境。在民法未对此作出回应前,知识产权法应当恪守谨慎的态度,不能撕开“人—作品”的对应关系。