中文

Base on one field Cast our eyes on the whole world

立足一域 放眼全球

点击展开全部

法律宝库

更多 >>

人工智能学习中的出版者权益保护路径探究

发布时间:2024-08-23 来源:中国版权杂志社 作者:罗明东 周安平
字号: +-
563

摘要

出版业是致力于提供知识服务的行业,拥有丰富的出版物数据资源,是人工智能学习重要的数据来源。生成式人工智能作为一种颠覆性的技术,给出版业带来了巨大的挑战。人工智能学习中对出版物数据的复制、存储和预处理,存在侵犯出版者就出版物数据享有的版权等数据权益的风险。人工智能技术的发展和应用是大势所趋,需要为其学习数据的获取提供便利,但合理使用的路径将过度牺牲出版者的利益。因此,宜充分尊重出版者的数据权益,并探索建立集体管理等出版物海量许可模式。出版者也可发挥资源优势,采取技术措施进行自主维权。

关键词:人工智能;机器学习;文本和数据挖掘;数据库;出版者

一、问题的提出

2023年6月,世界经济论坛发布《2023年十大新兴技术报告》,生成式人工智能(以下简称生成式AI)被评为最有潜力、最能对世界产生积极影响的十大技术之一,该报告指出,生成式AI是一种通过学习大规模数据集生成新的原创内容的新型AI。生成式AI在工具式AI的基础上迈进了一大步。当前,生成式AI学习中的版权问题以及AIGC的版权保护理论研究已经初具规模,但对于生成式AI学习中出版者权的保护关注不足。事实上,生成式AI必须以海量数据为前提和基础,而在国内大出版格局下,市场上掌控海量数据的主体并非作者群体,而是各种类型的出版机构。同时,生成式AI的内容生成、传播功能直接挑战的也是出版者的利益,当前应用最为广泛的人工智能大语言模型(Large Language Model)即是典型。因此,生成式AI给出版者带来的影响和挑战并不亚于作者群体,且市场影响更加直接,生成式AI研发者与出版者之间的利益关系也是生成式AI学习过程中较为重要的一对利益关系。

生成式AI的典型代表ChatGPT,是一个基于45TB字节的文本、共计450亿个单词和数以百万计的作品训练而成的大型的语言模型,其训练的过程不可避免地要复制这些文本,并在使用之前进行预处理以供机器学习和处理。据ChatGPT自己表示,这些文本来自于各种渠道,包括书本、文章、网页等。而这些书本、文章、网页,便大多来自于出版行业,出自首发或转载出版机构或平台之手。尤其是在数字出版深度普及的今天,经出版者处理而生成的作品甚至构成AI学习训练的主要来源。ChatGPT目前已经发展至GPT-4o版本,其信息源仍处于不断更新之中。AI对第三方内容的复制和预处理,若未经授权,则可能构成侵权。2024年2月8日,广州互联网法院作出全球首个AIGC平台侵权案判决,认定AIGC生成的部分内容与其学习作品构成实质性相似,且平台并未采取必要的措施预防侵权,最终判令该平台承担侵权责任。生成式AI的出现还使得AI技术在出版的内容生产、编辑加工、复制印刷、营销传播四个关键环节的应用均成为可能。综上,生成式AI从出版物中来,又可以生成出版物,在依赖并利用出版者的同时,又与出版者形成直接竞争,给出版者带来了巨大的挑战。因此,关注AI学习训练过程中的出版者权益保护,具有重要的现实意义。

二、人工智能学习中的出版者数据权益解析

在大多数国家的法律中,数据都能够被“拥有”,只是“拥有”的方式有别,但通常都基于对创造或收集数据的投入的保护,并且允许对访问或使用这些数据进行阻止或收费。出版者就出版物数据享有的权益,可以从出版物数据本身和出版物数据集两个层次来分析。就出版物数据本身而言,既可能是作品性数据,可以享有版权或邻接权,也可能是出版者在非作品类数据之上的数据利益,这些非作品数据既包括本身不构成作品的数据、材料、信息等,也包括不受版权保护的作品,如单纯事实性消息、行政性文件及已过著作财产权保护期的作品等。而就出版物数据集而言,同样有版权和数据权益存在。我国《著作权法》第十五条就对在内容的选择和编排上具备独创性的数据集提供汇编作品版权保护,而这类选择与编排即体现为数据集的结构,恰好对应AI学习中所使用的结构化数据集。在结构化数据集上,出版者根据其结构是否具备独创性而享有不同的权利或利益,而在非结构化和半结构化数据集之上,出版者也可享有一定的利益。

(一)作品类出版物数据版权

根据法律的规定,出版者权益分为原始取得和继受取得两种取得方式。出版者就出版物数据享有的原始权益包括基于编辑出版而享有的版式设计权以及基于创作而享有的版权,包括基于独创性设计而享有的装帧设计、封面设计版权,以及出版者作为作品汇编者、合作作者等所享有的版权。此外,依据《著作权法》的规定,若出版者为了保护作品版权而采取了一定的技术措施或权利管理信息,则还应享有保障其不被破坏或规避的权益。除部分“公共作品”的专有出版资格来自于行政授权之外,出版者继受取得的权利主要来自于著作权人的出版授权,其权利大小依授权的范围而定,出版者无论是自己使用作品还是授权第三方使用,抑或是维权,均需要以著作权人的明确授权为前提,否则不仅无权转授权或维权,反而还可能构成侵权。出版者未获著作权人充分、明确授权的现象在电子化、网络化、数字化出版初期均较为突出,出版者获取作品的海量合法授权仍是当前亟需解决的难题。总之,不同出版者在作品面世过程中所起作用的程度和方式有所不同,可能享有的权益范围也会有较大差别。我国传媒环境进入数字时代以来,无论是在出版产业界还是在行政管理上,数字出版均是“大出版”体系,囊括了极其丰富的数字传播形态。当前,出版行业已经部分迈进智慧出版的高级阶段,使得出版者从内容加工者、传播者向兼具内容创作者、运营者的多重角色转变,其对于内容可享有的权益将赶超传统作者群体。

(二)非作品类出版物数据权益

非作品类出版物数据本身不能享有版权,也尚未成为新型财产权或其他类型财产权的对象。出版机构一般是经营性的企业,企业对于数据集所享有的权益,是当前理论和实务界探讨的核心论题,而数据集内的非作品类数据本身,并非版权和数据财产权关注的范畴。尽管如此,在数字时代,市场主体在经营过程中掌握和产生的非作品性数据的市场价值已经毋庸置疑,在现有制度框架下,出版者仍可以在一些特定情形下就这些未形成数据集的非作品类数据享有利益。例如,若控制主体在数据上采用了保密措施,则可作为商业秘密受到保护。即使不将其作为商业秘密,而是作为一般的信息,若控制人对该信息的访问、传播、使用等采取了技术措施,对该技术措施的破坏和规避仍可能构成不正当竞争。质言之,在竞争法领域,所有违背诚实信用、商业道德等导致市场竞争秩序被破坏的行为均具有可责性,尽管竞争法是行为规制法,但其适用结果等同于其控制人在其掌握的数据上均可能享有利益,而不论该对象是何形态以及是否采取了必要的保护措施,只是这种利益保护有限定的适用场景,且保护力度不如权利明确和强力。

(三)结构化的出版物数据集权益

很多情况下结构化数据集的保护可以直接适用数据库保护制度。但是,各国对于数据库进行保护的路径各不相同。我国对于数据库的保护,适用的是《著作权法》中关于汇编作品的规定,要求该汇编作品对数据的选择和编排必须能够体现独创性,而不论数据集内的数据本身是否享有版权,有学者将这种保护形容为只保护装水的空瓶子,而不保护瓶子里的水。美国法上对于数据库的保护,依据其1976年《版权法》第101条的规定,以及著名的“费斯特”案确定下来的规则,也需判断对数据选择、整理、安排上的最低原创性。欧盟对数据库的保护则近乎于直接保护投资,1996年出台的《关于数据库法律保护的指令》明确,在对数据库的保护中无需考察其对材料的选择、编排是否具备独创性,而专门创设了一种独立于传统版权的数据库“特别权利”保护。

当然,结构化只是数据集获得版权保护的必要条件,但并非充分条件,还需要该结构满足著作权法上的独创性要求,需要在个案中去考察。然而,由于舒适、高效的用户体验是数据库的核心竞争力之一,因此,就同类型的数据库而言,不同建设者往往也会形成在结构、编排上高度相似的数据库,以致难以达到著作权法上的独创性要求,因此,结构化数据库版权保护的司法适用结果仍存在一定的不确定性。为此,欧盟不区分数据库独创性而统一提供“特别权利”保护,德国则将非独创性的数据库作为邻接权对象予以保护,日本著作权法上保护的数据库作品仅要求内容系经过选择或系统构建而成即可,不需要特别的创造,美国也曾意图推进类似于欧盟的“特别权利”立法,但未能在国会通过。因此,在包括中美在内的大多数国家和地区,均依靠竞争法的规则来规制不当使用他人非独创性的结构化数据集的行为。

(四)非结构化的出版物数据集权益

数据库往往是根据先预定好的关系模型来对数据进行收集、存储和应用,而AI学习的数据集不仅包括了经过结构化处理的数据库,还涵盖了数据库无法处理的“用户浏览痕迹、设备信息、分享资料等半结构化、非结构化数据”,这也是AI学习所依赖的数据集与传统数据库的主要区别。非结构化数据集的保护是当前各国所共同面临的难题。中共中央、国务院2022年12月印发的《关于构建数据基础制度更好发挥数据要素作用的意见》中明确提出,要建立数据资源持有权、数据加工使用权、数据产品经营权分置的数据产权运行机制,但在法律制度上落地仍需时日。非结构化数据集之上的权益性质,在权利法定主义原则之下,要被定性为独立的数据财产权还为时尚早,但其需要较大的投入且具有较大的市场交易价值已是不争的事实,出版者也现实地享有竞争性利益。实际上,我国司法上依托诚信原则、商业道德、劳动理论等,已经广泛认可了市场主体对数据资源的竞争性权益。因此,在AI所获取的数据集之上,出版者兼享有广泛的权利和利益。

三、人工智能学习获取出版物的技术逻辑

(一)人工智能学习中的数据获取原理

在《人工智能:一种现代的方法》一书中认为,能够通过图灵测试而被称为AI的计算机应满足自然语言处理、知识表示、自动推理和机器学习四大能力,可见,机器学习实际是AI的一个重要部分,甚至是最核心的能力,是为AI系统提供无需程序指令而自动学习并根据经验改进的能力和过程。机器学习至今没有比较统一的定义,业界广泛引用的美国学者汤姆·米切尔(Tom Mitchell)的《机器学习》一书对机器学习的定义是:就某类任务T和性能P而言,计算机程序通过从经验E中学习,提升了在任务T上的性能P,则称其从经验E中学习。机器学习的一般流程是:定义问题、收集数据、比较算法与模型、应用模型,数据收集阶段则包括数据采集、数据预处理和数据转换三个步骤。

从表面看,AI是让机器人模仿人,但其实质是对数据的采集与利用,可以说AI最重要的是数据,而非程序。生成式AI是已进入“深度学习+”阶段的应用,必须要花大量的时间、利用大量的数据来进行训练。例如,ChatGPT的学习用数据达45TB的规模,与其同开发者的Codex,也是基于数十亿行开源软件代码训练而成。Stability AI开发的Stable Diffusion,基础是一个包含58.5亿个图片及文字描述的超链接的数据集。收集数据是机器学习的第一步,而数据的收集方式,则因任务的不同而有所区别。

收集到数据后,要对数据进行预处理。理论上常以数据可用信息为标准将机器学习分为有监督学习、无监督学习和弱监督学习三大类。有监督学习需要对收集的数据进行预处理,规范数据结构、删除不合格数据等,然后对数据样本做标注,机器再通过这些带标注的样本集学习建立一个模型,在模型确定后,该模型就可以对新的输入进行结果预测。这种数据标注包括了人工标注。无监督学习数据的标注,就需要机器从数据自身发现一些现象或模式,常用的方法是聚类、降维与可视化、密度估计、稳变量因子分析等。而半监督学习则是针对只有部分有标注的样本的学习,综合了有监督学习和无监督学习的方法。理论上,生成式AI是以这些学习方式为基础,并发展到多层的深度学习阶段的产物。

(二)人工智能学习中的出版物抓取

AI学习的数据来源多元,就出版物而言,总体有数字化与非数字化之分。对于尚未数字化的出版物,AI数据收集的第一步即通过传感器等技术手段将其数字化,该过程成本巨大。就已经数字化的出版物数据而言,又有在线数据与离线数据之分。离线数据无法自行获取,往往需要持有方来提供。在线数据则可以诸如数据库、数据仓库、数据文件、流数据、多媒体、网页等形式集中存储或分布在网络服务器上的各种各样的数据。除通过授权获取之外,基于一定的技术手段,在线数据均有被自行获取的可能性,这就需要依靠一种文本与数据挖掘(Text and Data Mining,以下简称TDM)的技术。以ChatGPT为例,其数据来源包括从各种网站上获取的无标注文本数据、经人工标注的训练数据以及与用户对话产生的交互数据三大类。其训练数据主要是依靠人类专家和已经过训练的现成数据,如SQuAD、CoSAT、GloVe等,而无标注文本数据的获取则主要依赖TDM,从社交网站Reddit、程序员问答社区StackOverflow和推特等网站中抓取而来。

事实上,AI学习或训练用的数据,绝大多数也是从网络上抓取存储在硬盘、云存储或数据仓库的数据并下载而来,下载和存储的过程就涉嫌侵犯版权。我国AI建设的系统标准仍在建构之中,但是,2020年7月27日五部门联合发布的《国家新一代人工智能标准体系建设指南》(国标委联〔2020〕35号)已经明确了我国AI的五大支撑技术,其中大数据、智能传感器和数据存储技术均与机器学习中的数据获取密切相关。在国内行业实践中,AI开发者训练数据的获取主要来自于自行采集、从公开数据集获取、模拟产生、用数据挖掘或爬取技术抓取、第三方购买等五种途径。其中,前三类渠道整体上较为尊重有关数据主体的授权,而使用数据挖掘或爬取技术的情形由于未保障数据主体的知情权和授权范围而面临着较大的伦理与法律隐患。通过第三方购买渠道获取的数据,在该第三方获取数据阶段也面临同样的法律问题,并且,这种风险实际不会因AI研发者所使用的数据系合法购买而完全转嫁至第三方。

(三)人工智能学习中的出版物预处理

复制、存储仅仅是AI数据获取的第一步,随后还要经历复杂的数据预处理过程。不同类型的机器学习对数据的预处理不甚一致。有监督学习的前提是数据标注和分类,数据标注是将非结构化数据转化为机器可识别、可做训练之用的数据集。数据分类则是将数据集划分为训练集和测试集两部分,首先用训练集对算法进行训练,得到模型,然后利用模型对测试数据进行预测,计算预测误差再反馈至机器算法。无监督学习主要方法是聚类和关联分析,聚类即将数据集划分为若干个相似实例组成的簇,使得同一个簇中的实例间相似度最大化,而关联分析法则用于发现隐藏在大型数据集中有意义的联系,这种联系可以用关联规则进行表示。AI学习本身也常运用AI技术,基于深度学习对数据进行自动标注,大大提高了数据标注的效率。

数据的质量直接影响AI学习的效果,而由于人的错误、测量设备的限制以及数据收集过程的漏洞等种种原因,数据质量往往参差不齐。因此,在数据标注前有必要先做“数据清洗”,以删除重复信息、纠正存在的错误并提供数据一致性。该过程由机器依据算法自动进行,主要任务在于标注出残缺、错误或重复的数据,以供后续处理。除数据补正等往往需要人工完成之外,后续的数据清理仍可广泛借助算法工具,主要技术是属性选择技术、主成分分析技术与离散化技术。属性选择指从数据集中选择最具代表性的属性子集,删除冗余或不相关属性。主成分分析则是将数据降维,把给定的一组相关属性通过线性变换转换成另一组不相关的属性,将复杂问题简单化,便于分析和处理。离散化即将连续的数值型数据切分为若干个分箱的小段。从前述数据的清洗、转化、标注、删除、切分等预处理的原理来看,其过程既可能构成对具体数据的修改,也可能构成对数据集在体量、逻辑、关联、结构等方面的变更。

四、人工智能学习侵犯出版者权益的风险

(一)人工智能学习侵犯出版者权益的入责逻辑

基于出版物的AI学习,前提是对出版物的复制,这也是AI学习过程中最大的版权障碍或侵权风险所在。AI学习尚未进入内容输出的阶段,无成果的生成和传播,因此,尚不涉及演绎权、传播权等侵权问题。不同于出版物的数字网络转载、传播,AI学习过程中的复制不具有开放性,其侵权事实的认定相对复杂。在司法实践中,复制权侵权的判定往往被演绎权、传播权等侵权所吸收,或需要以之为目的,少有单独认定复制权侵权的判例。并且,基于海量出版物学习而来的“成果”也无法确定任何一个作品作为演绎来源,著作权法意义上的演绎、传播的目的难以证成。但是,复制权自始以来便是版权中的首要内容,制度上认可复制权独立保护的价值。在一些特定的情形下,如对出版物未经授权的翻拍、扫描、在线浏览等,复制权被独立侵犯的可能性仍然存在。并且,正是这种中间复制使得机器学习区别于人类的学习,美国第九巡回法院在世嘉公司诉誉嘉公司版权侵权案(Sega Enterprises v. Accolade)中认为,软件逆向工程中对软件作品的中间复制本身就侵犯了版权,而不论其最终状态是否侵权。当然,该案法院最终认定誉嘉公司对世嘉公司 Genesis游戏程序的逆向工程构成“合理使用”。实际上,我国《著作权法》第十条所规定的内容均无目的性要求,均是对特定利用方式的独立控制,相应的目的性要求则是出现在“合理使用”“法定许可”等权利限制条款,二者的适用在逻辑上有先后,即落入版权保护范畴是前提,权利限制是抗辩。因此,在考量特定行为是否落入版权控制范畴时,不能直接“一步到位”将目的性要素带入。

就数据的存储而言,实际也是复制。美国现有的司法判例已经确认,不论是在硬盘还是在随机存储器上的存储,都满足版权法的固定性要求,因为硬盘远比用以暂时存储程序、数据和中间结果的随机存储器稳定,即使数据没有被永久存储在硬盘中,而是在完成训练之后就被删除。如果训练数据被存储在云端,那也同样是由物理硬盘来存储的,只是需要通过互联网或局域网来访问。在《世界知识产权组织版权条约》制定过程中,欧美曾主张将中间复制纳入复制权控制范围,因遭到包括中国在内的一些国家的坚决反对而未成功,但在美国的坚持下,仍然增加了一条含义模糊的规定,授权各国法律自行解释以数字形式对作品的“存储”是否包含临时复制。可见,我国《著作权法》上的复制权原则上并不包含临时复制的内容。但是,我国《信息网络传播权保护条例》为用于防止、限制未经权利人许可“浏览”“欣赏”作品的技术措施也提供了保护,实际上也部分承认了临时复制利益,因“浏览”“欣赏”背后的技术即临时复制。因此,在出版者对出版物采取了技术措施的情况下,AI通过破坏或规避技术措施而采取的复制和临时存储也可能构成侵权。

就出版物的预处理而言,对于数据的清理、过滤、去除偏差、格式化以及数据转化、划分等预处理操作,在涉及出版者时,既可能侵犯其就具体出版物享有的权利,也可能侵犯其就数据集整体所享有的权利。就前者而言,数据的标注、补正、删减等,均有可能构成对具体出版物的修改、演绎,落入修改权、演绎权的范畴。而对于数据集的变更,也可能落入出版者就数据集享有的权益之中。因为,AI学习对数据集的预处理,即将非结构化数据集处理为结构化数据集,或将本身已经被来源出版者结构化了的数据集重构为AI所需的数据集,该过程即数据集结构的变化。一直以来,我国著作权法始终将对数据、材料的选择、编排的独创性作为数据库版权保护的实质要件,其权利保护的范畴也仅及于对数据材料的选择和编排,而对数据集结构的修改,恰好落入了这一控制范围。

(二)人工智能学习侵犯出版者权益的出责事由

要将AI学习中的TDM认定为侵权也面临一定的困难。有观点认为,如果人类从书本中学习并不侵权,那么机器类似的学习也不侵权,尽管学习过程中会不可避免地制作复制件。一般而言,AI学习开发者对于复制作品的表达毫无兴趣,其真正需要的是作品事实形态中的功能性要素。AI对表达的挖掘是功能性的或非表达性的目的,提取的是不受版权保护的思想和方法,不符合著作权法所保护的作品性复制,因而不能诉请版权侵权。也就是说,AI学习对作品的复制,并非表达性复制,而是对作品事实形态的复制,不将其认定为侵权也符合“思想/表达二分法”之意。AI开发者也并未向公众传输或提供这些作品,而仅用于AI模型的训练,最后训练而成的AI模型中并不会原样出现这些作品。在生成式AI的应用中,后续会生产出与其所学习的出版物类似形式的“成果”,但由于难以确定特定的来源出版物,以致其目的性判定同样有较大的不确定性。也有观点主张结合训练作品来源与输出内容而将机器学习(Machine Learning,以下简称 ML)划分为不同的类型,从而分别适用非作品性使用、合理使用和侵权性使用的规则。以上认识的共同特征在于将ML与其目的、后续活动相联系,而非独立认定ML活动,此类认识实际也反映了司法实践中普遍存在的难以脱离复制目的或后续传播行为而独立认定复制权侵权的问题所在。

即使确认AI学习过程中对出版物的挖掘已经落入出版者数据权益的范围,但是AI开发者的抗辩事由仍相对丰富,该权益可能受到的限制仍然广泛。尽管广州互联网法院率先做出了AI平台侵权的判决,但该判决依据的基本事实是AI输出实质性相似作品且平台未采取预防侵权措施,对占据AIGC主流的非表达性输出指导作用有限。美国正在进行的三大生成式AI侵权诉讼则直指对作品、数据的转换性使用,是相对典型的分析样本。在尚无专门的TDM版权例外规定的背景下,合理使用便是被诉方必然会选择的抗辩事由。在美国版权法上,合理使用须满足四个方面的标准:作品使用的目的、作品的性质、作品使用的数量和内容、对作品市场和价值的影响。就AI学习而言,教学、研究和学术目的是最有利的要素,而市场影响要素的权重最重,作品性质要素的重要性最低。就作品使用目的而言,很多观点认为AI为了学习训练的目的而挖掘作品并不构成侵权,因其并未向外传播作品。同样,转换性使用是判断目的要件的重要事由,早在美国谷歌图书馆案(Authors Guild v. Google)中,一审纽约南区联邦地方法院和二审联邦第二巡回法院一致认为,谷歌为了研究目的对数以百万计的图书进行的数字化是一种高度转换性的合理使用。由此可见,转换性使用的事由对数量要件也有明显外溢效应,即使是对数百万图书的数字化也可能被法院认定为是转换性使用的必然,转换性使用甚至事实上一度形成对“四标准”的替代。就市场影响而言,美国联邦法院并非只考虑数据授权市场的损失,还会着重考量对社会公众的影响,尤其是当新技术的发展显著对公众有益时,更有利于合理使用的认定。总体上看,前述三个案件中的AI开发者在合理使用认定中占有显著优势。

但是,美国法上合理使用的适用结果是不可预知的,相较而言,部分国家或地区在此问题上有更加明确的态度。日本是最早为TDM提供侵权例外规定的,早在2009年,日本《著作权法》第47(7)条就允许所有目的的TDM。为了进一步促进AI和大数据技术发展,2018年修改的日本《著作权法》,又从三个方面进一步移除了AI发展的障碍:一是为了ML目的作品分析和推理(第30-4条);二是允许附带性的作品复制(第47-4条);三是允许为了数据核验的目的作品使用(第47-5条)。《欧盟数据库版权指令》将对数据库实质部分的提取和对非实质部分的重复、系统提取和使用均认定为侵权,目的是维系权利人与公众的利益平衡。此后,欧盟《数字化单一市场版权指令》又要求成员国为研究机构和遗产保护机构设置以研究为目的的TDM例外(第3条)以及商业性的TDM例外(第4条),但为权利人预留了选择退出的权利。该规定广受批评,因为其实际上赋予了权利人授权或禁止TDM的权利,对AI开发者不利。自2014年起,英国便规定了非商业性、TDM例外,2022年6月,英国政府又公布了一项关于商业性质TDM例外的提案,且没有规定选择退出机制,但是,该提案在创意产业的强烈反对下被撤销。以色列司法部在2023年发布的一份意见书中明确,AI的ML显然属于以色列版权法中合理使用的范畴。

是否构成“合理使用”在我国需要遵从“三步检验法”来认定,而属于《著作权法》第二十四条所明确规定的特殊情形是其首要要件,但AI学习中对作品的使用并未被规定在其中。国内理论界长期坚持对“三步检验法”中的特殊情形做严格的、封闭的解释,但也有研究认为《伯尔尼公约》所确定的特殊情形本身具备开放性,且各成员国国内立法机关和司法机关均能够予以适用。在尚无条件推动将TDM写入“合理使用”特殊情形的情况下,也可通过解释论将非营利性的AI学习解释进“个人学习研究”及“学校课堂教学或者科学研究”中,再通过对“科学研究”做扩大解释来涵盖营利性的AI学习。也有观点主张通过概括性解释“合理使用”一般条款来将AI学习纳入进来。在我国《著作权法》第三次修订过程中,“合理使用”特殊情形的兜底条款曾使用“其他情形”的表述,但正式稿将其限定为了“法律、行政法规规定的其他情形”,一定程度上表明立法者无意向司法机关开放自主解释适用该条款的权力。此前,司法机关有不少扩张解释适用“合理使用”情形的案例,且专门出台过允许在确有必要时适用“四标准法”的意见,而今后能否继续扩张适用还有待进一步观察和研究。

五、人工智能学习中出版者权益维护的有效路径

(一)人工智能学习中出版者权益保护的必要

为了支持AI技术的发展,世界各国均在诉诸于推进AI学习的合理使用例外,但是其支持程度不一,尤其在商用性质的AI学习政策上,前景并不明朗。国内也有大量研究探讨将我国“合理使用”制度适用于AI学习的可能性问题。然而,极力推进合理使用制度适用的后果,是0或1的区别,没有折衷状态,是对AI研发者抑或出版者利益的完全支持,容易走向利益的失衡。当前,生成式AI已经走出科研机构和实验室进入企业和市场,数据拥有者主张利益的意愿也愈发强烈。在美国三维成像公司诉元平台公司和普林斯顿大学案中,原告主张被告在场景识别AI开发中下载其数据的行为非法,据其估算,相关的场景识别软件的市场规模到2025年可达600亿美元,但数据收集成本仅百万美元。AI免费获取数据的模式也激起了美国创作者群体的强烈反对,2023年7月,美国8500名作家联名要求OpenAI、微软、Meta等AI公司赔偿因使用其受版权保护的书籍、文章、诗歌等作品的损失,在他们看来,这些作品实际成为了AI的免费养料,而AI动辄数十亿美元的开发资金中,理应包含对作品使用的补偿。美国作家协会也认为,AI对作品的免费使用将使作家无力继续创作。AI研发者合理使用的抗辩也常被批评为一种窃取版权的方法。2024年2月2日,英国上议院通信和数字委员会发布了《大型语言模型和生成式人工智能》,呼吁英国政府抓住技术发展机遇,建议让权利人有权检查数据是否被擅自使用,鼓励科技公司为内容授权付费。2024年2月9日,日本报刊出版协会向文化厅提交一份意见书,将AI从版权作品中的学习称作不可接受的“搭便车”行为,并呼吁从根本上修订日本《著作权法》。同月28日,在继美国《纽约时报》之后,又有多家媒体对OpenAI未经许可、付费而“搭便车”式利用其新闻内容训练AI的行为发起了版权侵权之诉。2024年3月,三名作家以版权侵权为由起诉英伟达利用其书籍训练AI平台NeMo的行为,而该平台利用的数据库包含了近20万本书籍。

当前,我国出版物数据库已经具备了较大的体量,如大型报刊数据库、古籍数据库、数字图书馆、融媒体平台等。开发者直接购买的出版物数据已经是我国AI开发中的重要数据来源之一,而未经允许对出版物数据的抓取则可能对其交易价值的实现构成实质损害。总体上,AI学习中的TDM路径多元,不同路径所需付出的挖掘成本不同,若直接从现成的大型数据库或数据集复制而来,AI开发者无疑将显著节省数据挖掘和后续处理的成本,但对于出版者而言,则将因此丧失收益或交易潜力。在VHT公司诉Zillow集团(VHT v. Zillow Grp.)案中,因原告正在积极开发数据库授权业务,所以美国第九巡回上诉法院在合理使用的市场影响要素判断中便显著倾向于原告。国内已有不少经营者以数据交易为业,专为AI开发提供有偿数据服务,依照数据类型、数据量或是否需要标注等为标准来获取对价,甚至还能提供定制化的有偿服务。除此之外,数据库开发本身往往是漫长产业的一环,是纯投入阶段,需要花费巨额的成本,后续的数据处理和应用才是收益期。因此,即使出版物数据库所有者尚未开发相应市场,未经许可的TDM也可能抢占先机,减损其基于出版物资源做相同或类似运用的潜力和可能。例如,在福克斯新闻网有限公司诉电视之眼公司(Fox News Network v. TVEyes)案中,美国第二巡回上诉法院就基于被告对福克斯公司作品授权可能性的侵犯而否认了合理使用。尽管VHT案与Fox News Network 案的被告都构成转换性使用,但法院同样会重点考量该使用对授权市场的潜在影响。2023年8月,“中国知网”发布了“大模型+AIGC”的大数据知识管理系列产品,开启智能化知识服务时代,在此之前,其还仅仅是国内最大的论文提供平台。因此,若法律不及时提供保护,AI学习对出版物数据集开发者未来的盈利能力或构成“釜底抽薪”式的损害。

此外,现阶段的AI模型,仍存在对作品的表达性使用。尽管AI技术发展迅猛,但是,若要断言其都已达到强人工智能阶段还为时尚早,即使是被公认为最先进的GPT-4o模型,对来源数据的使用也并不完全是非表达性使用,因此,部分AI学习对版权的侵犯是较容易判定的。在《纽约时报》对OpenAI、微软等公司发起的侵权诉讼中,其举证表明在一些情况下GPT模型输出的内容与《纽约时报》原文内容构成实质性相似,甚至还可能原文输出其内容。无独有偶,当前被用户尊为AI制图“神器”的Midjourney V6模型,也存在大量输出现有作品的原样复制品的情况。在我国AIGC平台侵权第一案中,法院认定涉诉AIGC平台Tab网站所生成的绘画作品,与原告享有版权的作品构成实质性相似,这并不符合AI学习是对作品的转换性使用的预设。同样,在此前的AI文生图著作权案中,法院也认定原告在利用Stable Diffusion的AI模型生成人物图片时,对于人物及其呈现方式等画面元素以及画面布局、构图等均进行了设计,在AI根据其设计的参数生成第一张图片之后,又继续增加、修改参数并不断调整,才最终得到了涉案的图片,该过程体现了其独特的选择、判断和审美,表明该AI模型也是强人工参与和控制之下的AI模型。在此大背景下推动AI对数据的合理使用,显然过于激进。

(二)人工智能学习中出版物的海量许可

如上所述,合理使用制度在出版者数据权益的保障上有天然的缺陷,但是,过高的数据成本,同样不利于AI技术及其应用的发展。法律是利益之器。AI技术的发展和应用,牵涉的不仅仅是AI开发与出版两个产业之间的博弈和平衡,还有广泛的国际科技竞争、国家安全等。由于AI研发者完全可以选择一个对TDM技术最友好的国家进行AI学习训练,因此,各国制度对AI产业的支持力度将直接影响本国AI产业的发展,为此,某些国家甚至不惜在TDM监管政策上展开“竞底竞争”。当前,发达国家均将AI技术的发展作为提升国际竞争力的最重要手段之一。美国制定了联邦AI研发战略计划,明确了AI研究中的7个优先事项以及实现这些事项的两点建议;加拿大制定了“泛加拿大AI战略”的五年计划;法国制定了国家“AI领导”战略,意在成为欧洲国家AI战略的代表;德国重点投入AI人才教育;澳大利亚政府直接投资支持AI技术的发展;韩国制定了国家AI发展战略,立志到2030年成为全球AI四大强国之一;日本更是在多个方面制定引领世界的AI战略;印度政府用千亿卢比预算推进“IndiaAI使命”项目,该项目将开发一个统一的数据集平台,为AI研究者提供一站式解决方案,简化AI学习获取非个人数据集的流程。

在激烈的国际竞争中,我国也在大力推动AI产业的发展,商汤、旷视、云从、依图等AI独角兽企业已经成长起来,清华大学等顶尖高校陆续成立AI研究院。2017年7月,国务院印发《新一代人工智能发展规划》,提出“三步走”的战略目标。国家先后推动建立了数十个“国家新一代人工智能创新发展试验区”和“国家人工智能创新应用先导区”。2023年7月,七部门联合发布《生成式人工智能服务管理暂行办法》,确定对生成式AI服务实行包容审慎和分类分级监管,在鼓励发展的同时要求尊重知识产权且不得利用AI优势实施不正当竞争,整体上对AI持积极拥抱并尽力消除可能的不当影响的态度。

AI学习需要大规模的数据,AI开发者也并非完全不考量出版物数据使用许可和付费的问题,OpenAI 于2023年底及2024年5月分别与美联社(Associated Press)、阿克塞尔·斯普林格(Axel Springer)以及新闻集团(News Corp)达成了使用其出版物训练AI模型的协议,这种授权被认为很有可能成为AI开发者与新闻机构之间的未来合作模式。但是,如果完全依靠版权单独许可或版权侵权赔偿规则,则AI学习的出版物利用必定是低效率、高风险且高成本的,开发者无力承担数据成本,也就无从发展AI技术。并且,市场上也不乏高估自己持有数据集的价值甚至“敲竹杠”的持有者,以致私人协商合作难以达成。同时,只有更大更多元的数据集才能训练出更好的AI模型,如果只允许AI基于有限的“合法”“安全”的数据库进行学习训练,则可能因数据来源的不全面而导致AI的算法偏见,甚至产生伦理、安全等方面的消极后果。因此,在尊重出版者数据权益的前提下,仍需要探索消除TDM障碍的合理路径。事实上,消除TDM的障碍,便利AI技术的发展和应用,并非只有“合理使用”一个选项。在数据库保护的现有研究中,已有观点主张通过创新法定许可制度、完善版权集体管理制度等方式来解决数据库多重权利的产生和行使方面的利益冲突问题。同样,也有部分观点主张通过法定许可、集体管理等方式来解决TDM中的利益平衡问题。

本文主张通过集体管理方式解决AI学习出版物海量许可的难题。一方面,我国法定许可制度整体上没有很好起到平衡权利人与使用人利益关系的效果,且该制度在网络环境下的适用几经争论和反复终被否定。总体上,法定许可制度是对权利人许可自主权的剥夺,应当慎重,没有充分且必要的事由不应该适用。另一方面,集体管理本质上仍是一种许可方式,基本可以实现法定许可的效果,适宜管理网络环境下的授权,且制度建构成本较低,集体管理组织还可统筹建立交易平台、数据库,确定付费机制或采用更为严厉的技术保护措施。但是,就大规模出版物数据集而言,仍应以自主授权为主,集体管理组织的定价则可以作为交易及纠纷解决的参照标准。

(三)人工智能学习中出版者的技术维权

客观上,ML并非总是善意或无害,因此伴生了对抗性机器学习(Adversarial Machine Learning,以下简称AML)技术。AML专注于提取ML的训练集并计算其运算程序,据此确定如何回应ML的攻击,然后制作一个可以规避攻击的措施。当前,数据商可以采取IP封禁、动态密钥、账号封禁等反采集措施阻断机器人的自动采集。我国出版者也已经开始普遍采用数字底纹加密、绑定硬盘等技术保护措施。但是,仅就技术而言,以上技术措施被更先进的TDM技术破解也只是时间问题,并且,客观上也不存在一种通用且永久有效的技术来全面保护各种出版物。在保护技术、破解技术、改进的保护技术之间,是一种相互作用的动态循环发展过程。

但是,制度的干预为出版者摆脱这种纯技术对抗而获取先机提供了一定的保障。著作权法对权利人为保护其权利所采取的技术措施和权利管理信息提供了额外的保护,破坏和规避该技术措施和权利管理信息的行为也可被认定为侵权。民法典也明确要求信息处理者采取必要的技术措施防止其收集、存储的信息泄漏、篡改、丢失。在数据价值受到广泛认可的背景下,在数据之上采用了保密管理技术措施时,对该技术措施的规避便可能构成对商业秘密的侵犯。同样,即使数据的财产地位尚不明晰,对其合法控制者所采取的技术措施的破坏和规避,仍有可能因构成不正当竞争而具备可责性。例如,在北京微某网络技术有限公司与广州简某信息科技有限公司等不正当竞争纠纷案中,法院确认原告对依法持有的微博数据享有自主管控、合法利用并获取经济利益的权益,同时认定被告采用欺骗性技术方式非法抓取原告大量后台数据予以存储并售卖获利的行为,构成不正当竞争。

为进一步明确数据持有方的权益,我国《反不正当竞争法(修订草案征求意见稿)》在总结司法经验的基础上,增加了数据专条,拟规定“破坏技术管理措施获取商业数据”和“实质性替代”使用商业数据两种类型的不正当竞争行为。因此,在就AI学习对出版物利用的立法、司法及政策的确定性和指引性尚未明晰之时,出版者自主的技术措施便是一种最值得依赖的维权手段。例如,2023年4月,环球音乐集团要求苹果和Spotify切断平台与其音乐目录的链接,防止AI从其受版权保护的作品中抓取歌词和旋律;社交媒体网站Reddit也正在关闭AI对其数据流的访问并准备推出专门的付费应用程序编程接口;推特将其应用程序编程接口从免费改为付费,从低价变为高价;为防止大规模爬虫数据采集,腾讯进行了多轮反采集的技术升级,采用短时效的URL动态密钥等技术来拒绝机器人的采集请求。AI学习中出版者权益的维护与普通创作者群体版权的维护之间,最本质的区别也正是在于前者往往更有能力应用技术措施来自主维护和管理权利。因此,就出版物数据及出版物服务数据而言,技术维权切实可行。

六、结语

历史上曾多次出现过因新技术的发展和应用导致利益冲突不断,并最终推动法律变革的实例,如印刷机、有线电视、录像机、数字技术等。但是生成式AI是更加颠覆性的技术,在给市场和社会带来巨大机遇的同时,也给先天带有滞后属性的法律制度带来了严峻的挑战。我国出版行业正在经历从传统出版向数字出版、融合出版、智慧出版的转变,智能技术赋能高质量知识服务是大势所趋。但是,在出版行业真正拥抱智慧技术之前,保障作为智慧技术主要“养料”的出版产业在智慧技术冲击下的生存和发展更为紧迫,因此,AI学习训练过程中出版者权益的合理保障应是重中之重。为此,学界应继续加强理论研究,探索构建一个利益平衡的制度环境,力图促成AI产业与出版产业的和谐共生、相互成就。

评论

在线咨询