13910160652
010-52852558
| |EN
首页 > 理论前沿 > 版权
  • 13910160652
  • ciplawyer@163.com

基础模型训练的著作权问题:理论澄清与规则适用

日期:2024-09-09 来源:政法论坛 作者:陶乾 浏览量:
字号:

摘要:人工智能基础模型训练使用作品引发的侵权争议不断发生,对此需要从著作权法的基本法理出发,在解释学视角下进行行为定性和分类分级施加合规义务。从行为主体上,区分数据集创建者和模型开发者;从行为对象上,区分作为内容的作品与作为载体的数据;从行为样态上,将模型训练流程解构为数据准备、数据投喂与机器学习三个阶段。在第一阶段,数据集创建者在使用自有数据、购买第三方数据和抓取公开数据三种情形下对著作权侵权内容的注意义务程度依次减轻。数据集创建者复制作品是否侵权,需区分对待通用数据集和专门数据集,前者在公共利益原则下能够豁免侵权责任,后者因其整体价值与作品价值的重合性,则难辞其咎;在第二阶段,基础模型开发者通过交易行为获得数据集产品时,对数据内容的著作权合规义务有限。其将数据集投喂给模型时,对数据样本中的作品的复制是一种过程性复制,不构成侵权;在第三阶段,机器学习的对象是数据,核心目的是获取表达符号之间的分布规律,未发生对作品的呈现式或演绎式使用。鉴于著作权法意义上的作品使用指向的是“表达性使用”,故这种“非表达性使用”不落入著作权人专有权利的控制范围。


关键词:人工智能;模型训练;注意义务;著作权合规;表达性使用


目录


一、问题的提出

二、数据准备阶段:数据集创建者的著作权合规

三、数据投喂阶段:基础模型开发者的有限义务

四、机器学习阶段:基础模型开发者的非侵权性

结语



一、问题的提出


2023年以来,国内外围绕基础模型产生的著作权侵权纠纷不断发生。我国几位艺术家起诉一款AI绘画软件运营主体使用其作品训练基础模型的著作权侵权诉讼已在北京互联网法院立案。在国外,一些艺术家们、图片公司、音乐发行公司、新闻机构等著作权人也先后发起了对模型开发者的著作权侵权诉讼。在这些案件中,被告一方辩称其使用作品进行模型训练属于合理使用,但是目前在世界范围内,尚无法院对此问题给出定论。


从产业发展的角度,通用人工智能高度依赖大规模的多元化高质量数据作为“养料”。数据集的样本内容、规模和质量影响着通用人工智能的能力训练和结果产出。通过著作权保护来限制人工智能“学习”作品的做法,会增加人工智能产品研发阶段在数据获取方面的成本。面对数据产业涉及的著作权合规困境,一些国家和地区通过立法做出回应。《日本著作权法》将“技术开发或实用实验”“信息分析”和“非享受性使用”作为不构成侵权的三种法定情形。欧盟《数字化单一市场版权指令》引入了附条件的“文本与数据挖掘”侵权例外制度,2024年8月1日生效的《人工智能法案》确认了该制度对于模型训练的可适用性。美国通过转换性使用理论和“四因素”法来评判数据训练阶段的作品利用行为是否落入合理使用。有版权法学者与机器学习专家一起通过假设多个基础模型数据训练场景来详尽地对每个场景进行合理使用判断。


我国2023年8月15日开始施行的《生成式人工智能服务管理暂行办法》要求生成式人工智能服务提供者在开展预训练、优化训练等训练数据处理活动时,使用具有合法来源的数据和基础模型,涉及知识产权的,不得侵害他人依法享有的知识产权。这一条文在适用对象上的局限性使其无法回应基础模型训练的著作权问题,而且,其仅概括性地指出了数据来源合规和知识产权合规,并未给出具体的规则。2024年3月1日,全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》,在“语料安全”中规定了“训练语料包含文学、艺术、科学作品的,应重点识别训练语料以及生成内容中的著作权侵权问题”。这一国家级推荐性技术文件对生成式人工智能服务提供者的要求直接影响到模型训练环节的著作权合规,代表着一种强监管态度。不过,在司法机关处理个案或者行政机关进行行政执法时,模型训练过程中到底哪些使用作品的行为属于侵害著作权,仍需要从部门法中寻找答案,否则上述两份文件无法达到预期的实践运用效果。


就部门法而言,我国《著作权法》第10条规定了复制权、汇编权、信息网络传播权等多项权利,除存在法定例外情形,落入到这些权项定义范围内的行为属于侵权行为。第24条规定的是侵权例外条款,即合理使用条款,但该条采取的是封闭式立法模式,也就是说,个案中,司法机关应该就涉诉行为是否落入法定的13种情形中进行评判。从文义来看,无法通过扩大解释第24条第1种、第2种和第5种情形来生硬地将数据训练阶段的作品使用解释成合理使用。尽管很多学者从立法论出发,建议我国引入“文本与数据挖掘”侵权例外制度,但立法的修改应为最后的进路。在此之前,产业仍需按照现行法律进行著作权合规设计,司法机关也需在现行著作权法下进行规则适用。有鉴于此,有必要在现行法之下、在法官自由裁量的幅度内,从解释论的角度,根据人工智能技术运行机理进行解构式分析,这样能够更准确地认定出每个阶段对应的法律问题与法律风险。因此,应当厘清数据与作品之间的关系,将人工智能基础模型训练解构为数据准备、数据投喂和机器学习三个阶段,将各阶段的作品使用置于著作权法基本法理与现有规则中进行剖析,从而为产业发展过程中的著作权合规问题以及司法实践处理此类纠纷提供创新性思路。这种阶段式划分的关键原因在于,在人工智能产业链条中,数据集创建者与模型开发者并非总是同一主体,所以,在先的数据准备时使用作品与后续的模型训练时使用作品,需要分别进行法律评价。对于模型训练时使用作品,之所以又将其进一步划分为数据投喂和机器学习两个阶段,是因为这两个阶段使用作品的行为表征有所不同。


为论述的便利,本文将用于模型训练的资料涉及的录音录像制作者权、表演者权等邻接权,也统一纳入到著作权里进行分析,即本文采取广义的著作权概念。


二、数据准备阶段:数据集创建者的著作权合规


数据准备阶段是模型开发的重要前置阶段,基础模型的开发离不开大量的数据集合,数据的规模和内容直接决定着模型训练的结果。基础模型所使用的数据集包括开源数据集、付费数据集和自建数据集。在前两种情况下,基础模型开发者与数据集创建者是两个不同的主体。数据集创建者又被称为数据聚合商、数据提供商、语料库提供者。国内外均有大量的专门从事数据收集、管理和标注的经营者,将数据集作为一种可交易的客体提供给不同的模型开发者使用。


数据集创建涉及的著作权问题有二:第一,数据集创建者在选取数据源时,是否需要过滤掉那些本身具有侵权属性的内容,比如,来源于盗版网站的数据样本、属于抄袭剽窃他人作品的侵权内容;第二,在内容本身不侵权的情况下,数据集创建者将作品复制于其数据集之中,是否需要获得著作权人的另行授权。


(一)数据集创建者对著作权侵权内容的注意义务


数据集是由若干个数据样本组成的数据集合。根据数据内容,可分为图像、文本、视频、语音等类型。数据集中的数据样本来源多样,主要分为三种,在经营过程中积累的自有数据、抓取的网络公开数据以及购买的第三方数据。在这三种来源之下,数据集创建者对于著作权侵权内容的注意义务有所不同。注意义务的设定尺度既取决于承担主体的身份,也取决于该义务可实现的程度。


在数据集创建者使用自有数据创建数据集时,需要对数据中的侵犯著作权的内容承担责任。举例来说,创建者是平台型企业,用户上传了大量的盗版内容在平台上,该平台经营者利用这些具有侵权性质的内容来创建数据集,那么,显然数据集创建者复制这些内容的行为构成著作权直接侵权。


数据集创建者采集网络公开数据和购买第三方数据时,从数据集创建者的身份来看,一方面,其并非是网络公开数据中的侵权内容的直接提供者,也不是为直接侵权提供帮助或进行教唆的间接侵权人,而是以特定方式和筛选条件采集公开数据或者购买第三方数据形成数据集的主体,这实际上扮演的是数据使用者的角色,当其后续将数据集进行对外转让或许可使用时,其身份近似于销售商,其在侵权纠纷中是否承担损害赔偿责任取决于其是否有过错;另一方面,数据集创建者将侵权内容汇入数据集,这增加了侵权内容的使用价值,并且在数据集的传播过程中一定程度上也扩大了侵权内容的受众群体,所以,其对数据的内容合规有着类似于网络服务提供者的注意义务。上述身份使得著作权法的避风港规则以及合法来源抗辩规则能够一定程度上类推适用于数据集创建者。从义务可实现的程度来看,对于数据集中所包含的侵权内容,甄别手段包括技术过滤和人工过滤。数据集创建者虽然能够通过技术手段过滤重复性的、格式有误的数据,但是,对于数据内容本身的好与坏,技术无法通过量化的标准进行识别,更何况好坏本身涉及的是价值判断,需要人工审核。即便是使用带有自动标注功能的分类模型,也只能识别出那些包含特定词语或符号的违法信息,却无法对侵犯他人著作权的内容进行精准过滤。数据集中的数据体量巨大,通过人工方式筛选数据内容已变得不再可能。即便具有可行性,数据集创建者的判断也不一定准确。故不宜施加给数据集创建者过高的对内容本身是否侵犯著作权的注意义务。


在数据集创建者采集网络公开数据的情形下,如果侵犯他人著作权的内容是由直接侵权人进行网络公开传播的,数据集创建者不对该侵权内容承担赔偿责任。但是,这种责任豁免存在例外情形。如果数据集创建者明知数据集所包含内容的侵权性质仍将其收录于数据集,无论是将数据集复制于本地服务器供自己使用,还是以开源方式进行信息网络传播或者对外授权使用,数据集创建者均应当停止侵权并赔偿损失。


在数据集创建者购买第三方数据的情况下,有必要施加给数据集创建者以注意义务,要求其对数据中的作品来源合法性问题有事前的合理预见,合法来源抗辩的成立以履行适当的注意义务为前提。


(二)通用数据集与专门数据集的作品复制之差异性


在数据中的作品本身不具有侵权属性的前提下,使用包含作品的数据来创建数据集是否还需要获得著作权人的额外许可?对此问题的回答,取决于数据集对作品的复制行为是否落入到著作权人的专有权利范围内。


数据集是创建者依照特定的标准收集和整合各种信息而成的数据库,只是比传统概念中的数据库要庞大得多,从著作权法的角度,倘若其在内容的选择或者编排上具有独创性,则属于一种汇编作品。根据数据集的创建目的和数据内容,可区分为通用数据集和专门数据集。通用数据集的样本内容具有多样性和综合性的特点,其中既有各种类型的作品,也有不构成作品的信息。通用数据集的价值基于其数据体量和数据维度。专门数据集是包含特定的、专门的、有针对性的内容的数据集合,比如,特定作者的作品、特定历史时期的作品、特定风格的作品或者特定行业领域的数据,此类数据集的规模和体量一般来说要比通用数据集小,专门数据集的价值基于其数据内容和数据质量。对于单一作品而言,其被收入数据集的行为应定性为复制,在被收入专门数据集的情形下,还有可能构成汇编。


通用数据集的数据内容极其庞杂。数据中所包含的单一作品,在价值上,对于整个数据集来说微乎其微;在体量上,更是占据整个数据集的极微小部分。每一个素材的使用相对于最终的大模型形成而言,都贡献很低,具有一定价值上的“低密度性”。那么,此时对单一作品的复制,不宜认定为侵犯该作品的复制权,当然,前提是该作品是公众可以通过公开渠道免费获取的作品。在英美法系的版权法中,存在一种抗辩事由是“微量抗辩”,即便被诉行为构成复制,但这种复制如果过于微小,可以忽略不计,那么不构成版权侵权。正如一句经典的拉丁语法谚所述,法律不处理琐碎的事情。微量侵权行为不值得人们担忧,也不需要法院浪费时间来审理,即便从规范意义上该行为违反了版权法。否则的话,将会爆发海量版权诉讼。“微量抗辩”在美国很多判例中得以确认,既包含原告作品被复制的比例微量这种情形,也包含原告作品整体在被告作品中所占的比例微量这种情形。


从相反的角度考虑,如果通用数据集需要在每个数据样本内容上做到著作权合规,则不仅仅意味着每一个作品的著作权人有权要求数据集创建者支付报酬,而且意味着创建者需要事先向每一个著作权人获得许可,尽管这些作品本就可以公开获取。对于数据集的创建者来说,这样的合规义务过重。在当下的数字时代,数字空间里的作品数量极大,创作主体很多,权利人分散。以互联网上的海量数据作为采集对象的数据集创建者,逐一地甄别每一个作品是否属于公有领域的作品、查找著作权人是谁并且去获取其许可,这是不可能做到的。而且,如果不获得著作权许可就涉嫌侵权,那么,数据集的创建成本将会变高,这势必会影响到数据质量,进而也会限制人工智能技术的发展。此外,掌握着大量作品授权的大型互联网平台会因此受益,相应地,中小型企业却难以承受这么高的数据采集成本,长此以往会导致市场集中,不利于公平竞争。


因此,从许可效率与成本以及公平竞争的角度来看,应允许通用数据集创建者采集互联网上的公开数据来编制那些供机器学习的数据集,无论该数据集是否包含着受著作权保护的作品。著作权法对于模型训练阶段的著作权合规问题的态度,将决定着是改善还是加剧机器学习系统中的偏见,因为如果仅仅以公有领域的作品来作为人工智能的学习素材,那么,这些资料难免过时、不完整且不具有代表性。机器生成内容的质量受数据偏见、算法偏见的影响,运用广泛而全面的数据进行模型训练,能够消除这种偏见。“我们需要鼓励人们编制新的数据集并将其开放以供公众监督或创新。对训练数据集的广泛获取将进一步推进这些目标,最终,使得这些使用机器学习算法的人工智能系统变得更好、更安全、更公平,更全面地惠及每一个人,助力于社会公共福祉的提升。”从公共利益的角度,更全面的数据能够使得人工智能模型的产出更加准确和可信,生成结果的样态更加多元,会有更多的文化产品产生,符合公共利益,也符合著作权法促进文化繁荣这一目标。


在我国著作权法之下,上述“微量抗辩”对应的是侵权情节极其轻微且对著作权人没有损害或者损害极小的情形。尽管涉诉行为落入到著作权人的权利范围,但从比例原则下社会公共福祉与著作权人利益的取舍来看,可将这种行为作为一种停止侵权的例外情形,不判定停止侵权。基于这种“低密度性”使用作品方式对权利人造成的损害微乎其微,且给使用人带来的所得亦极其微弱,所以,使用者亦无需承担损害赔偿责任。基于实现公共利益的需要限制财产权利,是公共利益原则的积极行使。事实上,通用数据集的首要合规事项是数据来源涉及的数据持有者权益问题,而非被包含的单一作品的著作权问题。


然而,不同于通用数据集,专门数据集的创建者的著作权合规义务不能被豁免。创建者有意地定向采集某些作者、某些类型或者某些主题的作品,无论这些作品是否可从互联网上免费获取,当这些作品被汇集在一起构成了数据集的核心价值来源时,作品集合的价值构成了数据集商业化的基础,那么,此时数据集创建者理应获得这些作品的著作权人的授权。此类数据集不仅用于训练基础模型,也可用于训练垂类模型。此类数据集的价值与作品集合的价值产生了重合,这种将作品进行大规模汇集的行为,侵犯了著作权人的复制权或汇编权。当数据集创建完成后,如果数据集创建者将该数据集通过开源方式在互联网上公开,又涉及了对作品信息网络传播权的侵犯。


(三)著作权人“选择退出”机制与事后许可


对于专门数据集所涉及的著作权问题,需要探索适当机制来降低数据集创建者与作品著作权人之间的沟通成本。从未来制度完善的角度,切实可行的方案有两个。第一,采取著作权人声明权利保留的方式来处理对于网络中公开传播的作品的定向采集,该机制被称为“选择退出”。欧盟《人工智能法案》允许著作权人采取“具有机器可读性的声明”来排除自己的作品被用于模型训练。这种声明包括采取技术措施、设置反爬虫协议、设置访问限制等属于行业惯例的方式。欧盟《人工智能法案》要求通用人工智能模型提供者通过先进技术手段来识别出哪些作品的著作权人声明权利保留。事实上,这一义务更应当前置给数据集创建者,这样方能在源头上化解侵权风险。这一机制既符合互联网互联互通、信息自由流动的本质,也兼顾了著作权人的自决权,间接促进了权利人对自身权利的重视。当然,该机制的有效运行需要有技术保障,既需要权利人对其欲想保护的作品采取技术措施来宣示“选择退出”,也需要数据集创建者采取能够读取“声明”的技术。


第二,采取著作权人事后许可的方式来处理对于已经发表但在互联网中尚未传播的作品的定向采集。此时,需要政府通过监管性规则来明确要求数据集创建者公布其数据来源和数据内容提要,从而使得著作权人能够知悉其作品被包含于数据集,并进而决定是否对此予以同意。由于一些数据集不是开源数据集,所以,这一对透明度的要求也可以后置地施加给使用数据集的基础模型开发者、垂类模型开发者或者通用人工智能服务提供者。欧盟《人工智能法案》要求通用人工智能模型提供者起草并公开其模型训练所使用的内容的足够详细的摘要,例如列出用于训练模型的主要数据集,如大型的私有或公共的数据库或数据档案,并对所使用的其他数据来源进行叙述性的解释。欧洲立法不仅会在世界范围内产生示范效应,而且也将会对全球人工智能产业分布格局带来影响。美国国会2024年4月9日发布的众议院提案“生成式人工智能披露法案”也提议,用于生成式人工智能系统的数据集的创建者需要向美国版权办公室作品注册处来披露其数据集中包含了哪些作品。


有学者提出了类似于欧洲“个人复制税”的“人工智能税”机制,生成式人工智能服务的使用者需要交付一笔费用,用以补偿人类艺术作品在人工智能时代受到的冲击,该补偿金制度可以参照录音制品法定获酬权制度。类似的观点还提出在著作权法中增设法定许可情形,允许基础模型可以不经许可使用在先作品,但应向著作权人支付相应报酬。但这样的制度设计并不现实。首先,模型训练所需要的数据中包含的作品量极大,独创性高低参差不齐,如何衡量价值并设定许可价格存在困难;其次,补偿金由服务使用者支付,使用成本增加不利于未来人工智能技术和服务的普及;而且,这种补偿金并不是支付给权利人,而是支付给文化管理机构或者集体管理组织,故还需要考虑后续的分配机制有无以及如何保障公平,这样反而徒增制度成本。还有观点指出,“要求人工智能研发公司就其获取的作品进行登记,再向权利人支付报酬。”然而,互联网环境下作品广泛存在,由于著作权法对于独创性高度的要求很低,所以,网络上的绝大部分内容都可以成为著作权法保护的对象,故这种登记使用机制难以实现。相比之下,由著作权人主导的“选择退出”机制更具有可行性,目前已有产业从业者采取此机制来应对数据集的著作权合规问题,该机制具有成为行业惯例的可能性。


三、数据投喂阶段:基础模型开发者的有限义务


模型开发者获取了数据集之后,接下来的第二个步骤是数据投喂。开发者将数据集以指定的批量大小、顺序等方式加载到模型的开发程序中,模型通过算力来实现特征提取和对数据集的“吸收”。那么,基础模型开发者是否需要对数据集的著作权合规尽到注意义务?是否就此阶段的数据输入行为承担复制权侵权责任?就此问题,不能孤立地讨论模型训练的数据合规和著作权合规,而应考虑到数据与作品之间错综复杂的关联关系。


(一)作品的数据载体性与数据集的商品属性


就基础模型开发者对数据集内容的注意义务这一问题,离不开对于数据、信息与作品三者之间关系的厘清。首先,在计算机系统中,数据是以二进制0和1的数值系统来呈现,数据上承载着信息,是对信息的记录。其次,信息是数据所表达和呈现出来的内容。信息需要载体,若无载体,信息就失去了得以存续和呈现的介质,等同于没有信息。“数据是信息的载体,数字是数据的传输和处理方式。”再次,作品是智力成果,是无形财产,本质上就是一种信息,知识产权本质上是一项被法律创设的对知识信息的权利,所以,作品是信息的下位概念。在互联网空间,作品作为一种信息,以数据为载体。数据与作品之间的关系,就如同物理意义上的有体物与作品之间的关系。


在模型开发者与数据集创建者并非同一主体的情况下,模型开发者付费获取数据集创建者的数据集,数据集由若干个数据样本组成。数据样本上所呈现的内容可能构成作品。对于基础模型开发者而言,此时,数据集是其创建者与模型开发者之间进行交易的一种商品。只要数据集的来源是合法合规的,就不需要再考察组成数据集的每一个样本是否经过著作权授权。这些数据集被用来训练基础模型,模型开发者并不需要去征得这一商品中所包含的作品的著作权人的同意。


但需要指出的是,基础模型开发者付费获得专门数据集时,看重的正是数据集的样本内容和质量,并且,样本的内容和质量很大程度上决定着模型的产出和优劣,并进而影响着模型的价值。那么,模型开发者应当对于专门数据集的内容合规具有一定程度的注意义务,尽最大努力去避免其使用的数据集侵犯他人著作权。这一注意义务应前置于专门数据集的获取环节,而非在后续的使用训练环节。


(二)数据加载过程中对作品的过程性复制


基础模型开发者从本地文件系统或者API接口获取数据集后,将其加载至模型,这涉及到了对数据集整体的复制,进而不可避免地发生了对数据中若干个作品的复制。但是,这一复制并不必然落入著作权人复制权的控制范畴。


在著作权法规定的若干种著作财产权中,复制权是一项基础性权利,正如复制权的英文翻译“Right to Reproduction”所反映的,复制权控制的是对作品表达的再现。由于复制行为是其他一些方式的作品使用行为的必经步骤,所以,复制权在一些场景下会被其他著作财产权所吸收。“传播包括广播、放映和信息网络传播等方式也需要对原件形式进行再现,传播中也存在复制,复制是传播的基础和前提,传播是复制的主要目的。实现传播权必须以复制为必经步骤,所以行使传播权实际上包含了相应的复制内涵”,也就是说,此时,复制权被传播权所吸收。举例来说,在展览馆通过幻灯片的方式再现美术作品时,对作品进行数字化复制是为了放映的需要;在互联网上传播作品时,上传作品产生的复制是为网络传播的需要;将他人作品汇编成编时,复制权被汇编权所吸收。在上述例子中,展览、网络传播、汇编是行为的实施目的和结果,复制是行为实施过程中不可避免的手段,此时的复制就属于过程性复制。在就行为进行判定时,关注的落脚点是在行为结果,而不再考察行为过程中的复制。“著作财产权制度给予权利人的排他性权利指向的是对作品的利用终点,而非那些在使用过程中构成很多步骤的特定行为。”著作权法下行为定性应采取的是结果主义,著作权法意义上的作品使用指向的应当是结果层面的使用,而非过程层面的使用。


著作权法行为定性的结果主义还体现在合理使用和法定许可制度中。以音乐作品再次录制的作品法定许可为例,如果立法所指向的仅仅是复制权的法定许可,那么,对于被许可人来说是没有意义的。实际上,被许可人真正通过法定许可制度所获取的是对复制件的后续发行和传播的许可。


过程性复制,又被称为“必要的复制”“临时复制”“中间复制”。尤其在数字化时代,一些信息网络技术和商业模式在运行过程中,会不可避免地以常规的、自动的和无差别的形式来复制作品。有学者提出了“技术合理使用”的说法,指向技术在预设的功能下对作品的“中间的运行性的复制”。还有学者提出了“复制依赖型技术”,其三大特征是:以非表达性使用的方式复制作品、交易数量巨大、为降低交易成本采取先使用但著作权人可“选择退出”的机制。国外一些法院在判决中认定过程中复制不构成侵权。比如,在著名的“谷歌图书馆案”中,谷歌公司对海量图书进行无差别式扫描的根本目的是为了创建完整的数据库,从而能够实现其向用户提供的准确可信的搜索服务,这是一种不构成侵权的过程性复制。在“反抄袭检测软件案”中,对作品进行全文复制这一行为是为了运行查重软件检验是否抄袭的“必要的复制”。在“世嘉游戏机案”中,被告是视频游戏开发者,在制作反向工程副本时使用了世嘉游戏机软件,法院认为,被告复制原告软件的过程是其访问软件目标代码背后不受保护的思想的必要中间步骤,这一复制的目的是提取有关如何使其视频游戏与世嘉游戏机平台兼容的信息,故这一复制行为是使其视频游戏与世嘉游戏机交互操作所“必要的复制”,不构成侵权。在欧盟法院裁决的一起软件交易案中,软件是一种数字商品,买受人将软件下载和存储到本地磁盘中的行为,不构成侵犯著作权人的复制权,因为此时的复制,是使其能够按合同目的使用其购买的软件的“必要的复制”。这些案件中的复制,都属于为了实现其他结果而进行的过程性复制,是一个被后续行为所涵盖的行为,不需要对其进行单独的法律评价。


我国法院也审理过与临时复制有关的案例。在“中青文诉百度案”中,WAP搜索服务中由于涉及原网页的格式转换,通常会产生对原网页内容的临时存储,这种临时存储网页不具有独立的经济价值,不属于著作权法上的复制或向公众提供作品,不构成侵权。而在“上海玄霆诉百度”案中,被告未能证明其转码后已将服务器中的作品内容自动删除,法院因此认定在其服务器中直接提供了涉案被控作品,构成直接侵权。在“爱奇艺诉爱上传媒等案”中,被告主张将直播数据临时缓存至服务器供用户回看并在一定期限后予以删除的行为属于临时复制行为,但未获法院支持。可见,在我国司法实践中,不构成侵权的临时复制行为以“复制后自动删除”“基于技术需要”“不具有独立的经济利益”这三项为必要条件。


基础模型训练时对于数据集中作品的存储就是一种过程性复制。而且,这一过程是纯粹的内部复制。当文本、图像或视频等数据样本被“投喂”给基础模型之后,基础模型并不是原封不动地进行存储,而是需要进行数据标准化处理,将其格式转化为机器可识别的格式,从数据中导出参数并将其存储为数值,进行概率计算,从而得出字符、音符等这些表达符号之间的规律,比如结构、词频、句法、符号与符号之间的关联关系。在概率计算中,越是通用的规律,越容易被模型提取。算法不断地计算着大量的数值,并且不断地用新数值覆盖之前的数值以便节省内存。所以,孤立地考察这一阶段的复制是否侵权是没有法律意义的,也不必去考察这一阶段的“数据降噪”是否删除了作品电子管理信息,我们应当将考察的焦点落在第二环节的作品使用目的之上。也就是说,通过复制,基础模型开发者所要达成的目的是什么。


四、机器学习阶段:基础模型开发者的非侵权性


开发者进行数据“投喂”的目的在于通过机器学习进行模型训练,这是上文所述的过程性复制的目的和结果。模型训练需要对数据集进行文本与数据挖掘,机器学习是文本与数据挖掘的一种最重要的方法。模型训练过程中对于数据中所包含作品的使用是否侵权,这是需要进行法律评价的关键所在。此时,需要结合基础模型数据训练的特点,判断机器学习是否属于著作权法意义上的作品使用行为。


(一)著作权法意义上作品使用的表达性


基础模型通过“学习”海量作品来掌握表达符号之间的规律,那么,这种行为是否落入到著作权人的专有权利范围内?对此问题,必须先澄清何为著作权法意义上的作品“使用”。有观点指出,现行著作权法理论所采用的“侵权使用——合理使用”的二元结构存在问题,首先应当先将“使用”区分为“作品性使用”与“非作品性使用”,然后在“作品性使用”中,再来讨论“侵权使用”与“合理使用”的问题。本文对此表示赞同。


根据著作权法的基础理论“思想与表达二分法”,著作权法保护表达,而不是思想。作品需要以一定形式表现,因为只有能够以一定形式表现,才能够被人类所理解和欣赏。正因如此,人们所理解和欣赏的对象也正是作品中的独创性表达。那么,著作权人的权利所控制的行为就自然地应当是对表达的使用,而非对思想的借鉴或者对事实本身的使用。


著作权法意义上的使用,指向的是“表达性使用”,又称为“作品性使用”“展示性使用”,是对作品中的独创性表达的直接或间接再现。根据作品使用的表达性这一特征,可将作品使用行为分为两大类。第一类是呈现式使用,通过复制、发行、出租、表演、放映、展览、广播、信息网络传播等方式将作品中的独创性表达直接呈现出来,被人所欣赏和理解;第二类是演绎式使用,通过改编、汇编、翻译、摄制等方式将作品中的独创性表达进行演绎式的间接再现。无论是哪一种,均是向公众传播作品,使得公众欣赏作品中的独创性表达,从而获得精神享受。著作权法给予著作权人的经济权利之所以旨在控制上述对作品的使用,是因为上述使用方式能够产生经济利益,而该经济利益来源于作品。所以,也有学者从作品传播的消费端的角度,将“表达性使用”称为“消费性使用”“享受性使用”。与之相反,当对一部作品的使用方式并没有触及作品表达,并未产生使用者对作品中的表达的理解和欣赏,那就属于“非表达性使用”或称“非享受性使用”,对应的是那些不是为了自己享受或者使他人享受作品中所表达的思想或感情的作品使用情形,此时,不构成著作权侵权。


“表达性使用”还体现在实质性相似的判断方法以及“表达性替代”理论中。抽象过滤比对法是实质性相似的最重要的判断方法,在抽象环节,将思想排除出保护范围;在过滤环节,将不受保护的在先表达、通用表达、事实、公有领域内容等排除出保护范围;在比对环节,对两部作品经过滤后所剩下的表达进行比对。著作财产权侵权之所以采取实质性相似标准,正是因为被告作品与原告作品实质性相似的表达,产生了对原告作品的替代效果,影响或侵蚀了原告的经济利益。然而,“非表达性使用”则不会产生“表达性替代”,未影响到著作权人基于作品传播本应获得的利益。


从知识产权法的根本宗旨与制度价值来看,其并不仅仅是在激励创作创造,而是通过作品利用,实现知识的传播、人类的文化发展与科技进步。著作权法追求的目标是,激励创作者产出知识、产业界传播知识、使用者获取知识并且产出新知识。著作权法的若干权限中并没有著作权人对其作品享有的“接触权”“学习权”,因为公众有着学习作品中知识的自由,这属于公众文化权利的一部分。相反,接触权概念的提出是从使用者的角度,是公众利用他人智力成果来获取知识、接触信息的一种权利。将著作权法意义上的作品使用限定在“表达性使用”,这与我们理解商标法意义上的“商标性使用”同样重要,因为这是划定知识产权保护范围与公众信息自由与表达自由之间界限的关键。如果将“非表达性使用”纳入到著作权控制范围,会不当扩大保护范围,阻碍文化艺术领域的创新。无论是从权利的逻辑还是从实用主义的角度,非表达性、非消费性的作品复制,不应当被纳入到作者权利的边界内。


英美法系版权法合理使用制度的四个参考因素,能够起到对权利保护范围的灵活调节作用,其中第一个因素“对版权作品的使用的目的或性质”能够将“非表达性使用”排除在侵权之外。但是,大陆法系著作权法采取的是著作权限制制度,通过立法来明确规定什么情况下著作权人的禁止权无法行使。这种方式的灵活性不足且难以穷尽所有不侵权情形,那么就更需要在权利内容制度中明确著作权人可以控制何种作品使用行为。故在思想表达二分法的基础法理之下,将著作权法意义上的作品使用限定为“表达性使用”就显得极为关键。在德国联邦最高法院审理的多起著作权侵权案件中,法院对涉诉行为是否是“享受性”进行评判。《日本著作权法》明确地将非享受性地使用作品排除在侵权之外,但根据作品的种类及用途,涉案作品利用方式会对著作权人利益产生不当损害的除外。这一做法是考虑到了技术创新为信息收集、处理和传播带来的便利性以及对数据进行组合和分析所能够产生的价值。日本学术界普遍认为,该制度适用于人工智能模型训练中的作品使用,据此,日本被称为机器学习的天堂。有观点指出,相比于合理使用规则,《日本著作权法》规定的“非享受性”规则与大陆法系的著作权观念更契合。从我国《著作权法》的规定来看,无论是第10条规定的著作财产权,还是第52条、第53条所列举的侵权行为,均在语义上指向对作品的“表达性使用”。


在传统著作权法下,由于有形载体之上的物权与载体之上的知识产权能够有效区分,并且分开行使,所以,对载体的使用与对作品的使用,可以明显区分。比如,去复印一本图书,目的旨在复印书中的内容,即作品;但若拿一本书去打人,目的旨在使用图书,与书中内容无关。由于上述有形之物与无形财产之间的泾渭分明,人们可以很容易界定一个使用行为所使用的是作品中的表达还是作品的载体。从复制的角度看,在传统著作权法下,除非为了讨论借鉴与抄袭的区分,否则并没有应用价值去探讨何为“非表达性使用”,因为作品被有形载体所承载,人们对该载体的复制,基本上均是为了获取作品中的表达这一目的,并不存在非表达性的复制。然而,当视角转换到数字时代,作品以数字化的形式存在于硬盘或者网络服务器中时,网络空间中对作品的复制无时无刻不在发生。数据是作品的载体,作品的无形性与载体的无形性产生重叠,对作品的使用与对数据的使用混为一体。此时,在个案中,区分“表达性使用”与“非表达性使用”就变得更加重要和迫切。


在互联网中,搜索引擎是使用数据而非使用作品的典型例子。搜索引擎接受用户输入的搜索词之后进行检索时,会从互联网的海量数据中进行不断的数据抓取,并对其抓取的网页进行缓存,通过算法最终形成列表式的搜索结果。搜索引擎在进行抓取和呈现时,只关心搜索结果与搜索词之间的匹配程度,而并不关心数据上承载的作品中的表达是什么。与此类似,一些数据库服务商提供的论文查重服务的运行逻辑也是基于数据的匹配。查重软件将一篇论文的文本与其检索库中的海量数据作比对,得出哪些语句与比对库中的数据重复,在这一过程中,并没有发生对比对作品与被比对作品的“表达性使用”。这也就能解释为什么查重软件无法检测出“洗稿”“融梗”“换皮”,因为它无法像人类那样具有感观,无法理解作品的表达,而只能核对数据与数据的匹配。有观点指出,数字化将作品变成“去物质化”的“内容”,大数据将内容变成“去智力化”的“数据集合”,脱离了人类对内容的可理解性,变成了机器对数据的可分析性。


(二)基础模型数据训练的“非表达性使用”


模型训练阶段的作品使用是否侵犯复制权,需要经过是否属于“表达性使用”的检验。首先,人工智能关注的是数据,而不是作品。对于人工智能而言,无论是什么作品,都不过是一些数据而已。当人工智能进行模型训练时,其抓取的、识别的是数据,而其完全不关注数据里是否有作品,更不会去关注该作品的独创性高低。对于基础模型训练来说,一幅具有较高独创性的艺术写真照片与一张普通的证件照的作用和价值大同小异。


其次,模型的数据训练旨在让机器掌握文字与文字、美术元素与元素之间分布的规律,这种规律不受著作权法所保护。有学者就数据训练的作品使用与内容输出之间的关联假设了七个场景,并认为其中部分场景的机器学习过程是一种“演绎”,这种观点并不正确,因为不管作品使用与内容输出之间的关联如何,模型训练的过程并非是著作权法意义上的将思想与情感通过符号进行表达的创作过程,那么就不能将机器学习称为是“演绎”。


再次,人工智能使用数据,其不可能像人类那样去理解作品中的感情,不像人类消费者那样享受作品。举例来说,机器学习一张人物照片,并不是在欣赏这张摄影作品所带来的艺术美感,而是在学习人的五官结构与比例,通过计算表达符号与符号之间的关联概率来形成表达范式。在投喂给人工智能模型大量的人物肖像图之后,给模型输入一张人脸主要部分被遮住的图片,要求其优化该图片,那么,人工智能会补全脸部器官。这种补全,并不是人工智能在进行“创作”,而是其在几万亿参数中根据其计算出来的表达范式来生成的一种概率的耦合。所以,在模型训练阶段,作品只是机器获取相关知识的工具,作品的表达性特征并没有被使用,也没有公众在这一阶段能够直接享受作品。“输入阶段的数据挖掘,意味着对已有作品自动化、批量化地‘阅读’”。这一阶段的作品使用,是非消耗性的,既非对作品的呈现式使用,也非对作品的演绎式使用。著作权并不适用于那些“不指向供人类享受、欣赏或理解表达的复制行为”。在无法接触到作品的表达价值的情况下复制作品中的信息范式,与把一本载有受版权保护的文学作品的图书当作门掩一样,是一个与著作权法毫不关联的物权法意义上的行为。既然数据训练阶段的作品使用不属于著作权法意义上的使用,那么,就没有必要再去回答是不是合理使用了。


同样是站在“表达性使用”与“非表达性使用”的区分这一视角,有观点得出了与本文完全相反的结论。“机器学习并不是从作品中获得不受版权保护的事实,而是从人类作者表达思想的具体方式中获取有价值的信息,能够体现出作者个性化表达的那些特征被提取和模仿,个性具有可版权性。”但这实际上是将属于思想层面的风格不恰当地纳入到著作权保护范畴;还有观点将机器学习区分为非表达型、大众表达型和个人表达型,并认为后两种是“表达性使用”。“人工智能创作”对于数据作品的使用显然属于“表达性使用”。本文对上述观点并不赞同。无论模型训练的目的是什么,其背后的技术逻辑是一样的,本质上都是从数据中计算出概率,形成表达范式,无论是模型本身还是模型背后的开发者,都未产生对作品中的表达的理解和欣赏,模型训练并非是将数字化的内容作为作品进行使用,而是将其作为数据来使用,该行为并不应当落入到著作权的控制范畴。有质疑观点指出,“这种‘非表达性使用’的逻辑存在悖论,即人类读者做同样的事情会被判为侵权,而换成‘机器读者’,则变成了合理使用的英雄。数字人文主义者可以肆无忌惮地浏览一百万本书,而精读几本书的人文主义者则必须为自己的书支付费用。”实际上,这种意见忽视了作品与数据的关系,作品是信息,数据是信息的载体。无论是“机器读者”,还是人类读者,都需要为载体支付对价,除非该载体是公开和免费的。


可能有人会说,模型训练不是终极目标,应该将模型训练和内容生成放在一起去进行法律评价,要根据人工智能的输出结果是否侵权来做法律定性。本文对此表示反对。经过数据训练而得到的基础模型,可以被独立地作为一个产品或服务进行对外许可授权使用。所以,在关于基础模型训练的著作权问题的讨论中,数据投喂是过程性的复制,对机器学习进行定性就是法律评价的终点。至于在模型应用阶段,生成式人工智能服务提供者使用基础模型进行内容输出,则是需要单独进行法律评价的下一个行为。本文并不是在回避模型输出的内容存在侵犯著作权的风险,而是将模型训练与模型输出两个阶段进行责任切割,本文仅分析前一阶段,后一阶段不在讨论范围内。


结 语


人工智能基础模型训练的著作权问题,已经成为一个全球性的话题。各国对此问题的处理态度,关乎着作品数据的国际化流动与价值开发以及各国在人工智能领域的国际竞争。基础模型的开发是发挥数据要素使用价值的直接方式,是科技成果转化与商业模式创新的实现路径。各国的立法者和监管层均需考虑在人工智能时代如何给基础模型的开发营造有利的制度环境以促进创新。互联网的无国界性和数据产业的全球性使得各国需要考虑人工智能相关制度的国际一致性,无论是率先探索引入“人工智能税”还是率先通过司法裁判来给产业下达著作权合规紧箍咒,都会对本土产业产生寒蝉效应。“规制先行,固然体现了监管部门的敏锐,但对产业发展造成的影响也要认真衡量。面对处在快速发展阶段的生成式人工智能基础模型,立法与监管部门必须以更大的谦抑,表达出对市场、创新和产业自主性的尊重。”


我国目前人工智能产业发展仍面临着数据集供应不足、质量不高、多样性匮乏等情况,有必要探索合适的方式来减少我国人工智能产业发展中的数据获取方面的著作权授权阻碍,减轻我国人工智能企业在国际竞争中遭受国内法对其的著作权合规束缚。我国《生成式人工智能服务安全基本要求》将“训练语料以及生成内容中的著作权侵权问题”置于“语料安全”中并对生成式人工智能服务者提出相应要求,该做法是否恰当仍需要从著作权法的法理上进行更审慎的思考。


随着人工智能技术的突飞猛进,人工智能生成内容将会逐渐成为其进行自主学习的主要数据资源。一些基础模型已经不再需要去复制数据集就可以完成模型训练。在计算机科学领域,技术人员正在研究如何让人工智能输出阶段的产出内容不侵犯人类作品的著作权。“既然数据模型和算法已经能够使人工智能生成的内容在形式上与人类创作的作品难以区分,在此基础之上研发新技术防止人工智能生成的内容‘抄袭’他人作品也并非不可能。”也许,不久的将来,我们当下所讨论的模型训练的著作权侵权问题将不再是问题。现在并不应急于进行监管式立法,而应当在著作权法的现有框架下,在个案中,由司法机关根据模型开发过程中各个环节的作品使用目的和方式来进行判断,运用基础法理来确定侵权与否,划定数据集创建者与模型开发者版权注意义务的边界,从而为技术开发与产业发展提供指引。