13910160652
010-52852558
| |EN
首页 > 理论前沿 > 版权
  • 13910160652
  • ciplawyer@163.com

人工智能创作中数据获取与利用的著作权风险及化解路径

日期:2023-09-04 来源:《当代法学》 作者:焦和平 浏览量:
字号:

内容提要:数据获取与利用贯穿人工智能创作全过程。基于表达性使用的特点,人工智能创作使用数据作品面临著作权侵权风险,且难以适用合理使用规则。基于传统许可模式难以满足数据规模化利用的现实考量以及促进文化艺术繁荣的公共政策考量、维护公平竞争的市场秩序考量、促进人工智能技术发展的国家战略考量并借鉴域外立法,建议在立法上增设“人工智能创作”合理使用类型。此种合理使用类型的适用主体应当涵盖所有为人工智能创作而使用数据的科研机构和企业,并不以非营利目的为适用条件,适用行为包括复制、改编、广播和信息网络传播四种。


关键词:数据获取与利用;人工智能创作;著作权侵权;合理使用


目次


一、问题的提出


二、风险缘起:人工智能创作中的数据获取与利用


三、风险评估:解释论下人工智能创作利用数据之侵权分析


四、风险化解:将人工智能创作利用数据纳入合理使用的价值考量


五、制度回应:人工智能创作使用数据纳入合理使用的规则设计



一、问题的提出


随着人工智能技术的快速发展和广泛应用,近年来,由人工智能自主创作诗歌、小说、美术、音乐等已不再是新鲜事情。如同人类作者创作需要已有文献资料作为创作素材一样,人工智能创作也需要创作素材来“喂养”,这些创作素材是以数据形式表现的各种数字化作品。作为智能化的信息处理技术,人工智能创作需要将作为创作素材的海量作品转化为机器可识别的数据导入人工智能系统中,形成庞大的内容库供机器学习使用,并在此基础上经过对算法的设计、验证和测试,使计算机自主生成在外观上与人类创作具有同样独创性的作品。可见,人工智能创作高度依赖于对已有数据作品的大规模利用。根据著作权法的一般原理,任何人使用他人处于权利保护期内的作品,都应当通过订立合同取得授权并支付费用(除非属于著作权的限制与例外情形,例如合理使用或者法定许可),否则属于侵害著作权的行为。由此便提出人工智能在创作过程中获取和利用数据时所面临的著作权侵权风险问题,这一问题如果不能妥当地予以解决,将不可避免地使人工智能创作的作品一经生成便背负上侵权“原罪”,从而影响该作品的后续传播与使用,最终阻碍人工智能技术的广泛应用和社会文化艺术的繁荣发展。


与人工智能创作不断繁荣的图景相比,当前在解决人工智能创作中获取与使用数据的合法性问题上面临诸多困境:立法上,2021年6月1日实施的新修订的《著作权法》(以下称现行《著作权法》)关于著作权限制与例外的条款并未就此问题作出明确回应,使得这一问题在现行立法框架下如何解决仍缺乏规范依据;司法上,在我国已经发生的两起因人工智能创作引发的著作权侵权纠纷中,当事人及审理法院仅将人工智能的创作结果是否属于作品及其著作权归属作为争议焦点,对于人工智能创作所使用的数据来源是否合法则未予关注;理论上,当前关于人工智能创作的诸多研究中,多数文献将讨论重心聚焦于人工智能创作结果的可版权性及权利归属上,对于人工智能创作来源的合法性问题则关注不多。近期与此有关的研究文献中,有的以“合理使用制度的整体重塑”为关注对象,有的则以“文本与数据挖掘”为讨论视角,直接从人工智能创作视角关注数据作品获取与使用的著作权风险的研究仍为数不多。立足于此,本文将深入分析人工智能创作中数据获取与使用的著作权风险缘起,充分评估人工智能创作中获取与使用数据的风险类型,在此基础上借鉴国际立法并结合中国实际探寻科学、合理、务实的化解之道,希冀有助于深化人工智能创作的知识产权问题研究,并借此推动人工智能技术应用和文化产业发展。


二、风险缘起:人工智能创作中的数据获取与利用


(一)数据获取与利用贯穿人工智能创作全过程


首先是数据的获取与输入,这一环节也可称为“机器阅读”。同人类作者创作一样,人工智能创作首先也需要获取海量的创作素材;但同人类作者创作不同的是,人工智能创作所需的创作素材已不再是传统形式的文本、图像、语音、视频等,而是以数据集表现的数字化作品。由此决定了人工智能创作必须首先建立在数据的获取与输入基础之上,即从外部收集和提取数据并输入人工智能系统中形成数据副本,以此建立相应的数据内容库供后续机器学习之用,此阶段即为人工智能创作的“机器阅读”环节。由此可见获取数据对于人工智能创作的重要性,正如有学者指出的,“海量数据之于 AI 创作,就如无数的语言词汇之于一部名篇巨著”。据微软公司的人工智能研发人员介绍,世界上第一部百分之百由人工智能作者“小冰”于2017年创作的诗集《阳光失了玻璃窗》,就是人工智能在学习了500多位诗人的现代诗后,经过上万次训练最终创作而成。从这一意义上讲,数据作品的获取与输入是人工智能创作的基础和前提。


其次是数据的处理与分析,这一环节也可称为“机器学习”。人工智能的核心竞争力就在于其具有强大的自主学习能力,这种自主学习能力主要体现在机器的深度学习上。深度学习可以通过算法从原始数据中提取模式并自动构建特征,使机器可以在无人类干预的情形下从数据中发掘出有价值的内容。具体表现为,人工智能系统通过对大量已有数据作品进行分类和整理,分析这些作品所表达的思想感情、所采用的语言特征、所特有的表达风格等,从中抽取和提炼出这些作品的规则、模式、结构、趋势,再将这些规则和模式应用到具体创作场景之中,其后通过自我观察,独立地、持续地改进和优化其分析和处理过程。机器学习几乎垄断了人工智能领域里所有流行的技术方向,也是人工智能创作得以完成的核心,甚至可以说“无学习,不 AI”。美国微软公司与荷兰国际银行合作开发的“下一个伦勃朗”人工智能创作项目,就是通过收集荷兰画家伦勃朗的大量作品,通过深度学习伦勃朗绘画的风格从而“发现”了伦勃朗作品的典型特征和创作规则,最终利用这些特征和规则创作出模仿伦勃朗独特风格的原创绘画。从这一意义上讲,机器学习过程就是数据作品的处理与分析过程。


最后是数据的生成与传播,这一环节也可称为“机器输出”。经过上述数据输入和自主学习两个环节后,人工智能已经能够构建出解决不同目标任务所需要的函数模型算法,此时只要人工智能使用者向人工智能系统发出创作的要求和指令,人工智能系统就会通过算法对任务进行处理,最终生成相应的学习结果并予以输出。由此生成的结果可以达到人类作品的独创性,有些甚至比人类作者创作的作品更具有艺术价值。例如继2017年自主创作出诗集《阳光失了玻璃窗》后,微软“小冰”2019年7月又在中央美术学院美术馆举办了全球首个人工智能个人画展“或然世界”,展出的画作都是“小冰”历经22个月对过往400年艺术史上236位著名画家绘画作品学习后,独立完成的100%原创绘画作品。美国罗格斯大学(Rutgers University)的一项研究表明,在未披露真实信息的情形下,一些受访者不仅无法区分人工智能创作的作品和人类作者创作的作品,甚至认为人工智能创作的绘画在视觉结构和灵感方面更具有艺术性。


(二)对数据的“表达性使用”使人工智能创作面临著作权侵权风险


在商标法的理论与立法中,对商标符号的使用可以分为“商标性使用”与“非商标性使用”,并由此产生不同的法律后果:前者是认定商标侵权成立的前提,后者则是商标不侵权抗辩的依据。在著作权立法中虽未有类似的直接规定,但理论上亦有如此的分类方法。有学者提出了“非展示性使用”与“展示性使用”的概念,另有学者提出了“非表达性使用”与“表达性使用”的概念,还有学者提出了“作品性使用”与“非作品性使用”的概念。本文采用“非表达性使用”和“表达性使用”这一对表述。所谓“非表达性使用”,是指使用原作品的目的并非为了利用其具有独创性的表达,而是将其作为一种事实性信息进行功能性利用,在使用结果上也未再现原作品的艺术价值;“表达性使用”则是指使用原作品的目的在于利用其独创性表达,从而在使用结果上也再现了其艺术价值(无论是“原样再现”抑或“改编再现”)。将对作品的使用作如此区分的意义在于,“非表达性使用”与“表达性使用”基于行为性质的不同会产生迥异的法律后果:在“非表达性使用”情形下,因使用行为并非以再现作品的独创性表达为目的,亦未产生可能与原作品具有竞争性的替代作品,故“不会影响原作品的正常使用,也不会不合理损害权利人的合法权益”,从而可能成为不侵害著作权的抗辩理由;而在“表达性使用”情形下,由于后续行为使用的是原作品中的独创性表达,并在此基础上形成了与原作品相关联、甚至可能替代原作品的新作品,从而可能“影响原作品的正常使用”或者会“不合理地损害原作品权利人的合法权益”,使其面临著作权侵权风险。


国内外均有将“表达性使用”与“非表达性使用”理论适用于司法实践的案例。在“美国作家协会诉谷歌公司著作权侵权纠纷”一案中,被告谷歌公司将原告享有著作权的大量图书进行全文扫描用于建立“谷歌数字图书馆”,同时向社会公众提供这些数字化作品的关键词搜索及片段性内容。美国联邦第二巡回上诉法院认为,被告实质上是将原告的作品作为一种数据统计工具进行使用,在使用目的上具有转换性,构成合理使用。该案中,被告谷歌公司的行为之所以被认定为合理使用,是因为其复制图书的目的不是为了向公众提供图书的全文内容,而是通过提供关键词搜索和展示小片段内容给公众提供一种事实性信息,便于公众进一步查寻图书相关信息,发挥其信息检索功能,该种使用即为“非表达性使用”,不会对原作品产生实质替代。在我国上海知识产权法院审理的“上海美术电影制片厂诉浙江新影年代文化传播有限公司著作权侵权纠纷”一案中,被告在其拍摄的电影《80后的独立宣言》的宣传海报中使用了原告享有著作权的“葫芦娃”“黑猫警长”美术形象。针对被告此种使用行为的定性,法院认为,被告在电影海报中使用涉案作品不是为了单纯地再现其艺术美感,而是为了反映“80后”一代曾经经历过的、伴随其成长的“葫芦娃”“黑猫警长”动画片热播的时代特征,属于转换性使用,并不影响涉案作品的正常使用,也未不合理地损害权利人的合法利益,构成合理使用。该案中法院所称的“转换性使用”即是一种“非表达性使用”,因为被告只是将“葫芦娃”“黑猫警长”作为80年代的时代符号,从而唤起人们对那个年代的特殊回忆,其艺术性和审美价值到底有多高在所不问,因此不会有人将电影海报当作“葫芦娃”“黑猫警长”的替代品,该电影海报也就不会对“葫芦娃”“黑猫警长”美术形象的版权市场构成竞争。


人工智能对数据作品的使用也有“表达性使用”和“非表达性使用”之区分。例如为了运行人脸识别智能系统而使用人脸照片就是一种“非表达性使用”,该智能系统使用的是照片中人脸的生理特征元素,而并非照片中具有独创性的元素(例如选择人物的光线、角度、色彩等)。本文所探讨的“人工智能创作”对于数据作品的使用显然属于“表达性使用”,实际上“创作”一词本身已经清晰表明,人工智能使用数据作品的目的是为了“创作”。由此意味着人工智能对于数据的使用并非针对原作品的事实性信息,而是其中的独创性表达;使用的结果也并非实现了所谓目的性或者功能性转换,而是形成了与原作品有关联的“新作品”,正是在这一意义上,人工智能创作对于数据作品的使用属于“表达性使用”。实践中这样的例子并不少见,例如由音乐制作公司 Technologie 开发的人工智能系统 AIVA 通过深度学习大量作曲家创作的音乐,能够为电影、视频游戏、商业广告和任何类型的娱乐内容创作配乐,由于其配乐效果丝毫不亚于专业音乐作曲家, AIVA 还因此得到法国作曲家协会(SACEM)的资格认证,成为人工智能领域首个获得国际认证的虚拟作曲家。正是基于人工智能创作对于数据作品的“表达性使用”,其难以适用前述“谷歌数字图书馆案”和“《80后的独立宣言》宣传海报案”中的“转换性使用”合理使用抗辩,从而面临著作权侵权风险。


三、风险评估:解释论下人工智能创作利用数据之侵权分析


(一)人工智能创作利用数据可能侵害的权利类型


1.复制权侵权风险


首先是数据获取与输入环节的复制权侵权风险。在人工智能进行深度自主学习之前,需要将作为创作素材的作品进行数字化处理并转换为适合“机器阅读”的标准数据格式。一般而言,完成这一过程有三种路径:一是将非数字格式的作品转化为机器可读的数字格式。例如将图书进行扫描并数字化转化为机器可读的数据信息。二是直接在互联网上抓取已经数字化的数据作品。三是将已经数字化但格式上不兼容的数据进行标准格式的转换。上述三种方式都是对已有作品在不改变内容情形下所进行的全文复制和原样再现,并且存储在机器中形成永久复制件,属于著作权法上的“复制”行为,存在侵犯复制权的风险。如果说在2021年6月1日之前,要将数字化复制行为纳入我国《著作权法》中复制权的控制范围,尚需对原《著作权法》第10条第1款第(一)项中的“等”字予以扩大解释的话(该项列举的7种复制类型并无“数字化”方式);那么在2021年6月1日现行《著作权法》实施后,则无需进行扩大解释,仅依文义即可将所有数字化复制行为直接纳入复制权的涵盖范围,因为现行《著作权法》在原有7种复制类型后专门增加了“数字化”复制方式。


其次是作品输出环节的复制权侵权风险。根据“接触+实质性相似”的著作权侵权判定规则,如果人工智能最终输出的内容与之前所使用的数据作品存在实质性相似,则同样可能会侵犯复制权。与前述全文复制或原样再现不同的是,此种“实质性相似”判断还要受到“思想/表达二分法”原则的限制,如果构成实质性相似的是思想而非表达,则难以构成著作权法意义上的复制。例如,人工智能提取某一位特定作者的所有作品,通过数据处理掌握该作者的作品“风格”,从而能够模仿这一“风格”进行创作,即使创作结果与该作者的“风格”构成了实质性相似,但并非必然构成侵犯复制权,因为风格更接近于思想,有可能基于“思想/表达二分法”原则而被排除出作品保护范围。索尼实验室2016年开发的 Flow Machines 人工智能系统,以披头士乐队的风格创作的《爸爸的车》(Daddy’s Car)音乐旋律就属于思想上的实质性相似。正是由于人工智能创作在使用数据作品时可能会侵害复制权,欧盟立法和日本立法都将人工智能对于数据的使用规定为复制权的例外(具体内容后文详述)。


2.改编权侵权风险


人工智能利用数据作品进行创作的结果中无非有三种情形:一是创作结果属于与原作品完全不同的全新作品;二是创作结果属于与原作品实质性相似的作品;三是创作结果属于在保留原作品基本表达基础上形成的具有独创性的新作品。第一种情形是著作权法所积极鼓励的作品利用方式,不仅不侵权而且符合著作权法“鼓励作品创作与传播”的立法目的。在第二种情形下,如果实质性相似的是表达,则构成侵犯复制权;如果实质性相似的是思想,则不侵犯著作权。第三种情形则属于改编行为,存在侵犯改编权的风险,因为改编权控制的正是“改变作品,创作出具有独创性的新作品”的作品利用行为。


在人工智能创作中,如果最终输出的生成内容虽具有一定的独创性,但仍然保留了数据库中某一作品或者某些作品的基本表达,应属于改编作品,此种创作行为如未经许可并支付报酬则可能侵害改编权。有观点认为,将此种情形下人工智能的创作结果视为演绎作品的说法并不十分准确,理由是人工智能创作“不是实质性地以某个作品为基础所进行的再创作,不是对某个作品的演绎”。实际上,从人工智能创作对已有数据的利用来看,可以分为“利用同一人作品”进行创作和“利用多数人作品”进行创作两种情形:前者如微软公司开发的“下一个伦勃朗”人工智能系统,通过深度学习伦勃朗346幅画创作出了与伦勃朗风格相似但又具有独创性的绘画作品;后者如微软“小冰”深度学习1926年以来500多位诗人的现代诗创作了《阳光失了玻璃窗》。这两种情形都是利用已有作品创作出新作品的情形,如果被学习的作品仍在著作权保护期限内,则都属于侵犯改编权的行为;区别在于前者侵害了同一作者数个作品的改编权,后者侵害了不同作者各自作品的改编权。正是由于人工智能创作在利用数据作品过程中可能会侵害改编权,日本立法将人工智能对于数据的使用规定为改编权的例外(具体内容后文详述)。


3.传播权侵权风险


传播权并非我国《著作权法》所明确规定的财产权利,是学理上对那些不依赖于作品有形载体的移转而以无形方式传播作品所产生的权利的概括。在我国现行立法中,传播权包括表演权、放映权、广播权和信息网络传播权。人工智能创作涉及的传播权侵权风险主要是信息网络传播权和广播权,表现在人工智能创作的输出环节:若将机器学习的数据分析结果通过网络即时公开发布,可能会侵犯作品广播权;如果延时发布,则可能侵犯信息网络传播权。已有学者注意到人工智能创作输出环节存在的传播权侵权风险问题,例如有观点提出,“一般来说,为了进行数据挖掘或机器学习,或者为了实现研究结果的可验证性,需要将数据或文本通过互联网进行传输,可能涉及侵犯向公众传播权”。还有观点认为,“目前多数发布途径均包含网络发布环节,无法有效规避信息网络传播的侵权风险”。正是由于人工智能创作在使用数据作品中可能会侵害传播权,为了避免此种侵权风险,《日本著作权法》于2018年修订时专门增加了“提供新的知识和信息”的著作权例外条款,根据该条规定,如果是为了提供新的知识或者新的信息,通过计算机对作品进行信息处理,可以将处理结果向公众提供(进一步分析详见后文)。


(二)人工智能创作利用数据侵权豁免之困境


著作权法上的侵权豁免理由一般有合理使用、法定许可和强制许可三种类型。我国现行立法中尚无强制许可制度,法定许可规则所确定的四种类型也难以适用于人工智能创作场合,以下几种合理使用情形最有可能作为侵权抗辩依据。


1.人工智能创作与“个人学习、研究”


根据我国现行《著作权法》第24条第1款第(一)项的规定,“为个人学习、研究或者欣赏,使用他人已经发表的作品”可以不经著作权人许可亦无需支付报酬,此即为我国立法上的 “个人使用”合理使用类型。人工智能创作需要对数据作品进行学习和研究,似乎在文义上属于“个人使用”合理使用类型中的“学习”“研究”范畴,但仔细分析后可发现,人工智能创作并不符合该条款的规范意旨,从而难以适用该规定进行合理使用抗辩。理由如下:其一,从主体要件来看,“个人学习、研究”中的“个人”通常限于自然人,人工智能创作中使用数据的行为主体为人工智能系统,并非自然人,而控制人工智能创作系统的主体也是具备一定技术条件和物质条件的组织机构,并非单个的自然人。虽然实践中直接操作或者使用人工智能系统进行创作的主体可能是作为自然人的科研人员或者公司员工,但这些科研人员或者公司员工所从事的“学习、研究”是为履行人工智能所有者(一般为大型科技公司)安排的工作任务所实施的职务行为,并非为了科研人员或者公司员工自己创作而进行“学习、研究”,因此不符合个人使用的主体要求。其二,从目的要件来看,个人使用必须是基于“学习、研究”的非商业目的,当前的人工智能创作均由大型商业互联网公司所控制和实施,也难以符合个人使用的非商业目的要求。


2.人工智能创作与“科学研究”


根据我国现行《著作权法》第24条第1款第(六)项的规定,在“为科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供科研人员使用,但不得出版发行”情形下,可以不经著作权人许可亦无需支付报酬,此即为我国立法上的“科学研究”合理使用类型。在人工智能创作中,对数据作品进行分析和处理就是一种科学研究活动,但此种情形仍难以适用“科学研究”类型的合理使用抗辩。理由如下:首先,著作权法规定的科学研究合理使用类型属于以公共利益为目的对著作权进行的限制,因而该情形下的科研机构及科研活动应“只适用于国家设立的教育、科研公共事业单位(比如经相关主管部门、教委批准设立的学校、全额财政拨款的国家科研机构等)”。当前主导人工智能创作的主体多为大型商业互联网公司,例如在国务院2017年发布的《新一代人工智能发展规划》中,国家所依托的四个智能开放创新平台分别由百度、阿里云、腾讯和科大讯飞等大型商业科技公司承担。其次,此类合理使用对于复制作品有数量限制,即“少量复制”。前文已述,人工智能创作中使用数据作品往往涉及对作品的全文复制,因此不符合“少量”的要求。最后,此类合理使用要求对于数据作品应“仅供科研人员使用”。实践中,人工智能创作使用数据的主体要么是作为人工智能所有人的大型互联网企业,要么是通过购买人工智能系统成为使用人的其他大型企业;即使人工智能创作实际由科研人员进行操作,其也是基于履行岗位职责要求而实施的职务行为,不符合“供科研人员使用”这一条件,因此无法适用此种合理使用类型进行抗辩。


3.人工智能创作与“适当引用”


根据我国现行《著作权法》第24条第1款第(二)项的规定,“为介绍评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”,可以不经著作权人许可亦无需支付报酬,此即为我国立法上的“适当引用”合理使用类型。人工智能创作是在学习已有作品基础上进行的二次创作,不可避免地要引用已有作品,表面上看似乎属于适当引用,但仔细分析可以发现,此种合理使用类型也难以作为对人工智能创作使用数据予以侵权豁免的法律依据。理由如下:其一,人工智能创作使用数据不符合“适当引用”条款所要求的目的要件。根据法条文义,适当引用必须是“为介绍、评论某一作品或者说明某一问题”,也就是说,“被引用的内容应当是介绍评论的主要对象或者与所说明的问题存在必然的联系,即引用须具备足够的必要性”。人工智能创作使用数据完全是为了生成新作品,既非“为介绍评论某一作品”,也非“为说明某一问题”。其二,人工智能创作使用数据不符合“适当引用”条款所要求的“适当性”要件。“在具备必要性的前提后,使用作品的数量、方式、范围还必须控制在一定的限度之内,避免与原作在市场上产生竞争,以免对著作权人利益造成不合理的损害,即引用须符合一定的适当性。”可见,引用的适当性要求所引用的部分不能构成被引作品的主要部分或实质部分,引用作品与被引作品具有主从关系和显著的区别,如此才不会造成引用作品构成被引作品的“替代品”。人工智能创作对于数据作品的使用显然已经超出了适当性的要求,因此不符合“适当性”要件。


4.司法政策“混合标准”下的人工智能创作


我国在合理使用规则的设立上采取了封闭式的立法技术,即认定合理使用只能在《著作权法》列举的具体类型清单中“对号入座”,不能在清单之外创设其他合理使用类型。但是,最高人民法院于2011年发布的一项司法政策在法定清单之外创设了认定合理使用的“混合标准”。之所以将其称为“混合标准”,是因为其把《美国版权法》的“四要素标准”和国际条约的“三步检验法”混在一起形成了“确有必要+特殊情形+四要素标准+三步检测法(后两步)”的合理使用认定规则。该项司法政策并不属于司法解释,不宜直接作为法律适用依据,但可以在裁判说理中予以参照。与《著作权法》明确列举的合理使用类型相比,该“混合标准”过于原则和抽象,使得人工智能创作能否被认定为合理使用具有很大的不确定性。例如同样采用“四要素标准”,有学者认为人工智能创作使用数据可以纳入合理使用范畴,另有学者得出了截然相反的结论。因此,即使将司法政策的“混合标准”作为司法解释予以适用,人工智能创作中的数据使用行为仍然存在著作权侵权风险。


四、风险化解:将人工智能创作利用数据纳入合理使用的价值考量


(一)传统许可模式难以满足数据规模化利用的现实考量


人工智能创作所使用的数据在价值上具有低密度性,即单个作品对最终形成的创作成果贡献极小,由此意味着只有大批量、规模化地使用数据对于人工智能创作才有意义。这种低密度性特征给著作权的传统授权模式带来极大挑战:一方面,要避免人工智能创作物一经生成便背负上侵权的“原罪”风险,唯一途径就是逐一获得数据作品著作权人的许可并支付报酬;另一方面,要求人工智能系统使用者为了实施创作从“海量作者”中点对点地获得“海量作品”的“海量许可”在现实中几乎不太可能。由此便产生美国学者戈登(Wendy J.Gordon)所提出的著作权许可市场失灵的问题,即当事人之间无法通过市场交易实现对版权作品的有效利用,此时采用合理使用规则配置数据资源可能是实现社会福利和公共利益最大化的最佳选择。


有观点提出,可以采用法定许可制度解决人工智能创作使用数据作品的困境。笔者以为,采用法定许可制度仍需支付报酬,由于人工智能创作所使用的数据具有数量大、种类多、范围广的特点,决定了实施人工智能创作所支付的数据许可费用是非常巨大的。当人工智能创作使用数据作品所付出的许可费远大于创作结果带来的收益时,作为理性“经济人”的人工智能投资者便不太可能接受此种作品使用方式。此时如果不给予人工智能创作使用数据以侵权豁免,则有可能会导致两种结果:一是人工智能投资者在面对海量作品的巨额使用费时会减少甚至放弃人工智能创作技术的研发与应用;二是一些人工智能企业可能会选择铤而走险,宁愿背负上侵权的“原罪”,也要置著作权于不顾而任意使用他人作品,反而加剧了侵权行为的发生,特别是在人工智能创作使用数据一般都比较隐蔽、权利人不容易发现的情形下,此种情形发生的概率更大。此外,法定许可制度所面临的使用费难以落实的困境至今未能有效解决,使得我国的法定许可制度在一定程度上形同虚设。因此,即使是建议采用法定许可制度解决人工智能创作使用数据问题的学者也承认,“法定许可制度配套措施的落实仍存在相当的难度”。


(二)促进文化艺术繁荣的公共政策考量


人工智能创作以数据为“源头活水”,数据的质量往往在一定程度上决定人工智能创作成果的艺术价值,为了获得高质量的创作成果,人工智能企业需要大量优质的数据来进行人工智能系统的培训。一般情形下,需要授权并付费的数据往往使用价值更高一些,因此受著作权保护的数据作品对人工智能训练更具吸引力。如果不为人工智能创作使用数据设置合理使用规则,要想使人工智能创作使用数据避免背负侵权“原罪”的风险,使用者就必须获得数据作品著作权人的许可并支付费用。但正如前文所述,人工智能创作在使用数据上具有低密度特征,为了降低使用成本并消除侵权风险,人工智能企业往往倾向于将受著作权保护的作品剔除出数据库,而更多使用那些不受著作权保护的处于公共领域的数据来训练人工智能,如此会造成创作结果的同质化和低劣化,不利于著作权法“促进文化艺术繁荣”价值目标的实现。


另一方面,如果全部都使用那些不受版权保护的处于公共领域的数据作品,可能会导致人工智能开发者“获取限制较低但带有偏见的数据集”来训练算法,从而影响创作结果的客观性和准确性,这一点对科学作品创作的影响尤为明显。具体而言,在人工智能创作过程中,如果机器学习所使用的数据本身不够完整或存在一定的价值倾向,则机器学习的结果也会存在一定的价值倾向,从而导致人工智能创作的作品存在一定的偏见。“出现算法偏见的主要原因除了算法设计缺陷、算法设计者身份同质化之外,另一个重要的原因是训练算法的数据集不充足、不完整。”当人工智能研发者无法获得著作权人的许可时,机器学习的资源必然会局限在已经进入公共领域的作品中,但由于这些已处于公共领域的作品无法全面反映人类最新的智慧成果,势必会导致人工智能创作的作品存在隐形偏见。当被问及人工智能系统 AIVA 为何选择专注于古典音乐时, AIVA Technologies 的创始人解释道:“因为供 AIVA 学习的所有编程函数的音乐版权都是已经失效的。”因此,将人工智能创作使用数据纳入合理使用范畴,能够扩大人工智能创作获取学习资源的范围,在一定程度上能够避免隐形偏见,为社会提供更加优质的作品。


(三)维护公平竞争的市场秩序考量


为了避免著作权侵权风险并降低使用成本,在采用传统的谈判授权方式几乎不可能的情形下通过格式合同免费获取数据成为一些大型互联网公司的选择,当今“用户创造内容”(UGC)模式的兴起则使这种选择成为现实。随着“人人都是创作者”时代的到来,普通的终端用户身份正在发生变化,庞大的用户群体每时每刻以创作者身份生成大量数据信息,这些数据信息可能包括电子邮件、博客、论坛帖子,其中不乏一些符合独创性要求而享有著作权的作品。一些大型互联网企业(例如谷歌、微软、腾讯、苹果、百度等)通过设置所谓“服务条款”或者“用户须知”格式条款,要求用户在注册时选择允许互联网企业免费使用用户发布的信息,这样就给大型互联网企业采取“以服务换取数据”模式免费使用用户的数据提供了机会,从而为互联网企业规避著作权侵权风险提供了可能。


但是,这种“以服务换取数据”模式通常只适用于大型互联网企业,因为只有大型互联网企业才拥有大量的用户。“诸如 Facebook 或 IBM 等大公司可通过取得用户授权组建训练数据,以形成庞大的训练数据解决使用训练数据受限的问题,而众多中小公司只能使用不受版权保护、已过版权保护期、处于公有领域的作品作为训练数据。”大公司收集的数据信息越多就越能完善其人工智能服务,从而也就能够吸引更多用户选择其服务并进而获取更多信息。相反,中小企业则因为用户数量少,其可以免费使用的数据无论在数量还是质量上都无法与大公司相比,久而久之会进一步加剧这种相差悬殊的状况,最终形成强者更强、弱者更弱的不公正的市场竞争环境。因此,如果不将人工智能创作中使用数据的行为纳入合理使用,有可能造成高科技领域的不公平竞争,使中小型人工智能企业的生存更加艰难。


(四)促进人工智能技术发展的国家战略考量


在当前新一轮科技革命和产业变革中,对社会影响最为广泛的非人工智能技术莫属,与此相适应,世界各国都在积极营造更有利于人工智能技术应用和产业发展的政策法治环境。我国也非常重视人工智能技术的应用与发展,国务院早在2017年7月就发布了《关于印发新一代人工智能发展规划的通知》,指出“人工智能是引领未来的战略性技术,世界主要发达国家把发展人工智能作为提升国家竞争力、维护国家安全的重大战略”,并明确提出要“加紧出台规划和政策,围绕核心技术、顶尖人才、标准规范等强化部署,力图在新一轮国际科技竞争中掌握主导权”,“建立人工智能法律法规、伦理规范和政策体系”等。于此背景下,积极营造有利于人工智能技术应用和产业发展的法治环境具有回应国家战略关切、提升我国人工智能领域国际竞争力的现实意义。当前,我国的人工智能技术应用和产业发展尚处于起步阶段,在政策和法律上应给予一定支持,如果要求人工智能创作中使用每一件数据作品都需经过授权并支付报酬,无疑会增加人工智能技术研发的负担,阻滞人工智能技术开发和产业发展,最终使我国在新一轮科技革命和产业变革中处于更加被动的境地。


另一方面,对于当前正在人工智能领域进行激烈竞争的每个国家而言,如果因人工智能创作使用作品在一国被认定为侵权,而在另一国属于合理使用,则必然会使人工智能企业为了降低成本而向法律环境更为宽松的国家流动。英国联合信息系统委员会在一项报告中提出,如果不提供文本和数据挖掘的版权例外,人们就不能充分利用这些信息所蕴藏的巨大潜在价值为英国经济和社会发展服务,同时英国利用这些研究成果的能力也将随之下降,这有可能导致英国在国际竞争中严重落后于那些注重鼓励文本和数据挖掘的竞争对手,尤其是相对于日本等对文本与数据挖掘提供更为开明政策的国家而言。欧盟委员会专家组在2014年发布的一项报告中也指出,大规模运用文本和数据挖掘将会为欧盟 GDP 额外增加数以百亿欧元计的收入。为此,欧盟于2019年推出《数字单一市场版权指令》(以下称欧盟《DSM 指令》)引入“文本和数据挖掘例外”,之所以引入这一例外条款,是因为欧盟担心文本与数据挖掘的合法性不明确,将导致欧洲基于文本与数据挖掘的研究落后于世界其他地区。因此,为了在新一轮科技革命和产业变革的激烈竞争中立于不败之地,我国应为人工智能创作使用数据提供较为宽松的法律环境。


(五)数据作品合理使用规则的比较法考量


为化解人工智能创作使用数据的著作权侵权风险,欧盟于2016年推出《 DSM 指令(草案)》,于第3条规定了“文本和数据挖掘”的著作权例外条款,因该条对适用主体(仅为研究机构)和适用目的(非商业性)都作了较为严格的限制,被认为会阻碍人工智能产业的发展。为此,2019年正式通过的欧盟《DSM 指令》扩大了适用范围,通过两个条文进一步细化了“文本与数据挖掘著作权例外”的内容,其中第3条保留了原草案内容,将其适用范围限定为不具有营利性的大学、研究机构及文化遗产机构;第4条则将适用主体扩大到基于商业目的的文本与数据挖掘,同时允许权利人通过协议、单方声明等方式对此予以保留。


为便利人工智能创作使用数据,日本亦曾两次修改其著作权法。第一次是在2009年修改《日本著作权法》时增加第47条之七“计算机信息分析”的著作权例外条款,即“以通过电子计算机进行信息解析(是指从众多作品及其他大量信息中,提取构成信息的语言、声音、影像及其他要素的信息,进行比较、分类及其他统计解析)为目的的情形,在必要限度,可以在记录媒体(包括据此创作出的演绎作品的记录)上记录或者改编作品”。由于该规定将数据使用限定在“统计解析”范围内,难以涵盖计算机使用数据的其他情形,被认为可能阻碍人工智能产业发展。为此,2018年《日本著作权法》修订时将计算机使用数据的范围从“计算机信息分析”拓展为所有“提供新的知识和信息”领域。修订后的规定将可以享受侵权豁免的行为从原来的复制、改编进一步扩大到了向公众提供,同时不限定适用的主体和目的,为商业机构的营利性使用留下了适用空间。可以发现,日本的规定更为宽松,对人工智能技术和产业发展也更为“友好”。


美国以其较为灵活和极具解释空间的开放式合理使用规则为人工智能技术应用提供了更好的发展环境。首先,《美国版权法》所创立的合理使用认定“四要素标准”具有较大的灵活性和较强的解释空间。根据《美国版权法》第107条的规定,认定某一作品使用行为是否属于合理使用应从四个方面予以衡量,这四项因素并非法定构成要件,并不需要完全具备,在重要性上也难分伯仲,而是由法官进行综合考量,这就为立法时未预见到的新类型使用行为留下了适用空间。其次,美国司法实践在“四要素标准”中又发展出了转换性使用规则,进一步拓展了合理使用的适用范围。自美国联邦最高法院于1994年将该规则运用于 Campbell v.Acuff- Rose Music, Inc.案以后,该规则逐渐成为美国司法实践中衡量某一作品使用行为是否构成合理使用的重要认定标准。根据该规则,如果作品的二次使用基于或利用原作品增加了新表达、新意义或新功能,那么应视为对原作品的使用目的或者使用方式或者内容进行转换,可以被认定为合理使用。近年来,美国法院在论文查重、人脸识别、数字图书馆建设等案件中对转换性使用规则采取了较为宽泛的解释,以适应“机器阅读和创作”之需。一些美国学者也呼吁,为了促进美国人工智能技术的顺利发展,应将基于数据使用的“机器学习”明确纳入合理使用之中。


五、制度回应:人工智能创作使用数据纳入合理使用的规则设计


(一)适用主体


欧盟《DSM 指令》以两个条文框定“文本与数据挖掘”的适用主体。具体而言,第3条规定了“研究机构”和“文化遗产机构”两类主体。关于“研究机构”的内涵与外延,《 DSM 指令》第2条从两个方面作了限定:一是在第(1)项以“例示列举+兜底规定”的方式将“研究机构”界定为“大学(包括其图书馆)、研究所,以及其他以进行科学研究或开展涉及科学研究的教育活动为主要目的的实体”;二是在第(2)项将第(1)项中的“其他以进行科学研究或开展涉及科学研究的教育活动为主要目的的实体”进一步限定为“以非营利为基础,或将所有利润再投资于其科学研究;或者出于为成员国所承认的公共利益而进行研究,并且对该机构有决定性影响的主体不能够优先获取该机构产出的研究成果”。其中的“非营利”“公共利益”表述足以表明《DSM 指令》第3条以非商业目的为潜在语境,将适用主体限定为公益性研究机构。但《DSM 指令》第4条没有明确限定适用主体的范围,而是从行为方式角度进行了规定,即“以文本和数据挖掘为目的,对合法获取的作品或其他内容进行复制与提取”的实施主体。可见,第4条并未将其适用主体局限于公益性研究机构,而是符合规定的行为方式的任何主体(同时允许权利人以适当方式对该条作出明确保留)。然而,这些规定对于使用者所进行的限定仍然被认为过于狭窄而受到批评。2009年《日本著作权法》中的“计算机信息分析”条款和2018年《日本著作权法》中的“提供新的知识和信息”条款均未限定适用主体。《美国版权法》亦未限定适用主体。


就我国立法而言,日本不限定适用主体的做法更值得借鉴。因为实践中除了大学等由国家财政支持的研究机构需要在人工智能技术应用中大量使用数据,其他社会机构和企业也需要大量使用数据。例如科技部确定的四个“国家新一代人工智能开放创新平台”(百度、阿里云、腾讯和科大讯飞)均为商业型互联网公司,承担着非常重要的人工智能技术研究、开发和应用任务,将其排除于合理使用之外既不符合现实状况,也不利于国家人工智能发展战略的实施。如果我国将大学等国家设立的研究机构以外的社会机构和企业排除在外,出于“经济效率”的考虑,这些机构和企业有可能将目光投向其他国家,例如对人工智能企业使用数据更为宽松的日本、美国或者欧盟成员国。因此,为了充分发展人工智能技术和产业,此类合理使用的适用主体应当涵盖所有为人工智能创作而使用数据的科研机构和企业。


(二)适用目的


欧盟2016年在《DSM 指令(草案)》中将不具有商业目的的“科学研究”作为文本和数据挖掘条款的适用目的,但因范围过窄而受到批评,马克斯·普朗克创新与竞争研究所的一项报告则建议将适用目的扩大到基于商业目的的科学研究,以强化欧盟企业对抗那些不受类似限制的其他国家企业的有利地位。为此欧盟2019年的《 DSM 指令》正式文本采用“双轨制”模式规定文本和数据挖掘条款的适用目的。具体而言:《DSM 指令》第3条将其适用目的限定为“以科学研究为目的”,第2条则将“科学研究”进一步限定为“非营利目的”或者“公共利益目的”;与此同时,《DSM 指令》第4条则删除了“以科学研究为目的”的限定,从行为方式上对其适用条件进行了规定。虽然《DSM 指令》第4条未直接规定可以适用于商业目的,但学界普遍认为,该条“将适用主体扩展至含有商业性开发意义的私人主体”。在《日本著作权法》中,无论是2009年的“计算机信息分析”条款,还是2018年的“提供新的知识和信息”条款,都未排除商业目的数据使用行为。《美国版权法》“四要素标准”中的第一个要素虽然关注作品使用行为的商业性质,但并不排除具有商业目的的使用行为仍然可以构成合理使用,美国联邦最高法院甚至明确表示,即便是基于商业性目的的使用,只要具有相当程度的转换性,仍然可以构成合理使用。


就我国立法而言,应借鉴《DSM 指令》第4条和《日本著作权法》的做法,不以非营利目的作为适用条件。理由如下:首先,在当前的科学研究实践中,即使是以政府财政设立的大学和研究机构也存在为商业目的使用数据从事科学研究的情形,例如公立大学(科研院所)与企业签订协议,共同进行以商业应用为目的的合作研究是当前科技成果转化的重要方式。2022年1月1日实施的《科学技术进步法》(以下称新《科学技术进步法》)第29条明确规定:“国家鼓励以企业为主导,开展面向市场和产业化应用的研究开发活动。”其次,接受企业委托从事横向课题研究是目前公立大学(科研院所)科研经费来源的重要组成部分,此种委托性质决定了此类研究是具有商业性质的。新《科学技术进步法》第31条规定:“国家鼓励企业、科学技术研究开发机构、高等学校和其他组织……,按照市场机制联合组建研究开发平台、技术创新联盟、创新联合体等,协同推进研究开发与科技成果转化,提高科技成果转移转化成效”。最后,企业自己设立的研发部门已成为我国科研力量的重要组成部分。我国企业近年来非常重视研发投入,据统计,2021年中国企业研发强度创下历史新高:华为以1418.93亿元的研发投入排名第一;阿里巴巴研发投入572.36亿元,排名第二;腾讯投入389.72亿元,位列第三。企业的研发机构显然服务于企业商业目的,若因商业性质将此种研究排除于合理使用之外既不利于企业创新,也不符合国家的政策导向,更不利于引进国外人工智能企业和留住我国人工智能企业。


(三)适用行为


欧盟《DSM 指令》第3条将其适用行为规定为“复制与提取”,第4条也是如此。正如学者所言,“这些行为只是数据挖掘的基础阶段所涉及的行为, ……而不包括后续阶段行为可能涉及的改编权、向公众传播权等。因此,第3条的适用范围较为有限,并不能完全解决事关文本和数据挖掘研究事业发展中出现的重大法律障碍问题”。2009年《日本著作权法》将其适用行为规定为“提取、记录、改编”三种,2018年《日本著作权法》将其适用行为规定为“复制、整理、向公众提供”三种。就我国立法而言,首先需要明确的是,合理使用规则所适用的行为应属于《著作权法》规制的行为。概言之,能够受到合理使用规则豁免的行为应在现行《著作权法》所规定的具体的著作权专有权项控制的范围内,否则合理使用无从谈起。依此而言,欧盟《DSM 指令》中的“提取”行为、《日本著作权法》中的“记录”“整理”“向公众提供”行为,在我国现行《著作权法》中并无直接的专有权利与其对应,但从这些行为的本质特征和法律效果来看,其可以被现行立法中的复制权、改编权、广播权以及信息网络传播权所涵盖。结合本文第三部分关于人工智能创作使用数据可能涉及的侵权类型分析,建议将此种合理使用适用的行为规定为复制、改编、广播和信息网络传播四种。


综上,本文建议在现行《著作权法》第24条第1款(十二)项之后增加一项新的“人工智能创作”合理使用类型,即:“……(十三)为人工智能创作复制、改编他人作品,以及将创作成果以广播、信息网络传播方式向公众提供。”