-
专利
-
商标
-
版权
-
商业秘密
-
反不正当竞争
-
植物新品种
-
地理标志
-
集成电路布图设计
-
技术合同
-
传统文化
点击展开全部
律师动态
更多 >>知产速递
更多 >>审判动态
更多 >>案例聚焦
更多 >>法官视点
更多 >>裁判文书
更多 >>内容提要
生成式人工智能的作品使用具有海量化及算法化特征,面临侵权责任认定与分配难题。避风港规则以满足特定条件给予免责为构造,可以回应机器训练的行为转变,契合风险分配的规制目标,具有事前预防效果。基于生成式人工智能服务提供者的技术能力、大模型版权侵权的规制需求和版权人的获益需求,为其新设“双阶”避风港规则具有必要性。在训练阶段,可以通过设置信息披露、权利保留的识别尊重、非直接获得经济利益和整体性补偿义务,使生成式人工智能服务提供者无须经事先许可使用作品,且不必承担解除学习等责任;在输出阶段,可以为生成式人工智能服务提供者配置建立投诉处理机制、消除重复作品数据、优化模型过度拟合、干扰用户恶意引导、基于请求的版权过滤等义务,使其免受抽象侵权标准影响。
关 键 词
生成式人工智能 版权侵权 避风港规则 注意义务
随着Sora等新一代“文生视频”等大模型的应用,生成式人工智能的版权侵权风波愈演愈烈。作品是开展人工智能模型训练的高质量数据,在模型训练阶段,人工智能开发者未经许可抓取作品进行模型训练的行为日渐增多,引发复制权侵权争议;在内容输出阶段,人工智能可能生成与在先作品实质性相似的内容,引发复制权与改编权侵权问题。2024年,广州互联网法院作出了首例生成式人工智能平台版权侵权判决。与此同时,其他国家也掀起了此类诉讼浪潮。截至2024年10月21日,美国已有30多起久拖未决的人工智能版权诉讼。在人工智能时代,如何应对大模型引发的版权侵权风险,如何合理分配生成式人工智能服务提供者的版权侵权责任,尤为值得关注。
技术变迁与商业变革是版权制度演进的根本动因。基于平衡版权人利益与人工智能产业发展需求的考虑,许多学者主张借鉴避风港规则的原理,即在合理使用、法定许可等制度之外,结合具体场景,为生成式人工智能服务提供者设置精细的免责规范,以在现有技术标准下厘清其过错认定标准,降低其注意义务的履行负担,使生成式人工智能服务提供者得以在满足法定条件后减轻或免除责任,形成与产业发展相适应的责任机制。然而,现有研究主要集中在宏观探索层面,仍有需要进一步回应的问题:第一,在传统版权侵权责任规范之外,为生成式人工智能服务提供者设立避风港规则的正当性何在?第二,在我国《民法典》、《信息网络传播权保护条例》(以下简称《条例》)已有网络版权侵权避风港规则的情况下,专门针对生成式人工智能服务提供者新设避风港规则的必要性何在?第三,如何构建具体规则,使之能够平衡版权人的利益与人工智能产业的发展需求?对此,本文将结合生成式人工智能使用作品的新特征,分析传统版权侵权责任规范在人工智能时代面临的治理危机,就构建生成式人工智能版权避风港规则的必要性、可行性、基本思路和具体方案等问题展开研究。
一、生成式人工智能版权侵权责任的双重难题及其成因
生成式人工智能的作品使用特征诱发了新的版权侵权样态。与传统作品使用方式相比,生成式人工智能具有“规模海量化”及“手段算法化”特征,从单一接触转向海量投喂,从人的欣赏转为算法处理。相应地,传统版权侵权责任规范在适用于生成式人工智能版权侵权问题时,也产生了责任认定和责任分配双重难题。
(一)利用算法处理作品的版权侵权责任认定难题
加害行为、侵害后果、因果关系、主观过错是侵权责任的基本构成。在版权领域,侵权责任认定还须结合“接触与实质性相似”“思想/表达二分法”等标准。然而,在上述特征影响下,这些要件均面临可操作性难题。
第一,在分析加害行为时,模型黑箱导致难以判断生成式人工智能服务提供者是否接触和使用了作品,增加了加害行为的证明难度。黑箱是指生成式人工智能训练过程的不透明与非公开。目前包括OpenAI公司在内的生成式人工智能服务提供者均不公布其模型所用数据集,版权人无从知晓生成式人工智能收集作品的时间和方式,面临严重的信息不对称,难以提起有效诉讼。在Andersen v. Stability AI Ltd.案中,面对复制权侵权指控,被告辩称其并未制作复制件,仅以数学统计方法存储了作品数据,法院以此种“压缩副本”行为可能并不构成侵权为由驳回了诉讼。此外,模型黑箱也导致版权人难以知晓相似表达的生成时间和过程,更难以取证,加剧了侵权行为的隐蔽性风险。
第二,在分析侵害结果时,深度学习原理导致难以判断大模型是否生成了与他人受版权保护作品构成实质性相似的表达,难以证明侵害后果的存在。版权侵权认定以“思想/表达二分法”为前提。不同于人类理解作品,机器学习原理在于通过记忆文本,从中学习推导出符号排列规律和前后关系,从而间接“理解”作品的表达特征。若诱导人工智能模仿特定作品的风格,尽管其不会生成与该作品完全相同的表达,但极可能具备与该作品相似的风格或结构。在这种情况下,对风格、结构进行思想或表达的区分并不存在明确、统一的标准,需要根据其抽象程度,结合案情具体分析。未来,面对数以亿计的生成内容,法院将更加难以区分思想与表达。
第三,在分析因果关系时,难以判断生成的相似内容是否来自某特定作品。一方面,生成式人工智能的数据训练规模数以亿计,即便生成内容与某特定作品的表达相似,生成式人工智能服务提供者总是可以找到其他与生成内容表达相似的作品,以此主张生成内容表达来源的多元性,切断因果关系;另一方面,即便某特定作者的作品没有被输入训练,模型也可能从其大量模仿作品中习得源自该作者的独创性表达。如毕加索是最常被公众模仿的作者之一,即便其作品仍在版权保护期内而未被训练,但随处可见的模仿作品仍可使模型轻松生成与毕加索作品风格相似的内容。版权人既难以发现这种间接的、延长的因果链条,也难以举证。事实上,有观点指出,大数据所产生的预测能力本就是基于相关关系,而非因果关系,试图在大数据及其规则中寻找因果关系,有悖于技术现实。
第四,在分析过错时,技术的复杂性导致过错难以认定。认定过错的关键在于判断生成式人工智能服务提供者是否依据现有技术水平履行了合理注意义务,但实际操作难以开展,原因在于:首先,生成式人工智能技术迭代速度过快,法院很难判断技术进展与生成式人工智能服务提供者的侵权风险控制能力。其次,技术解释难度极高。即使是开发人员也难以完全理解人工智能的运行状况,更何况生成式人工智能的学习具有高度不确定性与自主性,所生成内容与人类操控行为的因果关联较为模糊。这可能造成同案不同判。最后,受技术贸易壁垒等可及性影响,技术分布不均问题普遍存在,裁判者需要在个案中考虑不同行业、不同地域的不同状况,实际操作难度较大。
除上述侵权责任认定难题外,现行责任承担方式也面临功能失灵:一方面,解除学习特定作品的成本和难度过高,如何适用停止侵害存在争议。有观点指出,机器学习的过程很难逆转,一旦作品被输入训练,算法几乎不可能遗忘,除非删除算法后重新训练,这需要付出极高的经济成本。另一方面,损害赔偿数额难以计算。作品损害认定以市场价值受损为计算基础。但人工智能的训练数据集由海量作品组成,涉及的作者越多,单个作品的价值可能就越小,随着机器学习作品数量的增加,单个作品的价值可能无限趋近于零。换言之,目前无法简单计算单个作品对机器学习的贡献程度,如果默认每个作品的贡献度相同,那么权利人所获得的赔偿将无法与作品的实际价值相匹配。
(二)使用海量作品训练的责任分配难题
生成式人工智能服务提供者未经授权使用作品训练可能存在两种后果:一是承担版权侵权责任;二是通过适用合理使用制度予以免责。然而,在合理性层面,这两种后果都将引发利益失衡,无法兼顾版权人的利益与人工智能产业的发展需求。
1.严格的侵权责任对产业主体造成过度威慑
有观点认为,应根据无过错责任为生成式人工智能服务提供者分配侵权责任,只要模型生成的内容侵权,便应当要求其承担赔偿责任。然而,严格的版权侵权责任将对人工智能产业发展产生消极影响。
一方面,无过错责任将抑制交易意愿,导致生成式人工智能服务提供者放弃使用作品训练模型。侵权责任旨在要求行为人必须通过市场交易获得许可,这需以有效运转的市场为前提。生成式人工智能具有海量使用作品的需求,如ChatGPT-4的训练数据规模高达1000TB,但与之相适应的许可市场、技术与集体管理条件远未成熟,脱离此种现实为生成式人工智能服务提供者配置严格的版权侵权责任,将使其承担确定交易标的、寻找交易对象、协商交易价格等高额成本,远高于预期和现实获益。例如,《纽约时报》曾主张OpenAI公司应就其获取新闻报道的行为支付数十亿美元,这将导致后者要么承担极高的许可成本,要么承担高额赔偿,最终将迫使其放弃使用作品训练模型。
另一方面,无过错责任将降低竞争活力,诱发大型企业独占使用作品进行模型训练的反竞争效果。在价高者得的市场逻辑下,只有少数大型企业可以凭借经济优势取得许可,这将大大提高中小企业参与竞争的市场门槛。中小企业若要向市场提供人工智能生成服务,只能向大企业寻求接入模型的授权许可,无法实质干预训练和生成过程,仅能提供完善用户界面等“换壳”服务。就此而言,中小企业不仅要面临大企业提升价格等压力,发生侵权时还可能代替那些真正实施侵权的主体承担责任。实际上,在我国生成式人工智能平台版权侵权首案中,被告便只是在所购买人工智能模型接口的基础上修改了用户界面,既不知道模型训练使用了哪些作品,也很难实际干预模型运行,法院要求被告承担的责任与侵权行为事实并不相符。
2.合理使用制度对作者和版权人形成“寒蝉效应”
合理使用制度是产业主体就使用作品进行模型训练主张免责的主要依据,其核心主张是:生成式人工智能学习的是作品中的事实、思想,是一种“非表达性使用”,不属于保护范围,即便偶然学习了作品的表达要素,这些表达要素既不受版权保护,生成内容也不会不合理地损害特定作品的市场利益。若依据上述理由允许免费使用,将造成以下不利后果。
第一,不当减损版权人的市场利益。首先,生成式人工智能是一种学习表达的语言模型,是作品具有合理获益预期的市场领域。如前所述,生成式人工智能是从作品表达中习得特征和规律。如微软的“下一个伦勃朗”项目即学习伦勃朗349幅作品的构图、色彩和笔触。当前生成式人工智能所应用的短视频、广告、影视等行业,恰恰也是作品许可的核心市场领域。若支持适用合理使用制度的主张,将使生成式人工智能成为规避支付许可费用的侵权工具,显著减少权利人的正常许可收益。其次,不论是学习特定作品的表达,还是学习海量作品的表达,一概都是对作品的消费性使用,都应当支付报酬。事实上,作品交易是实现版权人利益的唯一方式,与交易对象随后是否创作、创作是否使用作品并无关系。未经许可使用作品而使权利人的交易机会落空,正是损害版权人利益的典型表现。如果人类不可以未经授权使用作品,那么机器也不存在任何类似的借口。
第二,不当弱化创作者的市场地位。当前,基于生成式人工智能低成本、高效率的优势,许多企业开始定制模型用于制作游戏画面、影视特效,已然形成人工智能生成内容与人类作者创作同台竞争的局面。生成式人工智能的应用将对未来就业形势产生深刻影响。若将机器学习认定为合理使用,大模型将基于学习人类作品不断提高质量和效率,具备更强的竞争力,而人类作者的创作地位将遭受严重冲击。研究显示,创意产业劳动力转移现象已较为明显,如漫威之前在《鹰眼》等剧集中使用了5—9位插画师,但相关岗位在2023年被一名“人工智能技术总监”代替。相较于机器生成内容的高效率,人类作者需要花费数年和大量投入才能探索出自己的作品风格并完成创作,若允许生成式人工智能服务提供者借合理使用制度对作品进行商业使用并独占全部收益,那么人类作者将处于被取代的边缘。
(三)生成式人工智能版权侵权规制难的原因
生成式人工智能作品使用行为与传统版权侵权责任规则的不适配是上述责任认定与分配难的主要成因。传统版权侵权责任是源自工业革命早期的制度设计,适用于特定社会语境中的版权侵权行为。然而,从产生原因、规模大小与行为结构等特征来看,生成式人工智能的作品使用与传统侵权样态显著不同,其并非传统版权侵权责任规范在立法之初所预设的典型调整对象,而是具有风险社会中大规模侵权损害的特性,应当适用相对应的规则。
所谓风险社会,是指工业化发展所产生的风险占据主导地位的社会阶段。在这一阶段,技术发展虽然促进了生产力大幅提升,但技术风险的释放与威胁也达到前所未有的程度。一方面,风险一旦出现就会引发大规模损害,事后补救也难以有效弥补损失;另一方面,大规模侵权损害虽然是各类技术风险的直接后果,但为了借助技术发展实现社会财富增长,这一后果必须为社会所承受。对此,有学者指出,既然稀缺财富的生产与风险的出现是相伴的,那么对财富的分配逻辑也需要转向现代性的风险分配逻辑,将风险的界定、容忍与分配也纳入社会平等之考察范围。反映在法律层面上,这要求立法者在面对大规模侵权损害时,应当在传统侵权责任规则的基础上,确立更具针对性的规制理念与责任形式。例如,在产品缺陷、环境污染等领域,我国学者主张引入大规模侵权损害赔偿基金,以实现利益和风险的公平分担。针对生成式人工智能技术发展引发的大规模版权侵权风险,也有必要依据新的风险规制理念开展特别治理。当前,之所以出现生成式人工智能版权侵权责任认定与分配的难题,正是因为机械地适用了传统版权侵权责任规则。
首先,从“自然人使用”到“机器处理”,传统版权侵权责任规则难以兼容生成式人工智能使用作品的特征。长期以来,传统侵权法的调整对象形成了稳定特征,即行为具备透明性和确定性,侵权对象具有特定性,损害后果具备有限性、可计算性和可填补性,因果关系具有直接性和相当性,且侵权人对行为和后果具备可预期性及可控制性。不难看出,传统版权侵权责任规则预设的侵权行为主要是“自然人使用式”的:人类是使用作品的唯一主体,使用作品的形式表现为阅读、聆听等行为,使用规模是单个或少量的,使用行为在一定程度上透明可知。不论发生何种侵权纠纷,总体上仍属于特定主体对具体权利人的侵害。但生成式人工智能版权侵权具有“机器处理型”特征:直接接触、使用作品的主体变为大语言模型,使用形式转变为基于算法的自动训练与输出,使用规模实现指数级增长,且使用行为全程处于黑箱之下。这意味着,生成式人工智能的作品使用行为完全颠覆了设立上述规则的前提条件,超出了传统版权侵权责任规则的适用边界。
其次,从“威慑填补”到“风险分配”,传统版权侵权责任规则难以契合生成式人工智能的规制目标。在保护权利人对作品独占性使用的立法逻辑下,填补损失并尽量遏制侵权行为是既有规范的主要目标。但在风险社会中,仅凸显补偿和威慑将使责任制度难以为继。一是生成式人工智能的侵权现象是科技进步中不可避免的风险——没有海量输入就难以训练模型,没有广泛输出应用则缺乏市场回报,因而生成式人工智能训练中的版权侵权应是一种必要的、可被允许的风险。二是如果风险不可避免且技术进步的收益由社会共享,那么避免风险的成本便不能仅由生成式人工智能服务提供者承担,而应由社会共担。对此,有必要为生成式人工智能服务提供者设定有限而合理的版权注意义务,以及具体而明确的侵权责任规则,从而实现社会风险的合理分担。此举的法律意蕴在于:一方面,应摒弃完全消除侵权现象的目标,适度放宽机器学习的事先授权原则,有限允许生成式人工智能服务提供者可以不经许可使用作品;另一方面,应根据生成式人工智能服务提供者对侵权风险的利益获取程度、损害分散的可能性等因素,确定其承担责任的界限。但从现实来看,传统版权侵权责任规则的构造尚无法实现这些目标。
最后,从“事后责任”到“事先预防”,传统版权侵权责任规则难以契合生成式人工智能版权侵权行为的规制方式。总体上,传统版权侵权责任规则以事后填平损害为首要原则,但生成式人工智能引发的损害却面临“罚不下去、赔不充分”的困境。具言之,在风险共担的分配正义思想下,版权人获得赔偿的期待不仅可能会落空,即使实现了补偿,无法停止侵害且损害赔偿数额计算难的现实也将导致救济不充分。不合理的赔偿甚至会造成社会财富的无谓损失,抵销人工智能的发展收益。因此,事先预防在生成式人工智能版权侵权规制中具有显著优势:既能阻止那些本可抑制的风险转为实害,避免使版权人陷入补偿不充分甚至没有补偿的困境,也可以降低生成式人工智能服务提供者履行版权保护义务的成本。
综上,在算法自动处理与海量训练规模影响下,生成式人工智能版权侵权责任认定与分配难的根源在于旧制度功能与新技术需求的错位,因此,需要结合其侵权行为特征,探究更为妥适的风险社会责任形态。
二、构建生成式人工智能版权侵权避风港规则的缘由与思路
避风港规则是风险社会的一种新责任形态,具有满足特定条件给予责任豁免的构造特征。自20世纪中期被提出以来,避风港规则在反垄断、证券和网络监管等领域得到广泛应用。这些领域大都因技术创新、商业变革滋生各类侵权风险,亟须调整法律制度。避风港规则旨在克服旧制度与新技术之间的脱节,进而平衡促进创新与规制侵权行为的需求。
(一)生成式人工智能版权侵权避风港规则的内涵与功能
避风港规则是一种在相对抽象、原则、一般的责任标准下,以具体规则为行为人指明有条件的免责途径的立法技术,是一种将普遍性和客观性优势结合起来的手段。就此而言,部门法中许多具有避风港之称的条款只是把避风港规则的基本原理应用到具体的情境中,其共同本质是基于特定条件的免责条款。避风港规则既不专指“通知—删除”的具体构造,也并非专用于版权间接侵权领域。从避风港规则的基本形态、适用效果及适用条件三个维度出发,可以分别回应生成式人工智能版权侵权的属性特征、规制目标与规制方式。
第一,避风港规则所采用的具体列举式立法技术,有助于化解“机器处理型”侵权的责任认定难题。依据传统版权侵权责任规则,生成式人工智能服务提供者若想免除过错责任,必须结合个案情况与技术原理逐一分析侵权构成。而避风港规则通过对可获免责行为进行详细描述,使各方不必通过推理才能主张免责效果,从而免受抽象标准不可预测性的影响。对于立法者而言,面临侵权行为规制难题,避风港规则使其无须大费周章地修改法律,也不必穷尽所有情形,只需将那些频繁发生、免责结论明确的作品使用行为进行总结,就可以保证传统版权侵权责任规则的稳定性,同时实现人工智能训练或应用的可及性与灵活性,并有效降低修法成本与难度。对于司法机关而言,借助避风港规则可以有效节约在事实认定、法律适用中的信息成本,仅须查明基本事实即可涵摄免责效果,大幅降低司法决策难度。总之,作为一种专用于特定场景的具体规范,避风港规则可用较低的信息成本在大量应用中快速得到错误概率较低的决策结果,整体上大幅提升决策收益。
第二,避风港规则所达成的责任豁免效果,有助于实现生成式人工智能技术创新风险的合理分配。具言之,避风港规则可以通过两种免责方式实现分配正义:一是具体列举依据抽象标准不构成侵权的作品使用行为。实践中,考虑到是生成式人工智能服务提供者引发了侵权风险且版权人与之实力悬殊,法院可能要求其承担能力之外的注意义务,过错责任在事实上被异化为结果责任。此时,避风港规则主要发挥澄清作用,使生成式人工智能服务提供者免于过度承担侵权责任。二是适度限缩生成式人工智能服务提供者的注意义务。例如,在生成内容过程中,生成式人工智能服务提供者是否须履行版权审查义务并无定论,需视个案而定,若通过避风港规则明确免除审查义务,可大幅减少生成式人工智能服务提供者的运营成本。其正当性在于,根据被允许的危险理论,若侵权使用是发展核心技术的伴生风险,基于其巨大正外部性,便应在一定范围内允许侵权行为发生,不应要求提供者对技术的罕见风险承担注意义务。以上两种免责方式在现行法律中均有体现:前者如《反垄断法》第18条,市场份额未达法定数额不构成垄断;后者如《条例》第22条,网络平台不必对用户上传的内容实施版权过滤。借助这些条款,相关领域的技术发展与商业变革均可以在宽松的制度环境中进行,值得借鉴。
第三,避风港规则所设置的版权保护措施,有助于践行“事先预防”的风险规制要求。避风港规则以事先履行必要措施换取免责后果为内容,有利于保障版权人的利益。其运行逻辑在于,尽管不具有强制性,但适用避风港规则获得免责的成本远小于收益:前者包括适度信息披露、合理比例补偿与系列技术措施等支出,后者包括节约获取许可成本和诉讼支出、免受损害赔偿责任和禁令,这可以充分激励生成式人工智能服务提供者建立版权保护措施。实践中,OpenAI公司认为其业务受避风港规则调整,反映了避风港规则可以充分激发产业主体开展事先保护的积极性。如此一来,在最具有控制能力和信息优势的生成式人工智能服务提供者的防范下,避风港规则既能避免风险转为实害,也能防止已有侵害再次发生。更重要的是,避风港规则在设置事先保护措施时具有较高的灵活性,不论是传统民事责任形式,还是那些可用于调整大规模侵权损害的责任保险、救济基金、社会救助等非传统救济手段,都可被纳入措施范围,如此将有助于减轻责任威慑,最大限度地保障版权人的利益。
(二)新设生成式人工智能版权侵权避风港规则的必要性
应当指出,避风港规则对于生成式人工智能的价值集中在制度原理层面,在该领域引入避风港规则,仅指应通过具体列举方式为生成式人工智能服务提供者设置有条件的免责,并非照搬“通知—删除”等已有规则。为了更加契合大模型的技术特点与侵权行为特征,我国有必要考虑新设生成式人工智能版权侵权避风港规则。
其一,生成式人工智能版权侵权在主体地位、主观过错、行为结构与传播方式上均不符合现行网络平台侵权避风港规则的适用情形。首先,生成式人工智能服务提供者具有“内容参与”属性,在数据训练、算法设定等方面具有特殊影响力,并非技术中立主体。一方面,生成式人工智能服务提供者可能直接作用于生成内容,另一方面,此种作用不具有强控制力,模型可以脱离控制随机创作,其处理过程和输出结果具有高度不确定性。可以说,服务类型的差异使生成式人工智能服务提供者注定承担与传统网络平台不同的注意义务。其次,在模型训练阶段发生的侵权行为,生成式人工智能服务提供者处于明知或应知状态。《民法典》第1195—1197条规定的避风港规则系过错责任下的具体指引性规定,旨在列举主体因没有过错而不构成侵权的情形。但在模型训练时,生成式人工智能服务提供者往往借助扫描上传、算法爬取、数据中介等方式获取训练数据集,必然知晓其中包含作品。为了提高模型质量,一些生成式人工智能服务提供者还会刻意输入各类作品。就此而言,生成式人工智能服务提供者在模型训练阶段的作品使用行为具有故意,明显具有主观过错,与上述条款的规范对象显著不同。再次,生成式人工智能服务提供者利用算法生成的内容侵权,不属于帮助侵权。在规范效果上,“通知—删除”规则免去的是网络平台的连带责任,以网络平台构成帮助侵权为前提,要求同时存在用户的直接加害行为及平台的帮助行为。但在大模型领域,即便生成内容是由用户指令触发,但用户可能并非刻意为之,相似表达系模型自动生成。即便用户刻意引导,生成内容的高度随机性也使得很难认定生成式人工智能服务提供者存在帮助行为。最后,《条例》第22条主要调整信息网络传播行为,而大模型随机生成内容更具非交互性特征。总之,生成式人工智能版权侵权与“通知—删除”等传统网络平台侵权避风港规则的法理基础与适用条件显著不同,盲目照搬将造成既有条款的适用混乱。
其二,“通知—删除”等网络平台侵权避风港规则在生成式人工智能场景中难以有效发挥作用。作为一种合作型机制,传统网络平台侵权避风港规则要求版权人发现并通知侵权信息,再由网络平台迅速删除侵权内容,分别发挥两者的积极维权优势与信息控制优势。但大模型具有不透明性、海量规模等特征,升级迭代不仅需要反复多重训练,且市场中各类新模型层出不穷。在此前提下,版权人既无法有效发现侵权信息,也难以承担持续监控的高昂成本,即便偶然发现侵权,生成式人工智能服务提供者亦未必能完全停止侵害。可以说,作品使用方式的显著差异必然决定需要调整侵权治理方式,这正是应当新设生成式人工智能版权侵权避风港规则的根源所在。
其三,新设生成式人工智能版权侵权避风港规则具有显著实践意义。一是有助于实现版权法促进文化繁荣的宗旨。在事先授权模式下,生成式人工智能服务提供者倾向于放弃使用处于版权保护期限内的作品,只选用那些公共领域的作品,不仅难以提高模型质量,减损技术进步带来的社会福利,而且版权人自身也无法增加收益,呈现双输局面。若借助避风港规则免去事前授权义务,生成式人工智能服务提供者将基于经营需要尽量训练模型,在免责激励下,也会充分落实保护版权人利益的要求。二是提升人工智能产业的竞争优势。目前,世界各国和地区纷纷从法律层面为生成式人工智能服务提供者减轻作品使用障碍。欧盟、美国相继开展调研或修法工作,日本、英国在数字时代早期就已构建宽松的文本数据挖掘例外规则。新设生成式人工智能版权侵权避风港规则将有助于为我国产业营造宽松的法律环境,发挥海量作品规模与丰富应用场景优势,促进更多企业参与研发和训练。
(三)生成式人工智能版权侵权避风港规则的“双阶”构造思路
生成式人工智能的版权侵权行为发生在模型训练和输出内容两个阶段。在开展避风港规则的具体设计时,有“单阶”构造与“双阶”构造之分:“单阶”构造是指在训练阶段允许生成式人工智能服务提供者对作品进行合理使用,仅在输出阶段设立避风港规则,是一种“放开训练端、管住输出端”的规制模式;“双阶”构造是指在模型训练和输出内容两个阶段,均为生成式人工智能服务提供者有条件地设置免责规范。相较于“单阶”构造,“双阶”构造更有优势。
第一,在合理性上,“双阶”构造更契合版权人在人工智能时代的获益需求。从过程来看,输入作品与生成内容是两个独立的作品使用行为,是版权人两次潜在的正当获益机会。一方面,生成式人工智能服务提供者在输入阶段使模型习得作品的表达技巧与规律,与人类欣赏作品一样,都是对作品的消费性使用,应当向权利人支付报酬;另一方面,若用户在输出阶段生成了与某作品相似的表达,则版权人基于满足了用户需求而有权再次获益。但在“放开训练端”的“单阶”构造思路下,版权人所享有的实际利益极为有限,仅有权在人工智能未满足法定条件生成内容构成侵权时才可提起诉讼。事实上,输入阶段才是版权人获得合法补偿的主要环节。研究表明,相较于训练环节对作品的确定性使用,人工智能在输出环节生成与某作品表达相似的内容的概率约为1.88%,机器学习与生成内容侵权之间并无必然联系,版权人若无法就模型训练使用作品行为获益,那么其在人工智能时代近乎完全失去对作品的获益渠道。因此,“双阶”构造是一种更务实的方案。
第二,在正当性上,“双阶”构造更有利于协调自治与管制的价值理念冲突。避风港规则与合理使用制度均是以公权力干预版权市场的手段,但前者对市场的干预程度更低,为生成式人工智能服务提供者和版权人保留了必要的自治空间,有利于市场从初级阶段走向规范成熟。具言之,作为一种非强制性的免责规定,避风港规则允许双方予以排除适用,为产业主体预留了基于市场博弈达成自治安排的空间,避免以高度法定化的规则取代市场主体的意思自治。对于那些价值较高、权利集中、交易成本低的作品,双方可经过谈判达成许可,所积累的有效经验可以被整个市场借鉴,为市场自由演进留有余地。目前,谷歌等企业就作品授权取得一定进展,反映了使用作品进行人工智能模型训练的市场具有潜力。待技术条件成熟,市场交易成本恢复至正常水平,便可从避风港规则回归到一般交易形态。
第三,在可行性上,“双阶”构造有助于减轻制度变革的现实阻力。从美国版权局的政策调查来看,各类产业主体均强烈反对适用合理使用制度,主张适度保有作品交易自决并期待合理补偿。这意味着,仅仅管控输出端的“单阶”构造规则将在立法动议阶段面临巨大阻力,但产业主体希望使用大量作品训练的诉求为管控训练端和输出端的“双阶”构造留下空间。只要充分发挥避风港规则高度灵活的制度特征,在财产规则与责任规则之间寻找折中方案,在功能上尽可能满足双方诉求,便可争取更多支持,从而快速实现制度更替。
综上,避风港规则的理论特质与生成式人工智能版权侵权行为规制的实际需求高度契合,引入避风港规则并新设条款具有合理性、必要性与显著优势。在“双阶”规则构造下,应当结合实践诉求及规范原理,分别设计不同的规则(见表1)。
三、训练阶段的生成式人工智能版权侵权避风港规则
生成式人工智能模型训练阶段的问题在于,海量作品使用规模使事先授权模式难以为继,版权人也面临作品使用状况不透明及获酬难等问题。因此,规则设计的重点在于降低生成式人工智能服务提供者获取许可的难度,同时保障版权人的知情权与选择权。
(一)内涵阐释
训练阶段的生成式人工智能版权侵权避风港规则构想包括,在充分披露所用版权作品信息的情况下,除非版权人作出权利保留声明,生成式人工智能服务提供者可以未经许可使用他人作品训练非定制型的生成式人工智能;若版权人作出权利保留声明,但生成式人工智能服务提供者对未能识别权利保留声明没有过错的,无须承担停止侵害的侵权责任;对用于训练的作品,生成式人工智能服务提供者应当进行整体性补偿。
从法律属性来看,这一阶段规则免除的是生成式人工智能服务提供者的故意侵权责任,是一种过错免除型避风港规则。其构造逻辑为,在促进核心科技创新的背景下,为了公正地分配侵权风险的预防成本,法律允许生成式人工智能服务提供者不经许可使用作品进行人工智能模型训练,以扩张其行为自由,减少后顾之忧。但如果不加甄别地使用作品,有可能对版权人造成重大损失,违背设置避风港规则的初衷。因此,生成式人工智能服务提供者应将版权侵权风险控制在一定范围内,尊重版权人保留权利的意思自治,对避免侵权后果的扩张承担一定的注意义务。
近年来,欧盟在生成式人工智能立法中纳入了类似规则。2019年,欧盟《数字化单一市场版权指令》为可用于模型训练的商业性文本数据挖掘创设版权例外规则,实现了作品使用从“选择—进入”到“选择—退出”的转变,颠覆了事先授权模式。该指令第4条规定,基于文本和数据挖掘目的而开展非临时性的作品复制时,除非版权人以适当方式声明保留权利,可以适用版权的例外与限制。适当方式的典型情形是,当作品已在网络上公开提供时,版权人应采用机器可读的方式作出权利保留声明。2023年,欧盟《关于公平获取和使用数据的统一规则条例(数据法)》第9条规定了数据使用补偿制度,要求数据使用者在行使对他人所持数据的访问权时,应当根据他人对数据获取、生成、收集的贡献及数据的数量、格式和性质提供合理、无歧视的补偿。这意味着,数据服务提供者对相当一部分作品数据的爬取都应当支付补偿,但这种补偿是整体性的,有别于基于单个作品市场价值计算的损害赔偿。2024年,欧盟正式通过《人工智能法案》。为了确保生成式人工智能服务提供者在训练模型时尊重版权,该法案要求生成式人工智能服务提供者提高透明度,就作品使用情况制定并公开详细摘要。在这些立法进展背后,欧盟逐步破除了生成式人工智能训练模型使用作品事先授权难、权利补偿难和信息获取难三大问题。
(二)适用条件
1.信息披露义务
信息披露义务是指生成式人工智能服务提供者必须向权利人告知作品的基本使用情况。之所以将信息披露义务作为免责条件,是因为其带来的透明度是实现交易互信和版权人维权的必要前提,只有保持足够透明,权利人和监管机构才可以判断人工智能的可靠程度,确保生成式人工智能服务提供者不会以损害权利的方式行事。换言之,在当前缺乏透明度的情形下,版权人无法确保许可条件的公平性,但如果能消除信息不对称,就有助于督促生成式人工智能服务提供者在尊重作者意愿的前提下开展训练。即便产生了侵权行为,也能有效获取证据,及时维权。一旦风险可控,以作品收益为主要收入来源的版权人将更加倾向于许可人工智能使用作品。目前,透明度已被美国、欧盟等主要国家和地区作为发展人工智能的基本伦理准则。
借鉴欧盟《人工智能法案》的规定,我国可对信息披露义务作如下要求:其一,在形式上,将公布信息摘要与提供查询接口相结合,平衡信息披露充分度与商业秘密保护。由于训练所用作品的来源、选取事关经营策略和技术细节,可能构成商业秘密。因此,作品信息披露既无须技术方面的详细说明,也无须列出完整清单,仅向社会公布作品使用情况的整体摘要即可。同时,为使版权人能够得知单个作品的具体使用状况,生成式人工智能服务提供者还应发挥经济优势与技术优势,通过整理权利信息、提取作品特征、引入数据服务商等途径,为版权人提供查询借口,使其可通过信息检索、内容比对等方式,获知作品是否被使用,作品收集时间、来源、处理情况与潜在传播范围等情况。随着区块链与深度学习技术的进步,识别作品信息的成本将不断降低,有助于实现作品的精细化使用。其二,信息披露义务不应妨碍作品的合理使用。随着生成式人工智能的普及,在课堂教学、馆藏陈列等合理使用情形中也将出现使用作品训练模型的情形,为了不妨害相关主体的合法利益,应当鼓励自愿披露作品信息而非强制。其三,适当简化初创企业或中小型企业的信息披露义务。鉴于信息披露义务将对人工智能领域的后进入者造成较高成本负担,且中小型企业的作品使用规模相对有限,可允许其以较为简化的方式履行信息披露义务。其四,为保障信息披露义务被有效执行,建议行政部门拟订强制性标准,指定专门机构开展常态监督与随机检查,确保透明度要求落到实处。
2.权利保留的识别尊重义务
权利保留的识别尊重义务,是指生成式人工智能服务提供者使用版权作品开展模型训练时,对未识别到版权人的权利保留声明没有过错,或者在识别该权利保留声明后,避开使用该作品进行模型训练。在使用海量作品训练规模下,仅凭版权人或生成式人工智能服务提供者任意一方都很难达成既使用作品又规避侵权的目标,需要双方相互配合,发挥各自优势。在“选择—进入”模式下,权利人因交易成本高、获益低而怠于实施许可,生成式人工智能服务提供者因侵权风险下降有限而缺乏获取许可的动力。若调整为“选择—退出”模式,一方面,善意权利人无须采取行动就能默示许可使用作品,而希望退出训练的权利人也会主动以各种低成本方式表示权利保留;另一方面,生成式人工智能服务提供者基于避风港规则的免责激励会尽量搜集作品,并充分发挥技术优势以识别以爬虫协议等方式作出的权利保留声明。
版权人有两种保留权利的途径:作品收集前的拒绝训练声明和基于信息披露的退出训练表示。不论何种途径,权利保留声明在形式上都应包含作品详细信息、权利证明和声明权利保留的意思表示等信息。为了保障版权人在作品被收集后能够根据信息披露退出训练,生成式人工智能服务提供者应当在收集作品后设置合理的“缓冲期”。“缓冲期”过后未收到退出训练声明的,方可将作品投入模型训练中。收到版权人作出的权利保留声明后,生成式人工智能服务提供者须在合理期限内将作品从数据集内删除,无法删除或删除成本过高的,可考虑在算法中设定避免使用相关作品的指令,达到与删除作品相同的效果。待上述程序完成后,生成式人工智能服务提供者应及时回复版权人,以书面形式告知处理结果,并将退出训练声明等文件留档保存,以便在纠纷中查证。
考虑到作品收集的海量规模和网络互联互通的有限水准,生成式人工智能服务提供者仅在对识别权利保留有过错时才承担责任。在过错认定上,版权人除以对话或数据电文等形式使生成式人工智能服务提供者明确知悉其保留权利的意思表示外,还可采取其他合理形式。问题在于,当版权人未直接将权利保留告知生成式人工智能服务提供者时,后者就识别权利保留履行何种注意义务才不构成过错。
对生成式人工智能服务提供者而言,识别权利保留声明更多发生在作品收集过程中,其注意义务设定也应围绕这一环节展开。在具体设定网络服务提供者知识产权注意义务时,应考量网络服务类型、行为类型以及权利客体类型等因素。结合产业实践,生成式人工智能服务提供者至少应履行以下注意义务:一是对作品元数据和权利管理信息的注意义务。随着技术发展,除对作品添加元数据及权利管理信息的惯常做法之外,一些版权人还会添加“请勿训练”(do not train)标签。例如,Adobe曾开发“内容凭证”技术,版权人可借此添加上述标签并掌握作品流向。未来,从作品信息中识别权利保留声明将是注意义务发展的潮流。Stability AI表示,他们预计将收到超过1.6亿份退出请求,基于元数据的声明将是其中重要组成。二是对网站爬虫协议等技术措施的注意义务。当前,生成式人工智能服务提供者主要借助算法爬取各种公开作品,相应地,版权人也会在其网站设置拒绝爬取的协议和各种防止接触、使用的技术措施,生成式人工智能服务提供者应当优化算法,识别、遵守此类协议。三是对作品来源的注意义务。若版权人的网站有爬虫协议等技术,一些生成式人工智能服务提供者可能转而从第三方网站爬取作品,其中可能会爬取到盗版作品。生成式人工智能服务提供者须识别此类异常情况,若某些非官方网站有大量他人版权作品,或版权人、版权执法机构对某些网站发出预警,则应额外审查该部分作品原始出处及其权利保留情况。四是对特殊类型作品的注意义务。一方面,对于电影和音乐等价值较高、权利集中的作品,版权人极有可能与生成式人工智能服务提供者开展授权谈判,应额外关注。另一方面,一些作品虽有权利保留信息,却有元数据不完整的复制件广泛传播,这就要求生成式人工智能服务提供者记录过往收集信息并开展比对,避免误用侵权复制件。
3.非直接获得经济利益义务
在风险分配理论中,利益获取是划定侵权主体是否须承担额外注意义务最重要的因素:生成式人工智能服务提供者的获利若建立在对他人的侵权基础之上,那么便应承担与其利益获取程度相当的风险损害后果。但这一理论也有缺陷,任何生成式人工智能服务提供者的模型训练都以市场应用为目的,从中获益系应有之义,若不加区分地对任何获益主体都施以注意义务,则极易导致其版权侵权责任异化为,一旦具有侵权风险就要承担侵权后果的危险责任形态。对此,美国在解决网络服务提供者的类似风险分配问题时,将利益获取限定为“非直接获得经济利益”,值得我国借鉴。美国《千禧年数字版权法》(以下简称DMCA)第512条、我国《条例》第22条均规定,网络服务提供者不承担赔偿责任的前提之一是“未从服务对象提供作品中直接获得经济利益”。根据美国国会的解释,若侵权应用方式与非侵权应用方式支付了相同的费用,则不应认为网络服务提供者获得了可直接归因于侵权活动的经济利益。换言之,判断是否直接获得经济利益的关键在于收益多寡与侵权行为间是否存在必然联系,若网络服务提供者在不侵权的情况下也能固定获得相关收益,则说明该收益的获取并不受侵权行为影响。美国国会的解释中还提到,收取一次性设置费、定期收取固定服务费、依据服务时间长短及信息流量计算费用均属于非直接获得经济利益的范围。
类似地,在生成式人工智能语境下,若用户可无偿使用训练模型或仅须为使用基础服务而支付固定金额会员费,便应认为生成式人工智能服务提供者未直接从版权侵权中获得经济利益。当前,各类面向大众的通用模型都须用户注册会员并按月支付费用,以此弥补模型训练所投入的人力、设备及运营费用。此种会员费系生成式人工智能的使用门槛,不论生成式人工智能服务提供者是否使用特定作品训练,用户基于生产效率、学习娱乐需要都会选择付费使用。事实上,受技术特征影响,用户并不知道哪些作品被用于训练,在生成内容高度随机性影响下,用户更不会为生成与某特定作品相似内容而专门付费,此时生成式人工智能服务提供者获益多少并不受特定侵权行为的影响,二者缺乏直接关联,属于非直接获得经济利益。相反,当特定用户为模型训练支付了额外费用,如指定投喂作品范围、训练特定作品风格时,由于生成式人工智能服务提供者是否使用某特定作品训练直接决定了其能否增加收益,生成内容侵犯版权的概率亦大幅上升,则不应再获得免除事先授权的避风港规则保护。目前,除向公众提供通用的大模型外,生成式人工智能服务提供者另一重要获益渠道便是基于用户个性化需求训练定制型人工智能。在实践中,一些企业为了提高生产效率并降低生产成本,会选择支付远高于会员费的定制费用,要求生成式人工智能服务提供者在作品投喂、算法设计方面迎合企业的个性化需求,促使模型能够按照预期生成内容,以满足企业画面制作、文本写作等需求。此类模型训练使用的作品规模虽小,但系双方刻意选择,对版权人作品的市场替代性较强,仍应事先获得授权许可。
4.整体性补偿义务
与作者基于特定作品享有的获酬权不同,整体性补偿是指那些未作出权利保留的作者群体作为一个集体所获得的报酬,背后蕴含着版权领域的公共获酬思想——从社会基于作品使用产生的巨额财富中抽取一部分补贴版权人。总体而言,公共获酬思想及整体性补偿制度高度契合生成式人工智能版权侵权的规制需求。首先,作为一种集体支付形式,整体性补偿不以作者或单个作品的贡献为计算基础,可以有效克服事先授权模式下交易成本过高的问题,更符合海量作品使用规模的现状。其次,整体性补偿不以支付完全等同于损害赔偿的数额为要件,可以有效降低生成式人工智能服务提供者的运营成本,更契合公平分担风险的原则。最后,整体性补偿的资金可以有多种来源,有助于合理分摊、补偿版权人的成本。此外,从现实状况来看,要求生成式人工智能服务提供者补偿版权人并不会对其运营状况造成重大影响,许多企业本就会提前将一定版权赔偿金额计算在必要成本之内,只要训练模型的获益远大于这部分成本,整体性补偿就是一种行之有效的方案。在版权史上,也曾出现过以整体性补偿应对科技进步引发大规模侵权的立法实践。20世纪,随着数字音频技术的发展,以发行唱片为主要收入的音乐产业遭遇冲击,为了平衡新技术发展与版权保护,美国版权法规定从数字音频记录设备制造商的销售收入中征收税款,用于整体性补贴音乐作品及录音制品权利人,同时使制造商免于为用户侵权的复制行为承担责任。
整体性补偿的执行重点包括厘定资金来源和确定支付对象。在厘定资金来源方面,根据风险共担原则,整体性补偿应具有多元化构成,尽量提高对版权人的补偿力度。一是对生成式人工智能服务提供者训练模型使用的作品征收版税。由行政部门根据生成式人工智能服务提供者的营业收入、使用作品类型、训练规模、方式、用户数量以及市场合理许可费率,确定从其利润中征税的百分比,将这部分资金作为整体性补偿的主要构成。二是设立模型训练使用作品的强制性保险。对于那些主张受到严重市场影响且补偿远不足以填补损失的少数群体,可以由专门的保险机构在经过核实后向其提供额外补偿。三是充分发挥财政拨款的带动作用。从中央和地方财政用于支持人工智能技术发展的资金中抽取部分款项充实整体性补偿经费。在确定支付对象方面,应当按梯次确定支付对象。在版权集体管理成熟的领域,可由集体管理组织补偿版权人。在集体管理尚不健全的领域,生成式人工智能服务提供者可委托或设立专门的基金组织,对未退出训练的作品版权人进行补偿。对于那些无人领取或难以建立有效补偿机制的领域,可以设立专项基金资助该领域的发展。
四、输出阶段的生成式人工智能版权侵权避风港规则
输出阶段的核心问题是如何认定生成内容侵权的责任,应在过错责任框架下,根据生成式人工智能服务提供者对模型侵权风险的控制能力,厘清须承担哪些注意义务才可免责。
(一)内涵阐释
在输出阶段,当生成式人工智能服务提供者履行了建立投诉处理机制、消除重复作品数据、优化模型过度拟合、干扰用户恶意引导的注意义务,且未直接从生成内容中获得经济利益时,一般不承担赔偿责任;此外,除非版权人提供侵权比对的作品复制件并合理分担技术成本,否则生成式人工智能服务提供者不负有全面审查生成内容的版权过滤义务。从规范依据来看,上述规则是基于《民法典》第1165条过错责任作出的特别规定。
在法律属性方面,输出阶段生成式人工智能版权侵权避风港规则具有列举并限缩注意义务的双重属性。一方面,通过结合现有技术水平将上述注意义务进行总结列举,可以使生成式人工智能服务提供者免受责任不确定性的影响。另一方面,生成式人工智能服务提供者是否应对生成内容履行版权过滤义务本应在个案中判断,但为了降低其合规成本,明确仅在用户提出请求并开展必要配合的情形下才负有过滤义务,是对一般理性人判断标准的明确限缩。
司法实践对生成式人工智能服务提供者的注意义务进行了探索,但存在义务属性混乱、归纳不全面等问题。在生成式人工智能平台版权侵权首案中,法院根据国家互联网信息办公室等部门2023年联合发布的《生成式人工智能服务管理暂行办法》,认定生成式人工智能服务提供者应尽而未尽的合理注意义务包括建立举报机制、提示潜在风险、进行显著标识,否则应就生成内容侵权承担损害赔偿责任。其问题在于:第一,行政规范中的管理义务并不等于版权法上的侵权注意义务,前者旨在确立人工智能产业的发展边界,避免损害网络版权秩序,其中诸如生成内容标识义务等在版权侵权领域并无实际意义,以违反行政法规来论证生成式人工智能服务提供者未尽注意义务将会不合理地提高其合规成本;第二,该案并未穷尽列举生成式人工智能服务提供者应当履行的注意义务,忽略了在现有技术水平下可以采取的规避生成内容侵权的技术措施。因此,即便该案以未尽合理注意义务认定生成式人工智能服务提供者承担版权侵权责任,但说理并不充分。
(二)适用条件
根据技术进展,已知且可采取干预措施的人工智能生成内容侵权原因主要有:用于训练的作品数据重复、模型过度拟合和用户恶意引导。结合生成式人工智能服务提供者的预防成本,除同样适用上述非直接获得经济利益要求以外,还可为其设置以下注意义务。
1.建立投诉处理机制义务
生成式人工智能服务提供者应当建立专门渠道,允许版权人在发现生成内容侵权后向其发起投诉,并要求生成式人工智能服务提供者采取具有屏蔽效果的系列措施。在程序方面,版权人在提交侵权投诉信息时,应当说明受侵害作品的权利信息、人工智能生成内容构成侵权的基本理由及本人的有效签名。生成式人工智能服务提供者在收到投诉后,经核实,须立刻采取处理措施,并向版权人详细说明处理情况,认为不构成侵权的,也须通过投诉渠道反馈认定结论及理由。关键在于,处理措施应与停止侵害具有类似效果。其一,生成式人工智能服务提供者应当及时将侵权情况告知使用人工智能生成该内容的用户,提醒用户不得向他人传播侵权内容,以免损害后果进一步扩大。其二,对于保留该生成内容的模型,生成式人工智能服务提供者应当删除该内容,防止用户持续获取该内容。其三,调取生成内容的用户指令记录,查明侵权行为出现的原因,防止再次侵权。应当注意,基于现有技术水平,从已训练模型中解除学习的成本和难度极高,不论生成式人工智能服务提供者采取何种措施,模型仍有较低概率再次生成相似内容,因此处理措施既不以删除特定作品数据、改变模型算法为必要内容,也无须在效果上绝对等同于停止侵害。
2.消除重复作品数据义务
用于训练的作品数据重复是人工智能生成内容与被训练的作品表达相同或相似的重要原因。实践发现,当大模型在同一作品的多个复制件上反复训练时,便可能生成包含该作品表达的内容,特别是当作品被训练超过100次,便有较大可能产生复制现象。原因在于,重复训练数据使模型反复记忆相同表达,从而误以为作品的独创性表达属于惯常的表达技巧,最终在输出时也有较大概率将该表达作为最恰当的预测结果。目前,造成作品数据重复的原因有三个:一是生成式人工智能服务提供者往往从互联网上批量抓取资源,当多个网站分别存有作品数据时,便不可避免地造成重复;二是侵权复制件的广泛传播,加剧了生成式人工智能服务提供者在合法获得作品后又重复抓取同一内容的现象;三是由于部分作品的特征较为简单,即便是不同作品也容易在独创性表达上重复或高度相似,导致模型在训练中不断习得相同的表达特征。例如,奥特曼、葫芦娃等人物形象的特征在大量传播的图片、视频中都高度相似,极易陷入作品传播越广泛、生成内容相似概率就越高的恶性循环。为了消除重复现象,生成式人工智能服务提供者应采取以下措施:首先,在投入训练前,开展作品重复项的筛选、合并、整理与删除工作。当前,检测重复内容的技术已得到广泛应用,其典型场景为人工智能协助用户发现、整理手机中的重复图片并开展清理。将这一技术嵌入生成式人工智能服务提供者的算法之中,并不会显著增加其技术负担。其次,从正规网站抓取作品数据,避免获得侵权复制件。最后,对于那些因广泛传播更容易造成表达特征重复的作品,应当通过人工干预等方式,适度降低此类作品在总体训练数据中的比重。
3.优化模型过度拟合义务
过度拟合是指模型有违扩散原理,错误地过度关注、记忆某些作品的表达特征,使输出内容与这些作品的表达高度相似或相同。例如,如果模型只是从某画家关于日落的作品中学习天空的绘画技巧,其输出的天空图片便有可能总是包含夕阳、橙色等特征,且与该画家的绘画风格保持一致。可见,过度拟合一方面是由于算法本身不够关注学习对象的所有特征,或是在单个作品样本上开展了过度学习;另一方面是由于数据集本身不够全面,难以反映有关特定对象的所有表达方式,使模型仅掌握了受版权保护作品的表达特征。许多雇主愿意支付昂贵费用定制模型正是利用了这一现象:通过集中输入特定艺术家的已有作品进行训练,使模型在不受其他数据干扰的情况下快速习得相同的作品风格。因此,生成式人工智能服务提供者若要获得免责,须在算法设定与作品数据投放中尽量克服这些问题,可采取的措施包括:第一,优化算法设计,并在训练过程中安排专门技术人员加强对模型的学习反馈,消除过度关注特定作品的现象;第二,对那些因算法设定不够完善而有可能造成过度拟合的模型,应采取不开源的态度,避免侵权风险转为实害;第三,扩大数据样本的分布来源,除作品的表达外,确保模型能够接触到关于学习对象的各种可能特征。
4.干扰用户恶意引导义务
尽管人工智能生成内容具有随机性,但此种特征仍是在用户指令范围内的随机。若用户刻意引导模仿特定作品的表达,侵权概率也会大幅提升。因此,生成式人工智能服务提供者应尽量避免用户输入此类指令:第一,优化用于训练作品的标签内容,避免使特定作者、特定风格与作品形成强对应关系,以更简单、平实的描述设置学习标签,从而使用户指令无法指向特定作者的作品。例如,当输入有关动画形象的作品时,技术人员应尽量避免以该动画名称、人物名称、制作机构、制作年份、经典台词等能够指向该作品的词汇进行标注。第二,对用户进行风险提示与说明。生成式人工智能服务提供者应当在用户使用协议与生成页面中显著提示用户不得使用人工智能服务生成侵犯版权的内容,并可通过视频讲解等形式列举常见的恶意指令,使用户知晓恶意指令范围及输入恶意指令的法律后果。第三,屏蔽具有较高侵权风险指令的生成内容。当前,应版权人的集体要求,当用户对ChatGPT发出模仿特定作品或作者风格的指令时,该模型将会直接提醒用户无法生成此类内容,引导用户改变提示词,以不模仿他人作品的方式输入指令。
5.基于请求的版权过滤义务
版权过滤义务是横跨数字时代与人工智能时代的核心议题。相较于暂时搁置这一问题,通过避风港规则明确生成式人工智能服务提供者仅须依请求实施版权过滤将有显著意义:一方面,基于请求实施版权过滤是一种更具操作性的方案。相较于其他网络版权侵权行为,生成式人工智能产业面临的是更海量的作品使用规模、更复杂的非字面侵权形态、更具不确定性的技术原理。若通过立法免去版权过滤义务,由于生成式人工智能生成内容侵权的概率较低,并不会造成双方利益的显著失衡;若不免去,则可能显著增加人工智能企业的合规成本。权衡之下,若以私人合作替代法定义务配置,由版权人主动向生成式人工智能服务提供者提交版权过滤比对的复制件并适当分摊过滤成本,那么生成式人工智能服务提供者既可以缩小版权过滤审查范围、有效降低成本,还可以使部分高价值作品的版权人获得更充分的保护。
另一方面,基于请求的版权过滤义务契合当前版权过滤义务的立法趋势。不论是传统网络平台,还是生成式人工智能领域,版权过滤的实质皆在于利用算法开展全面信息审查。在这一问题上,具有代表性的美国和欧盟均持否定态度。2019年,欧盟在《数字化单一市场版权指令》第17条中再次强调,网络平台不负有全面版权过滤义务。2020年,美国国会对DMCA进行审查后得出结论:限缩注意义务的避风港规则在当下维持互联网经济仍具有重要意义,应继续在立法层面否定全面版权过滤义务,但作为补充,可以在私人合作层面引入有限版权过滤机制,使有意愿承担起审查义务的网络服务提供者进一步降低侵权风险。借鉴欧盟和美国的立法经验,建议我国也秉持宽松的政策立场,避免为产业博弈造成制度障碍。
在具体执行方面,基于请求的版权过滤应注意以下三点:其一,为了避免初创企业与非初创的中小企业在技术上无法实现版权过滤,应规定仅在生成式人工智能服务提供者达到一定市值或用户规模时才必须接受版权人的版权过滤请求;其二,由于当前算法难以识别非字面侵权行为,因而版权过滤应以防止输出字面内容侵权为主要目标,谨防过度干扰用户的表达自由;其三,作为一种私人合作机制,法律不宜统一规定版权过滤应采取的具体措施与应实现的技术效果,可以允许版权人与生成式人工智能服务提供者依据成本分摊标准,通过合同自行确定相关内容。如此,便可以最大限度地发挥私人合作版权过滤的成本优势与效率优势。
需要指出的是,以上注意义务适用于实际开展模型训练、维护和生成内容业务的生成式人工智能服务提供者。对于只提供“换壳”服务的主体,由于其仅在直接侵权人与用户间发挥桥梁作用,应根据其实际影响力与控制力,适当限缩其注意义务范围,以免无法适用避风港规则。一方面,此类主体直接面向用户,负责收集用户指令,甚至在服务页面给出关键词提示,因此也须在非直接获得经济利益前提下承担干扰用户恶意引导的义务。另一方面,尽管该类主体无法干预模型的训练与生成,但仍应建立投诉处理机制,将版权人提交的侵权通知传达给生成式人工智能服务提供者,并反馈日常经营中发现的可能导致侵权的数据或算法问题。未履行上述义务的,应就版权人的实际损失承担连带责任。
结 语
避风港规则在生成式人工智能领域的应用具有显著意义。首先,将抽象侵权标准明确为具体情形,既维护了传统版权侵权责任规范的稳定性与体系性,也实现了具体规制手段的灵活高效。其次,在传统版权侵权责任规范失灵之处,避风港规则可以借助法律拟制提供免责方案,在兼顾版权人利益与生成式人工智能服务提供者需求的基础上,为产业发展营造宽松的制度环境。为了保障生成式人工智能的“双阶”避风港规则能够正常运行,应当坚持动态评估前述各项适用条件,根据人工智能技术的发展,及时调整生成式人工智能服务提供者应当承担的注意义务,以在可控的成本内最大限度地保障版权人的利益,形成人工智能与人类创作相互进益的局面,事先有效预防生成式人工智能服务提供者版权侵权风险,合理分配生成式人工智能服务提供者的版权侵权责任。
评论