中文

Base on one field Cast our eyes on the whole world

立足一域 放眼全球

点击展开全部

法律宝库

更多 >>

生成式人工智能知识产权侵权的司法考量

发布时间:2023-11-28 来源:《数字法治》杂志 作者:胡凌
字号: +-
563

一、现有法律问题

生成式人工智能应用(以下简称“生成式AI”)的法律问题并不复杂,之前讨论大多集中在信息安全风险规制问题,在《生成式人工智能服务管理暂行办法》发布后开始转向技术应用过程中的知识产权侵权问题。相关知识产权侵权大致可分为大模型训练语料库内容侵权和生成作品被侵权两个层次,后者是个老问题,还可以一直延伸至人工智能能否成为作者甚至法律主体的讨论;而前者引发的纠纷逐渐增多。本文将聚焦于前者,讨论如何看待语料库来源合法性引发的纠纷以及这将如何影响此种技术和行业的未来。

随着生成式AI的落地,种种迹象表明,该行业正经历互联网发展早期“非法兴起”的关键而漫长的阶段。通俗地说,生成式AI背后的大模型需要更多真实和高质量的语料库进行训练,才可能对有效标记进行评估和预测,并根据提示词生成用户想要的内容。除算力外,从何处获取高质量语料库或数据集就成了该行业绕不开的核心问题。

购买正版语料库是一个选择。事实上数据标注投喂算法这一商业过程很早就开始了,很多企业一直在进行人工标注,或者专门收集和录制特定种类数据出售,更多的还是在专门领域积累机器学习数据。对追求通用化的大模型而言,需要结构化的数据体量更加庞大。依靠用户创造内容的平台企业并不缺乏数据,其模式本身就是在用户自产自销过程中来追踪内容生产者和消费者行为,使用算法分析进行精准匹配。如果开发大模型,无非是在现有模式基础上增加机器生产和更加自动化的分析,这一切都在平台创设的空间内部完成。要想真正有能力部署有效果的大模型应用,势必依托于拥有广泛用户的在线服务,从而实时获取更新的数据。如果缺乏用户为其生产语料库,自己就需要进一步购买或抓取网络公开数据,而这又是一般生成式AI企业不愿意付出的成本,因为它们无法预估购买训练数据的效果和直接市场价值。

以往关于生成式AI侵权的分析容易脱离商业模式和市场结构抽象讨论。就个案来说,从现有法律中找到一些相对确定的答案解决纠纷并不太难。第一,如果发生了某生成式AI企业使用未经授权的作品或数据集进行训练,尽管难以从生成结果和学习过程中取证,但在企业内部获取一些涉及大量内容文本复制传输行为的证据相对容易。第二,尽管“机器学习”是个技术术语,但认定为数据处理(涵盖了复制和使用)问题不大,那么未经授权或没有尽到合理注意义务就会有较为显著的著作权侵权风险。第三,就算无法认定为汇编作品,语料库作为一个整体也可得到《反不正当竞争法》的保护。在以往相当多案件中,通过爬虫或其他非法手段获取既有平台企业的数据并不鲜见,法院也大多以不正当竞争诉讼解决了。

如果只分析至此,无助于我们对真实问题的理解,即司法需要采取何种对策回应才合适。对事后法律适用而言,区分算法是否由大模型驱动的意义不大,只要关注企业外在行为和后果即可,而生成式AI治理看起来更多属于产业政策问题,无法完全由司法行为主导。然而,个案中的裁判仍然有意义,侵权认定和判罚标准的高低都会释放对新技术行业态度的不同信号,影响投资者行动。在当下强调诉源治理的大背景下,有必要考虑为何此类纠纷会发生、生成式AI想要什么以及如何发挥司法的边际作用,从而帮助降低行业发展的制度成本,实现合作共赢。

如果大量高质量语料库掌握在不同企业手中,生成式AI企业自然可以通过谈判进行交易。但问题在于,部分大模型开发者难以通过合理价格获取想要的训练数据,这涉及相当多的问题。例如,数据本身的价值无法通过市场得以展示或定价、从购买数据到训练后形成稳定的商业模式需要比较长的时间,以及如果缺乏足够多的前期投入基本上不太可能成功。这也是为什么经过大约半年的炒作,大模型市场泡沫开始退去。除去经济下行因素,资本投资也比较谨慎,那些缺乏明确商业模式的项目可能都无法进行。因此人们对语料库价格的预期就不太可能过高,但同时相当多语料库企业对其持有的结构化数据都抱有乐观态度,他们宁愿待价而沽或者在谈判时“敲竹杠”。理性的语料库企业已经认识到即使授权给大模型企业,也未必能得到即时回报,考虑到市场的不确定性,更有可能抬高价格,赚取短期收益。特别是那些已经拥有广泛内容生态的平台企业会更加谨慎,因为它们无法测度内容授权共享给对方带来的间接流量收益,更担心生成式AI企业将通过不断学习优质数据而成为内容生产者或生产链条上游的工具垄断者,降低整个内容服务市场的成本并占据竞争优势。在双方不同预期下,谈判很容易破裂,即便大模型开发者试图以侵权促合作,也未必有好的效果。

导致生成式AI企业转向私人控制语料库的另一个原因是网络空间中缺乏高质量的公开数据,大量有价值的内容和行为数据事实上由私人平台持有。即使各级政府一直在推动公共数据开放,当下也因财政问题和数据安全担忧而转向更保险的授权运营机制。早期互联网的开放生态和行业规范已逐渐存在转向封闭和自我循环的倾向。由此不难理解,包括可能的大模型开发者在内的AI创业者不得不尝试通过爬虫等方式获取各类网络数据用以开发新技术,而无论是否得到授权。这就和早期互联网“非法兴起”十分类似。但不同之处在于,早期“非法兴起”得到的信息内容经过数字化转换就可以直接变成免费内容在网上使用,并成为平台商业模式的一部分;而生成式AI企业即使对语料库进行预训练,也并不意味着可以直接产生可预期的价值。这也导致现有语料库平台企业往往更愿意自己单独开发大模型,提升已有服务的质量,而较少和外部力量合作,更不可能想象会迅速取代已有服务。这个逻辑也是理解目前平台企业间内容流动互联互通无法实现的重要因素,即两个成熟生态系统之间的要素交换难以定价,依靠行政指令强制合作难以得到好的效果。

二、作为权益分配的司法裁判

如果我们相信生成式AI代表着未来人工智能模式发展的重要技术路径,就会对大模型数据训练过程保持宽容,认定数据训练过程并不会带来直接可见损失,而一旦大模型训练成功则可以反过来惠及更多行业和开发者,成为某种基础设施甚至必需设施。在这种立场下,数据确权只会阻碍流动,只有发现存在对语料库持有者造成明显损害的行为时才需要追责,甚至可以充分利用“避风港规则”限定责任范围,降低注意义务的成本。这种思路实际上是一种责任规则,即在无法事先确定要素价格以及无法获得要素持有人同意的情况下,由法院事后适用损害赔偿,确定一个法定价格。另一种态度则是严格保护语料库数据集的财产性利益,只有明确获得授权才可以使用,且考虑到其建设投入的固定成本很高,要为侵权行为设定较高的注意义务标准,主张按照通行市场价格(往往是垄断定价)进行赔偿。这是一种典型的财产规则思路。

两种思路都不乏支持者,如前所述,大模型开发者极力呼吁责任规则,而语料库持有者则保持观望,希望落实财产规则,并试图威慑其他潜在大模型开发者不要轻举妄动。有趣的是,数据确权议题本身就是那些没有能力获得数据的企业提出的意识形态话语,因为只有将数据权属分散到个体,而不是控制个体数据的大型平台,个体才可能有动力在各种诱惑和补贴下将数据进行转移(通过“一键搬家”软件,实现“数据携带权”),从而降低创业成本。大型平台在数据确权讨论中从来都保持沉默,因为它们想要的并非具体的数据要素确权,而是整体性的架构财产权,目的是有效排除竞争对手未经许可即进入架构空间。

因此问题就变成了,从整体利益考量出发,生成式AI产业需要何种规则才能更好地满足社会需求,即不仅要把蛋糕做大,还要相对公平地分蛋糕。在科斯看来,如果交易成本足够低,将权益事先配置给哪一方问题都不大,有价值的资源和技术自然会流转至需要的市场主体手中。就数据要素市场而言也类似,只要生成式AI企业和语料库企业有意愿进行谈判,就可以通过合作方式而非单纯交易共同有效开发这些数据。鉴于目前双方很难就生成式AI使用高质量语料库的价格达成共识,一旦发生侵权行为,法院设定的赔偿标准就非常关键。如果无论如何都会发生非法方式获取数据的侵权行为,责任规则和财产规则的差别实际上就成了损害赔偿的威慑程度问题。如果赔偿额度持续较高,则可能带来高强度威慑,抑制潜在的大模型开发者,降低行业活跃程度,也就更接近财产规则;如果赔偿额度较低,威慑强度也随之降低,行业更有动力进行尝试,也就更接近责任规则。

这里主要涉及两个层次的因素。首先是行为定性和发生概率。数据不正当竞争行为在互联网行业并不少见,经过大约十年的积累和传播,现有《反不正当竞争法》已经完全可以涵盖和规制,司法领域逐渐达成了共识:未经许可入侵架构空间获取资源要素的行为属于不正当竞争。无论事后数据如何使用,只要使用爬虫或软件外挂进行数据转移,就可以认定为破坏了数字市场秩序。尽管法律对特定处罚行为尚没有明确授权,这一趋势开始扩展到行政执法领域。但重要的还不是定性,而是就赔偿额度统一标准,从而在司法领域和行业内都形成可预期的行为尺度。这并不容易,各地法院很难短时间内就要素价格标准达成共识。

其次是威慑强度。司法事实上需要做的并非选择题,而是帮助确定一个合理价格。这意味着司法未必只有积极应对才是对的,只要不过度妨碍大模型技术的开发,推动市场调节可能会有更好的效果。一般而言,在此类案件中,判处侵权的赔偿价格不仅应低于作为原告的语料库企业提出的天价赔偿额度,也应尽可能低于一个可能的垄断市场价格。其目的不仅在于补偿原告过去的投入及确定赔偿标准,同时也表达了对新技术研发可能失败的鼓励甚至奖励。如果社会想要一直向前,就不得不容忍新技术带来的一定程度的破坏性。看到司法并不试图主动干预,双方当事人才有可能重新思考行动策略:要么原告试图和解,并收取略高于赔偿金的价格达成合作,这也是被告可以接受的;要么原告采取自我防御的技术措施,防止爬虫爬取,或者自行开发大模型,将社会成本内化。

三、生成式AI的商业模式

司法裁判在确定赔偿数额时,也可以考虑生成式AI展示出的不同类型的商业模式,进而理解它们对法律制度供给的不同需求。目前,除了AI内容生成需要受到监管外,对模型训练内容的合法性也有一定约束。语词表达本身决定了我们看待特定技术应用的不同面向。如果我们使用“生成式”,表达的实际上是生成内容为主的AI服务,而“大模型”则是任何一种服务背后的算法设计,其使用潜力未必仅限于内容生产。机器学习和数据训练从外部观察视角看来只是一个黑箱内部的技术环节,只有在成熟的平台服务模式下才显示出其能力,这必须依托一个服务形式触及用户才能做到。用户在意的也并非单纯的内容生成,少有人会无聊到时时和机器聊天,或者仅为了生成有趣图片而持续使用大模型,而是会寻求多元的应用目标。因此,只有在现有服务基础上的生成式应用才更实际一些,既能满足用户的创造欲望,又可以生产出更多可供消费的多样性服务。这也意味着生成式AI尽管生产能力极大增强,自身却未必能单独产生新的稳定模式。

我们可以通过光谱方式对可能的商业模式大致加以展示。第一,对于已经拥有语料库内容的平台企业而言,可以逐渐加大AI生成工具介入的程度,辅助人类用户创作,让用户内容更加丰富多元。但这可能也会导致一些生产者抵制机器生产(如绘画领域),为了继续获取流量,平台不得不作出妥协。第二,对于独立的生成式AI企业而言,可以模仿既有平台模式依靠用户使用AI软件生产,但约定用户生成作品需要发布在特定封闭平台内供其他用户学习交流,也可以采取会员制。AI企业在其中仅起到组织生产的功能,但也需要对内容合法性承担一定的注意义务。第三,生成式AI企业可以出租或出售软件,约定由用户成为特定作品的创作主体,因此一切使用该软件的行为都是用户个人行为,传播和发布完全由用户本人负责。这种模式目前在行业发展初期较为常见,即企业试图避免担责,从而放弃可能的AI作品收益。第四,生成式AI企业全自动生产成为内容服务提供者,这种模式下自然会主张独立的创作者地位,用户只能订阅浏览,但不能传播或再创作。我们尚未看到最后一种全新机器生产模式的大规模普及,尽管法律和政策分析多是以此为前提的。

如果生成式AI没能构成一个全新的生产方式,只是某些无法预知未来的新技术,甚至无法成为基础设施,那么法律进行特别倾斜保障的理由似乎就变弱了。从历史上看,互联网“非法兴起”的意义就在于实现了针对工业化生产方式在组织意义上的突破,但生成式AI如果在现有平台模式基础上延伸,就会受到当下保护既有平台利益的法律规则的约束。但同时也要注意到,“非法兴起”并非一个应然状态,而是数字经济创新突破的实然解释,我们只有在一项技术和模式成熟的情况下才意识到之前的若干政策措施做对了,才可能回过头去总结经验,尽管对未来也未必管用。这是否意味着司法裁判应当且不得不采取一种无为态度?

如果更加细致地分析,以下几个因素决定了,至少在当前生成式AI侵权场景下,责任规则可以广为适用且负外部性不大。第一,模型训练是整个生成式AI开发的关键环节,但从开发到落地还有其他众多环节,使用财产规则认定侵权并施加高损害赔偿既超越了利益双方认知,也不会带来任何实际好处。第二,中国的情况和美国以ChatGPT和LaMDA为首的市场结构不同,率先开发大模型的企业并未具有突出的竞争优势,且大模型开发者较少掌握高质量语料库,短时间内没有反竞争的迹象,也不会出现非常明显的无序爬取大量数据的不正当竞争。第三,有能力投入大模型开发的都是实力雄厚的大企业,它们之间的纠纷争议可以限制在一定范围内不会扩大。其行为模式分别是:对于大模型开发者,除非必要,一般不会投资过多以购买很多分散的语料库,因为新增单一语料库仅仅是在边际上改善,无法看出对大模型功能的明显提升,只要能通过大模型招牌成功吸引合作者圈地即可。这解释了为何大量不成熟的大模型产品纷纷发布,哪怕面临监管风险。对于语料库持有者,它们会自己开发大模型,并严格保护自己的数据,且有能力游说政府进行监管处罚。因此,提出生成式AI侵权议题的可能更多是大型企业,只要考虑到算力成本就可以理解中小企业基本上不太可能加入这场论辩。第四,尽管就大模型应用落地还很难在全社会范围内达成共识,特别是个体生产者往往担心自己被取代,但已经有行业协会(如文著协)牵头同大模型开发者进行交流讨论,这就意味着两个利益群体及其代理人之间的协调总体可控。

四、结语

本文并不试图对未来进行预测,也不站队,而是从司法裁判层面出发,简要分析为何责任规则在处理生成式AI侵权纠纷中可能更为合适。我们已经看到行业资源在不断整合与合作,一起把蛋糕做大。责任规则的好处不在于保证那些率先投入的企业能真正获得低成本的资源,而是留出可能的创新空间,并引导社会既得利益者向该领域投入更多,最终带动整个行业转型,施惠于整个社会。相较于财产规则,责任规则可能更加适应这个时代的变化,并推动可能的创新。

本文尚未深入触及的问题是分配,即带来强大生产能力的生成式AI是否最终能推动更有价值和高效的生产,从而降低所有社会成员的生活与工作成本,并给那些被取代的潜在劳动者以合理回馈和补偿,继续处理好个体劳动者和平台企业的关系,无论这种平台是语料库持有者还是大模型开发者。

评论

在线咨询