中文

Base on one field Cast our eyes on the whole world

立足一域 放眼全球

点击展开全部

法律宝库

更多 >>

ChatGPT可能存在哪些版权风险?

发布时间:2023-05-04 来源: 中国知识产权报 作者:李泳霖
标签: 版权 ChatGPT
字号: +-
563

阅读提示:最近ChatGPT备受关注,其生成内容是否构成作品、版权属性如何以及其学习的过程本身是否存在版权风险等问题引发关注。本文认为,ChatGPT等聊天机器人在深度学习过程中可能存在版权风险。笔者建议,为防止文本与数据挖掘中版权风险的扩大和发酵,有必要对聊天机器人学习中的版权风险加以规避。

近期,人工智能对话聊天机器人ChatGPT受到各界的关注。以ChatGPT为代表的聊天机器人之所以给大家留下深刻印象,与其近乎“专业”的回答内容不无关系。实际上,看似“智能”的聊天机器人,其回答人类问题的语料来自于工程师的事先“投喂”与“训练”,其回答的内容是以既有数据与文本为素材,并经由深度学习而生成的。所以在与聊天机器人相关的版权问题中,除了其生成内容是否构成作品及其版权归属如何之外,聊天机器人学习的过程本身是否存在版权风险也值得关注。

AI“学习” 困扰尤存

聊天机器人学习过程的主要环节是文本与数据挖掘,也就是通过分析数字化形式的文本和数据来获取新知识,可以将其形象地理解为人类的“投喂”和机器人的“消化”,这就需要大量文本与数据的输入。在数据的使用数量上,尽管ChatGPT所使用的GPT-3.5语言模型相关数据尚未公开,但其上一代语言模型GPT-3就已经需要千亿级参数加以支撑,所以不难预见GPT-3.5的数据量将更为庞大。这其中就可能存在大量受版权保护的客体,也就是作品。

与此同时,聊天机器人在文本与数据挖掘过程中一般需要经过信息抽取、语义分析、关系计算和知识发现4个步骤,涉及受著作权人控制的复制以及改编等行为,因此面临落入权利人复制权和改编权等权利控制的风险。此外,在有些国家,挖掘无独创性的数据库还可能落入数据库权的控制范畴。因此,正如ChatGPT自己所承认的那样,即使已经尽可能减少版权风险,但不能保证所有使用的数据都经过了原始作者的许可。

合理使用 明晰界限

虽然通常情况下对他人作品的使用需要遵守先授权后使用的原则,但是在满足合理使用和法定许可条件的情形下,即使未经许可也能够实现风险规避。聊天机器人的学习过程能否构成合理使用和法定许可值得探讨。

所谓合理使用,是指在特定条件下,法律允许他人自由使用著作权作品而不必征得著作权人的同意,也不必向著作权人支付报酬的情形。我国著作权法规定的合理使用规则较为严格。一方面,任何行为如果构成合理使用必须首先满足著作权法第二十四条规定的“三步检验法”,也就是应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益。另一方面,还需要符合著作权法第二十四条所明确列举的合理使用行为类型。

笔者认为,聊天机器人挖掘作品难以构成具体的合理使用行为。例如著作权法第二十四条虽然规定了可以不经著作权人许可也不向其支付报酬就可以使用他人已经发表的作品,但仅限于个人以学习、研究或者欣赏为目的。而聊天机器人大多为法人或者非法人组织开发,不具备主体资格条件。再比如合理使用行为虽然还包括了可以为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但同时也要求不得出版发行。此外,其他有名的合理使用行为也难以为聊天机器人挖掘文本与数据提供版权风险豁免。

尽管我国著作权法第二十四条在规定了具体合理使用行为的同时,还设立了兜底条款,也就是在满足上述“三步检验法”的前提下,合理使用除了著作权法明确列举的情形外,还包括了“法律、行政法规规定的其他情形”。但笔者认为这一兜底条款的适用应当受到严格限制。其不仅要满足著作权法第二十四条规定的“三步检验法”的要求,而且需要在立法上被其他法律和行政法规加以明确规定。

尊重版权 规避风险

相较于合理使用,法定许可的适用条件更为严格。而且我国当前规定的报刊转载法定许可、制作录音制品法定许可、播放作品法定许可、编写出版教科书法定许可、制作和提供课间法定许可、通过网络向农村提供特定作品的准法定许可,这6种法定许可类型都难以为聊天机器人挖掘文本与数据所面临的版权风险提供规避理由。因此,当前阶段聊天机器人的学习过程确实存在着版权风险。

由于聊天机器人的商业化应用场景非常大,为防止文本与数据挖掘中版权风险持续扩大和发酵,有必要从学习前和学习过程中对版权风险加以规避。首先,在数据与文本挖掘之前,聊天机器人的运营公司应致力于实现版权来源的合法化。例如通过著作权集体管理组织积极获得版权人的许可。其次,在文本与数据挖掘过程中提高权利状态的识别能力。对于权利人已经设置robots协议禁止抓取的内容,或者通过添加水印或标签等标识已经表明未经许可禁止使用的内容,聊天机器人在未经授权的情况下不应随意挖掘。

评论

在线咨询