人工智能大模型数据爬取行为的正当性认定
生成式人工智能的发展主要依赖大模型以及对大模型的数据训练,数据训练又离不开大规模的数据爬取。如何规范人工智能大模型的数据爬取行为,在鼓励人工智能产业繁荣发展的同时,又为数据爬取行为建立合理秩序,已成为一项重要课题。在我国的数据开放程度尚不足的情况下,应该通过调整数据抓取行为的正当性考虑因素中的每个参数值,为生成式人工智能营造较为宽松的发展空间。
随着ChatGPT的爆火,生成式人工智能(AIGC)进入快速迭代期,并不断扩展其应用场景。除了在文字创作方面表现 优异外,人工智能也已经开始在图片创作领域崭露头角,北京互联网法院近日判决的人工智能生成图片著作权侵权第一案引发了国内外热议。2024年2月,OpenAI开发的视频生成模型Sora,已经可以根据关键词生成短视频,并在视频中展现镜头切换和局部特写。生成式人工智能将朝着智能化和多文本化的方向发展,并引发新一轮技术革命,其既代表着最新生产力,也是一种国际竞争中的战略资源。
生成式人工智能的发展主要依赖大模型以及对大模型的数据训练,数据训练又离不开大规模的数据爬取。如何规范人工智能大模型的数据爬取行为,在鼓励人工智能产业繁荣发展的同时,又为数据爬取行为建立合理秩序,已成为一项重要课题。
生成式人工智能与“预训练模型”时代
生成式人工智能大模型
依靠深度学习模型的不断演化,大语言模型(LLM)逐渐完善。2018年,OpenAI研发了生成式预训练模型GPT-1,其先以无标注数据进行“预训练”,之后再用有标注数据进行有监督的训练和微调,以获取相应的模型参数,使其可以更好地适配应用场景。自此,人工智能进入了“预训练模型”时代。当前,生成式人工智能正在从单一模态向多模态融合转变,目前的GPT-4可以接受图像和文本的输入,并生成图像和文本,视频生成模型Sora则已经可以生成时间较短的视频内容。生成式人工智能大模型将适用于越来越多的场景,并引领新的技术革命。
在这一波技术浪潮中,美国的互联网企业走在前列,其中以OpenAI开发的ChatGPT以及Google开发的Gemini最为成熟。我国的人工智能产业也紧追不舍,目前已有两批、共计22家公司的产品正式上线。第一批通过备案的产品以百度公司的“文心一言”、阿里巴巴公司的“通义千问”为代表;第二批以美团、昆仑万维、知乎等互联网企业为代表。当前,我国的生成式人工智能大模型呈多点开花的特点,虽然从事相关研发的企业较多,但在语料资源、智能化程度、应用成熟度等方面与美国企业仍有较大差距。
不同国家的生成式人工智能产业政策
生成式人工智能代表着国际竞争中的战略资源,因此各国均十分重视人工智能产业的发展,制定了一系列产业政策。不同国家制定的政策有较大差异,例如,欧盟偏重于规范产业发展秩序,美国既鼓励产业发展又注重引导,日本侧重于以宽松治理为人工智能营造良好的发展空间等。
欧盟对互联网和数据产业的发展一直保持着严监管的基调,试图将数据产业困在法律的牢笼之中。2023年6月,欧洲议会审议通过了《人工智能法案》(ArtificialIntelligence Act)草案,该法案为基础模型提供者设置了7项义务,此外又增设3项义务,其中与数据抓取相关的义务主要有两项:一是数据治理义务,要求模型提供者审查数据来源的适当性以及其中可能存在的偏见;二是数据披露义务,要求模型提者记录并公开提供受版权法保护的训练数据使用情况的足够详细摘要。数据披露义务将会严格限制大模型的数据训练。
美国作为人工智能研发的前沿阵地,对人工智能大模型抓取数据表现出较为开放的态度。在一系列司法判决中,美国法院均认定人工智能大模型抓取数据并不构成侵权。但美国也十分重视对人工智能产业的引导和秩序的建立。美国参议院、联邦政府、国防部、白宫等先后发布《算法问责法(草案)》(Proposal on AlgorithmicAccountability Act)、《人工智能应用的监管指南》(Guidance for Regulation of ArtificialIntelligence Applications)、《人工智能道德原则》(AI Principles: Recommendationson the Ethical Use of Artificial Intelligence)、《人工智能权利法案蓝图》(Blueprint foran AI Bill of Rights)、《国家网络安全战略》(National Cybersecurity Strategy)等文件,提出要对人工智能进行风险评估与风险管理。这些政策文件展现出一个总方向是鼓励将合法、安全、伦理等价值观置入模型算法中。在数据抓取方面,白宫科技政策办公室发布《人工智能权利法案蓝图》,对大模型抓取数据进行了一定的限制,要求大模型收集和使用的数据应当仅限于训练或验证机器学习模型,收集和使用行为是合法、必要的,尊重个人信息主体权利并符合个人信息主体的预期。
日本作为人工智能赛道上的奋起直追者,对人工智能持较为宽容的态度。2018年,日本对《著作权法》进行了修改,其中第30条第4款设置了新的合理使用条款,规定“不以欣赏作品原有价值为目的的利用”均构成合理使用。日本文部科学大臣长冈惠子表示:日本《著作权法》认为,大模型在进行数据训练时对版权材料的使用构成合理使用,大模型训练对版权材料的抓取无论是出于非营利目的还是商业目的,无论是复制还是复制以外的行为,均不构成侵权。日本通过对《著作权法》的解释,为大模型抓取数据扫除了版权法上的障碍。
我国目前并没有生效的、专门针对人工智能的法律法规和政策文件。2023年4月,国家互联网信息办公室发布了《生成式人工智能服务管理办法(征求意见稿)》,对训练数据的来源、训练数据质量、涉知识产权、涉个人信息等问题提出要求,强调训练数据应当“具有合法来源”,不应以非法方式获取数据。2023年6月,中文在线、同方知网、中国工人出版社等26家单位共同发布了国内首份有关AIGC训练数据版权的倡议书,强调AIGC模型在抓取数据时应获得版权许可。
人工智能大模型与数据训练
数据训练对数据的需求
大模型具有强大的理解能力和推理能力,这得益于对大模型的数据训练。大模型的训练和调用是一种新的大数据利用方式。大模型的数据利用包括两个步骤:首先,利用数据去训练大模型,通过训练的结果获得更优化的算法和详细的数据参数,通过调整参数可以获得不同的数据利用结果;其次,利用大模型通过输入信息进而生成所需要的内容。各家公司使用的大模型在底层算法上没有过多的区别,但数据训练的规模和训练后获得的参数,将会影响大模型的应用效果。不同公司会形成不同的数据配方,通过调整各种数据的投喂占比,获得特有的技术参数。
用于数据训练的数据规模在大模型的研发和运行中起着至关重要的作用。但随着大模型的发展,数据训练所需的数据数量呈指数级增加。GPT-1使用4.8G的原始数据进行训练;GPT-2使用过滤后的40G数据进行训练;GPT-3使用从45T原始数据中过滤所得的570G数据进行训练;GPT-4则在过滤数据的基础上,又加入了高质量的人类标注的数据。目前,ChatGPT完成一次训练需要消耗百张以上GPU计算卡,而北京智源“悟道2.0”数据训练的参数达到1.75万亿的量级。数据训练对数据来源的胃口之大,使得其必须不断扩大数据抓取的来源。
数据训练中的数据来源
现有的主流大模型主要使用开源的数据集进行训练。训练数据主要有两种来源:(1)直接收集,通过互联技术手段或者采取网络爬虫等方式,收集储存于网络中的公开数据;(2)间接收集,包括其他数据处理者自愿提供等。
从美国的当前实践看,用于训练的数据类型主要有:(1)公开的稳定性数据,如专利文档、上市公司公开财务信息、法院裁判文书、政策文件等;(2)属于政府或公众的公共数据,如公共交通、供水、供电、供气等信息;(3)科研属性数据,如天气、医疗、地球科学、基础科学等领域的信息;(4)科研期刊论文,如百度学术、谷歌学术等。
美国在开放数据方面遵循公共数据“应开尽开”的原则。政府开发了AI训练数据的开放平台,科研期刊论文平台也设置一般性的开放API接口。此外,美国的社会力量在开发数据、标注数据方面也较为领先,这也大幅提升了数据的精细度和专业性。相比之下,我国在训练数据方面还存在一定的差距,政府开放数据的广度不够,许多公共数据开放不足,平台企业对数据的共享意愿度低。据统计,中文开源数据集数量仅占英文开源数据集数量的11%,这不利于我国对大模型的数据训练。
数据抓取引发的纠纷
从目前的发展趋势看,国内各公司大模型在算法层区别并不大,且同质化较为严重。决定大模型运行效果的就是数据的训练,因此训练数据成为竞争的关键。在开放数据不足的情况下,数据训练只能依赖于网络上的数据抓取。未经许可的数据抓取,也加剧了大模型提供者与数据储存者之间的冲突。
在美国,2023年年底,纽约时报起诉OpenAI和微软违规收集其新闻数据进行训练。2023年1月,图片网站Getty公司对AI图像生成器研发公司Stability AI提起法律诉讼;4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限;同时期,聚合新闻网站Reddit公司宣布向使用其API进行训练的公司收费。
我国目前还没有与数据训练相关的诉讼案件,但在2023年6月,学而思未经授权利用合作伙伴“笔神作文数据”进行大模型训练,也引发了两家公司之间的纠纷。可以预测,未来,大模型领域围绕数据抓取、训练可能会产生大量诉讼,学术类、新闻类、图片类、音乐类、影视剧类、社交类数据库和平台或将成为诉讼的主要发起人。
人工智能大模型数据抓取行为的正当性评价标准
数据抓取行为司法裁判基本思路
据笔者统计,目前我国已有的关于数据抓取的司法案例共有23个,这些案例中已经形成了较为统一的裁判思路。首先,要结合数据的类型,将数据分为公开、半公开、非公开;其次,要分别考察抓取行为与使用行为是否具有不正当性;最后,要综合考量各种因素对数据抓取行为进行评价,包括:(1)抓取行为对被抓取方利益是否造成损害,如对被抓取方的服务器造成负担和运营成本;是否削弱被抓取方的竞争优势和竞争力;是否实质替代被抓取方,侵害被抓取方未来的利益;是否影响被抓取方与合作伙伴的合作模式。(2)抓取行为是否侵害消费者利益,包括是否侵犯用户个人隐私,是否侵犯消费者的知情权、选择权,是否侵犯消费者的眼前利益、长远利益等。(3)抓取者对数据的利用是否属于技术创新。(4)抓取行为是否损害竞争机制。
对于人工智能大模型的数据抓取行为的法律评价,也不能脱离目前较为成熟的正当性评价体系。但人工智能大模型进行数据训练时所进行的抓取行为,与现有判例中的数据搬运行为有较大的区别。当前的司法实践中,被告的数据抓取行为多为简单的数据搬运,并未对抓取的数据进行有效的开发和利用;而数据训练所实施的数据抓取行为,则具有创新性的数据使用性质。此外,考虑到人工智能大模型是新型产业,也是国际竞争中多国纷纷抢占的数据产业制高点,而我国目前在这一领域又存在起步落后、数据开放利用不足、汉语语料不多的特殊情况,司法应该为人工智能大模型提供宽松的发展环境,对人工智能大模型数据抓取行为的评价标准进行适当调整。
对“公开数据”与“非公开数据”区分保护
我国当前的司法实践将数据区分为“公开数据”与“非公开数据”。在北京微梦与云智联案以及北京微梦与蚁坊案[1]中,法院均认为:未设定访问权限的数据,属于公开数据;通过登录规则或其他措施设置了访问权限的数据,属于非公开数据。但这样的区分过于粗糙化。根据数据产业的普遍认识,数据应当划分为三类,即公开数据、半公开数据、非公开数据,其中公开数据为未设定访问权限的数据,半公开数据为通过账号密码登录可以获得的数据,非公开数据为其他设置了访问权限的数据。
首先,对于公开数据、半公开数据、非公开数据的保护程度应有所不同。对于公开数据,应当允许人工智能大模型进行数据抓取;对于半公开数据,应当一定程度上允许大模型的数据抓取;对于非公开数据,其抓取应获得被抓取方的访问权限。第二,要考察使用的数据规模及对被抓取方的影响,如果抓取数据规模过大、明显超出必要范围,或给被抓取方造成较大运营负担,可以认定具有不正当性。第三,训练数据时对数据的抓取要符合可控性,国家安全、公共利益、商业秘密、个人识别信息等敏感高风险数据不应被纳入训练数据。
在微梦公司已与蚁坊公司案[2] 中,微梦公司运营“微博”平台,蚁坊公司未经许可抓取微博上的信息和数据,用做网络舆情动态监测;而微梦公司已与蜜度公司合作,蜜度公司也从事网络舆情动态监测。最终,法院认为,因被告抓取的信息还包括微博平台上已经删除的信息,推定被告抓取了微博平台上的非公开数据,且蚁坊公司直接向用户展示微博内容,损害了微梦公司的核心资源,最终认定被告的数据抓取行为具有不正当性。由该案可知,抓取方对非公开数据的抓取应该承担更为谨慎的义务。
数据抓取行为的正当性评价
评价数据抓取行为的正当性的考虑因素包括:是否经过被抓取平台授权或许可;是否突破被抓取平台的技术保护措施;是否违反Robots协议;是否获得用户授权等。基于人工智能大模型数据训练而进行的抓取行为,如果内容生产者(用户)许可抓取方获取其在平台的数据,应认为此类抓取行为具有正当性;违规使用他人内网账号、密码、Token登录获取数据,被抓取方也适当容忍;超越授权范围获取数据,被抓取方也适当容忍。这三种情况下,数据抓取行为手段的不正当性较弱,且对被抓取方的影响也较小。
我国《著作权法》第四十九条规定,故意避开或者破坏技术措施,应该承担侵权责任。《工业和信息化领域数据安全管理办法》第十四条规定:“工业和信息化领域数据处理者收集数据应当遵循合法、正当的原则,不得窃取或者以其他非法方式收集数据。”绕开网站或App的禁止或限制措施、绕过强制性的认证机制爬取数据;破解或规避技术保护措施,破解客户端、加密算法以爬取数据;上述两类抓取行为的主观恶意较为明显,也会影响平台的数据安全,具有明显的不正当性。
目前的司法实践中,法院在审理数据抓取相关案件时,已不再一概认定被告的抓取行为构成侵权。例如,在腾讯诉杭州祺韵案[3]中,用户在被告平台即可登录原告游戏进行操作,而不需要下载原告游戏,同时被告还收集了原告游戏的用户账号、密码和游戏操作记录等数据。原告认为,被告收集原告游戏用户账号、密码和游戏操作记录的行为构成侵权。最终,法院认为,原告对游戏操作记录等原始数据没有投入更多的成本运营,被告获取数据取得了用户授权,收集此类数据没有影响原告游戏正常运行,最终驳回了原告的诉讼请求。又如,在智联、前程无忧案[4] 中,用户在被告平台关联智联、前程无忧账号,就可以获取用户在智联、前程无忧等平台上的信息。原告认为,被告获取其数据的行为构成不正当竞争。法院则认为,被告取得两家平台内简历信息的操作,是由智联、前程无忧的合法用户主动操作完成,系经过了用户授权,且查看下载有关简历信息等本属智联、前程无忧用户的权益范围之内。可见,并非所有的未经许可进行的数据抓取行为均具有不正当性,而应当区分不同情况进行个案认定。在评价人工智能大模型的数据抓取行为时,应该适当提高抓取行为不正当性的认定标准,降低大模型抓取数据的法律门槛。
违反Robots协议抓取数据的正当性评价
并非所有的违反Robots协议抓取数据的行为均具有不正当性,而应该区分不同的情况进行认定。如果Robots协议具有歧视性、不正当性,那么违反Robots协议进行数据抓取的行为,将不具有不正当性。因此,法院应当审查设置Robots协议的合理性,特别是在搜索引擎领域。
在奇虎诉百度案5中,百度对奇虎360搜索引擎设置了Robots协议,禁止奇虎360爬取百度的网站内容,奇虎360认为百度的上述行为构成不正当竞争。法院认为,百度在缺乏合理、正当理由的情况下,以对网络搜索引擎经营主体区别对待的方式,限制奇虎抓取其相关网站网页内容,影响该通用搜索引擎的正常运行,构成不正当竞争行为。《互联网搜索引擎服务自律公约》提出,互联网所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由。因此,在搜索引擎领域,通常不可以设置歧视性的Robots协议。
在非搜索引擎领域,网站具有自主设置Robots协议的自由。当前的司法实践认为,在不损害消费者利益、公共利益及竞争秩序的情况下,可以通过Robots协议对数据抓取行为进行适当限制。在字节公司诉微梦公司案6中,字节公司爬取“微博” 平台上的数据,转移至其“微头条”平台,微梦公司则设置Robots协议禁止字节公司的上述爬取行为,但字节公司违反Robots协议进行了数据爬取。最终,法院认为字节公司的上述爬取行为构成不正当竞争,主要裁判理由为:字节公司只进行了简单的数据搬运,没有对数据做到深层利用,这种搬运行为属于同类实质替换;非搜索引擎的网络机器人往往不是给被搜网站带来流量,反而可能带走被搜网站的流量;微梦公司设置禁止字节公司爬取的Robots协议,未损害消费者利益、公共利益及竞争秩序,是网站经营者经营自主权的一种体现。
从当前情况看,人工智能大模型并不属于搜索引擎领域。但是,为了鼓励人工智能大模型的发展,是否可以将其参照为搜索引擎进行法律评价?这一问题仍值得探讨。
数据抓取不合法是否必然导致后续数据使用行为不合法?
前文已经论述了数据抓取行为正当性的评价标准。目前,有法院认为,数据抓取行为的不合法,必然导致后续的使用行为也不合法。在微博诉云智联案7中,法院认为:因云智联公司抓取涉案数据中的非公开数据这一行为本身即不正当,其抓取涉案数据中的公开数据之行为手段亦非正常手段,故其在涉案App中推送、展示这些数据的后续使用行为,因数据来源不合法而不具有正当性之基础。
但是,人工智能大模型在抓取数据后进行的数据训练行为,不同于简单的数据搬运。数据训练一般不会再现被搬运的数据,数据训练行为类似于著作权法上的转换性使用,属于对数据的深度加工和挖掘,并不构成对被抓取方的实质替代。因此,对于没有损害竞争机制的数据训练行为,可以认定其不具有不正当性。
对于人工智能大模型的数据抓取,要对数据抓取行为和后续的数据使用行为分别进行考量。如果后续的数据使用行为没有对被抓取者产生实质替代,甚至具有一定的创新性,则可以认定数据抓取行为具有正当性,甚至可以适当包容数据抓取中的轻微
不规范行为。
结语
当前,我国的生成式人工智能发展未取得领先优势。在我国的数据开放程度尚不足的情况下,应该通过调整数据抓取行为的正当性考虑因素中的每个参数值,为生成式人工智能营造较为宽松的发展空间。应充分考量数据抓取行为所使用的手段、Robots协议本身是否正当、抓取数据的性质、后续使用行为是否具有创新性等因素,降低数据抓取行为正当性的认定标准。但在豁免轻微不规范抓取行为的法律责任的同时,还应倡导相关部门建立数据交易平台,鼓励人工智能大模型通过合作、购买等方式获取训练数据的授权,建立规范的数据使用秩序。
1 北京知识产权法院(2019)京73民终3789号民事判决书。
2 北京知识产权法院(2019)京73民终3789号民事判决书。
3 广州互联网法院(2020)粤0192民初20405号民事判决书。
4 上海知识产权法院(2019)沪73民终263号民事判决书。
-
上一篇:
-
下一篇:
- 网信办就《人工智能生成合成内容标识办法(征求意见稿)》公开征求意见
- 谷歌人工智能系统“双子座”被诉侵犯商标权
- 数据反垄断第一案:宁波森浦信息技术有限公司滥用市场支配地位案处罚决定
- 基础模型训练的著作权问题:理论澄清与规则适用
- 美国、英国和欧盟将签署首个国际人工智能条约