首席律师徐新明

13910160652

ciplawyer@163.com

关于我们

在线咨询

专利

更多 >>
商标

更多 >>
版权

更多 >>
商业秘密

更多 >>
反不正当竞争

更多 >>
植物新品种

更多 >>
地理标志

更多 >>
集成电路布图设计

更多 >>
技术合同

更多 >>
传统文化

更多 >>

点击展开全部

律师动态

更多 >>

2025.01.21

徐新明律师团队代理的福航公司与日本某株式会社发明专利权无效行政纠纷案终审胜诉

2024.03.18

历时八年：徐新明律师代理的埃利康公司发明专利无效行政纠纷案胜诉

2024.11.04

《华夏时报》采访徐新明律师：中创新航打响专利反击战，向宁德时代和特斯拉等索赔超10亿元

知产速递

更多 >>

审判动态

更多 >>

案例聚焦

更多 >>

法官视点

更多 >>

裁判文书

更多 >>

法律宝库

更多 >>

中国法库

法律法规立法动态政策指引
国际法库

他国法律国际公约

返回列表

首页 > 理论前沿 > 反不正当竞争

公开商业数据爬取行为的规制路径

发布时间：2022-08-25 来源：知识产权杂志作者：任浏玉

标签：商业数据爬取

字号: +-

563

内容提要：公开商业数据源于个人数据，形成于数据收集技术，是独立于个人数据的数据类型。劳动说与激励说无法成为公开商业数据赋权保护的正当性基础，赋权保护路径既违背传统权利生成过程且实践效果存疑，并最终可能导致权利泛化。然而，如果摒弃赋权保护路径，完全放任公开商业数据被肆意爬取，可能会破坏市场竞争秩序，从而阻碍市场竞争。反不正当竞争法不预设具体利益而只判断行为正当与否的“行为谴责式”判断范式，完全契合规制爬取公开商业数据行为的谦抑性。现阶段由于我国《反不正当竞争法》类型化条款无法提供救济，适用一般条款规制爬取公开商业数据行为是较为妥当的方案。

一、引言

《“十四五”数字经济发展规划》将数据资源确定为数字经济发展的关键要素，并指出“数据要素是数字经济深化发展的核心引擎。数据对提高生产效率的乘数作用不断凸显，成为最具时代特征的生产要素。数据的爆发增长、海量集聚蕴藏了巨大的价值，为智能化发展带来了新的机遇。协同推进技术、模式、业态和制度创新，切实用好数据要素，将为经济社会数字化发展带来强劲动力”。数据经济是以分享为核心、自由流通为主要目标，因此关于数据所引发的问题亦应遵循此目标予以解决。

目前，国内关于商业数据问题的研究已趋向于赋权保护，并在此基础上分化出传统财产权、新型财产权等多种模式。以内容和公开程度为标准，可以将商业数据分为作品类商业数据、商业秘密类商业数据和公开商业数据等。作品类商业数据包括平台企业对所收集的数据进行整理、编排、加工后形成的独创性表达，属于以汇编方式创作的作品。当平台企业将收集的数据采取加密措施、符合商业秘密构成三要件（秘密性、保密性和价值性）要求时，该类数据即为商业秘密类商业数据。公开商业数据则是指既不具备独创性又未采取技术措施限制爬取的商业数据集合。对于前两类商业数据的保护，国内学者已经达成基本共识，而公开商业数据的保护方式仍存在较大争议。

对于公开商业数据，从域外来看，制定法层面鲜有国家对公开商业数据进行保护。如日本对于商业数据的保护依赖于《不正当竞争防止法》，且仅保护限定数据，公开商业数据未落入该法的保护范围。美国法院的态度是，从利益平衡的立场出发，明确在平台选择公开商业数据而未采取技术措施时，不应对该数据爬取行为进行限制，因为公开商业数据的产生是基于用户而非平台的贡献。

国内学者倾向于保护公开商业数据，具体模式可分为以“劳动说”“投入说”为正当性基础的赋权保护路径和以“商业道德说”为正当性基础的反不正当竞争法保护路径。此处关于公开商业数据的赋权保护路径基本与个人数据、政府数据的广义商业数据赋权保护并无差异，且赋权保护路径在理论研究层面占主导地位。虽然赋权保护的路径看似合理，但从公开商业数据的保护在全球范围内尚未形成共识来看，各国对公开商业数据获得独立保护的必要性、正当性基础、路径等问题都存在分歧，因此赋权保护方式是否经得起严谨推敲值得认真考虑。

从司法实践来看，我国多数案例裁判倾向于以“商业道德说”为主的反不正当竞争法保护路径。但司法实践中多数案件均是围绕爬取公开商业数据行为而展开，反不正当竞争法对于公开商业数据究竟是一种保护路径，还是对爬取公开商业数据行为的一种规制路径，亦需要明晰。

二、公开商业数据的形成及其基本属性

公开商业数据是指排除了作为商业秘密及作品的商业数据集合，因此又被称为数据领域的有限空白、互联网平台公开数据。公开商业数据虽然与广义商业数据来源相同，但又具有自身的基本属性，使其法律性质的判定具有一定程度的不确定性。公开商业数据的基本属性由其来源和形成过程所决定。

（一）公开商业数据的来源

商业数据来源于个人数据，个人数据是商业数据集合中的基础数据。但是一旦互联网平台将个人数据进行收集、整合并公开，数据使用权限就很难为上传个人数据的用户所控制。这一结果源于用户在使用平台服务前与平台签订的一系列协议。如新浪微博更新于2022年3月3日的《微博个人信息保护政策》对于如何收集、使用用户个人信息作了明确说明。该政策指出，这种收集包括直接收集、间接收集以及通过技术设置自动收集等收集方式。在这种情况下，新浪微博平台将是否使用该社交软件权利交由用户自由选择，如其明确告知：“收集这些信息是为了帮您创建微博账号和对您进行实名验证，如果您拒绝提供这些信息，将影响您注册使用微博。”而且，用户须在遵守此规范前提下授予平台对其个人信息拥有一定的自决权。如《微博个人信息保护政策》规定，新浪微博平台有权在以下几种情况下不征求用户授权同意的情况下处理（包括收集、使用、委托处理、共享、转让和公开披露）用户的个人信息。一旦用户接受上述条件并上传个人信息，除非将上传信息删除、撤回同意或其他方式拒绝平台处理，否则均将视为同意平台使用用户的个人信息，如在对用户个人身份信息进行去标识化处理后进行分析和商业化利用，或者在合理范围内使用用户自行公开的信息。

多数互联网平台关于用户个人数据隐私保护和使用与《微博个人信息保护政策》大同小异，都是以一揽子协议的方式提前划定了平台企业与用户个人的权利边界。此处暂且不讨论这些隐私政策内容的正当性与合理性，单从新浪微博软件使用情况来看，用户须接受此政策才可以使用该软件。而且通过协议获得用户授权并统一约定信息使用情形，避免了一一授权的交易成本和沟通成本，这也是有学者认为无法将数据归于平台和个人共有的原因。因此，公开商业数据的来源是用户自愿上传的个人数据，用户在使用该平台软件时授权平台在相关协议或政策设定范围内使用该数据。

（二）公开商业数据的形成

用户上传海量个人数据，互联网平台通过收集这些个人数据最终形成平台商业数据。但是，简单收集无法呈现出我们日常所看到的合理常态化的数据集合，其中发挥关键作用的是数据分析技术。

数据分析技术“是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理，从而获得分析和预测结果的一系列数据处理技术”。数据分析技术使得互联网平台可以从大数据中挖掘出有价值的数据，因为大数据具有“规模大、种类多、生成速度快、价值巨大但密度低”的特性，这也导致大数据无法被直接利用而需要通过数据分析技术将海量数据结构化。这一过程可以比作“大海捕鱼”。“鱼”表示收集的待处理的数据，与传统数据时代的“池塘捕鱼”相比，大数据时代“捕鱼”环境条件的变化导致“捕鱼方式”出现根本性差异。而造成这种“捕鱼方式”根本不同的原因在于，数据与模式出现的先后顺序不同。传统数据时代预先设定数据运行模式进而填充数据，大数据时代则完全相反，且运行模式一直伴随数据进行变化。

大数据时代的数据分析是一种遵循科学流程而展开的技术处理过程，首先对大数据进行采集、预处理与存储管理，然后通过大数据计算模式系统对大数据进行分析与挖掘，最终实现大数据可视化分析。数据分析的重点不在于数据的堆积，而在于通过利用数据指导平台做出更精准的决策，如设计出适合用户的数据产品或营销方案，从而获得高利润。这也是不同平台利用同样数据但所获回报率却有较大差异的原因，因为数据是且仅仅是一种最基础的生产资料。

（三）公开商业数据的公共属性

互联网平台收集海量个人数据，用户通过协议等方式授权互联网平台使用数据，因此，用户授权的仅是基于其上传的原始数据的使用权。如果上述数据经过平台加工且做了可视化处理，那么平台就对可视化后的数据拥有使用权。当然这一划分仅是理想状态下的简单划分，由于巨头平台收集的数据条目非常多，进行此区分根本不现实，因此，无法据此确定数据的权属。同时，这一使用权内容已广泛超出传统财产权项下的使用权范围，这也是基于数据这一特别内容的必然发展结果。此处平台收集的个人数据仅指一般的毫无独创性的数据，如果是用户自行创作的图画、歌舞等通过互联网平台上传至公共领域，虽然用户授权互联网平台使用，但不影响用户对作品享有著作权。

脱离了个人数据的公开商业数据，且平台对于该公开商业数据仅享有协议项下的使用权的情况下，公开商业数据即具有了其独立性，其独立性成就其公共资源属性。

公开商业数据的独立性表现之一，是该类数据独立于个人原始数据。数据分析技术使互联网平台将收集的数据得以结构化呈现，这种数据集合已无法归属于用户个人，更无法归属于平台和用户共有，因为在这样的商业据集合中，很难将个人数据单独识别出来，并且很难确定权利边界。在这种情况下，如果将个人数据视为人格权或者个人财产，将导致几乎所有互联网平台的用户协议失效，互联网平台将受制于用户个人。

公开商业数据独立性的表现之二，是数据平台无法因用户协议授权数据使用权而获取该商业数据的所有权，因为业已形成的商业数据来源于个人数据且是通过通用的数据分析技术形成的。如果平台通过用户协议将数据权属进行变更，可能构成显失公平的合同条款。例如，2017年新浪的《微博用户服务使用协议》规定，未经微博平台事先书面许可，用户不得自行或授权任何第三方以任何形式直接或者间接使用微博内容，试图通过协议约定变相获取用户数据据为己有。如前所述，用户只是将个人数据使用权让渡给平台，尤其是该个人数据属于著作权法所保护的作品时，此协议无疑等同于个人数据之上的著作财产权被无偿分割，仅仅依赖于简单的用户协议即将著作财产权全部转移。在引起社会争议之后，新浪微博将其用户协议修改为“未经微博平台事先书面许可，用户不得自行授权任何第三方使用微博内容”。这意味着即使通过收集个人数据、利用数据分析技术得出的商业数据集合，互联网平台亦不能独占。

更重要的是，一旦商业数据设置成公开模式，即表明平台已经默认数据的可共享性，即允许网络自由爬取。此种判断源于互联网互联互通的本质以及数据的可复制性，这与传统财产权客体存在根本区别。如果平台拒绝数据爬取完全可以进行技术限制，当然设置技术措施可能会增加平台技术成本，并将成本转嫁至用户身上。但是市场竞争参与者之间本身存在相互妥协的可能性与必要性，数据的利用又具有实时性，平台有时根本无需专设技术用于保护即将迅速失时的数据。鉴于此，有观点认为数据通过其本身的开放性、自由性、公共性来实现社会化利用。至于利用这些数据资源获取的知识、技术等创新成果，如果符合知识产权条件的，可以给予一定期限的专有权保护，而数据自身则永远停留在公共领域。

三、公开商业数据赋权保护路径的不可行性

大数据一出现即被称作“未来的新石油”，但与自然资源石油不同，数据需要人为收集、分析、整理，即数据是劳动、投资的结果。这成为赋权保护路径的正当性基础。数据赋权保护路径已成我国学界保护数据的主流观点，且分化出数据新型财产权、数据生产者权、企业数据权、数据用益权路径以及大数据有限排他权路径等多种赋权保护路径。这些路径虽然略有差异，但都将平台劳动、投资作为数据赋权保护的正当性基础。公开商业数据是否需要保护需兼顾多种考量因素，如平台海量数据源于用户上传的个人数据，其中包含涉及个人隐私的数据和构成相关知识产权的个人数据。深入检视不难发现，数据赋权保护路径的正当性基础并不坚实，与相应权利的生成过程相背离，实践效果存疑，导致权利泛化。总而言之，赋权保护路径并非公开商业数据保护的最优选。

（一）公开商业数据赋权保护路径的正当性基础不够坚实

公开商业数据赋权多以劳动说和激励论作为其理论基础。如果将劳动说作为互联网平台获取公开商业数据权利的正当性基础，公开商业数据产生过程中的劳动又体现在哪些方面呢？这一劳动过程主要体现为数据分析过程，亦是数据挖掘的重要过程，包括：数据收集，即对网络中海量数据进行筛选、去伪存真，且注意丰富数据来源，保持数据异构化；数据存储，即运用冗余配置、分布化和云计算等技术对数据进行过滤、去重而划分门类；数据处理，即从海量数据中通过技术对数据进行降维处理并通过语义分析导出可理解内容；结果可视化呈现，即将上一过程中处理得出的清晰数据迅速呈现给平台用户，实现用户与数据的交互体验。但是，从前述数据来源与数据分析过程可以看出，公开商业数据形成过程中的劳动并非平台自身的劳动，公开商业数据是用户上传数据和通用算法这两种劳动的共同结果，“企业的劳动与数据池的形成没有法律上的利益生成关系”。因此，劳动说不能作为公开商业数据赋权保护路径的正当性基础。

激励论多认为互联网平台创建之初进行了实质性投资，而互联网平台以数据为主要内容，因此有必要通过数据赋权对公开商业数据进行强保护，从而保证互联网平台的投资积极性。但是，投资的目的是为了收益，而平台收益并非主要依赖于数据本身。互联网产业具有外部性特征，即溢出效应、外部效应，且相较于传统行业的外部性，互联网行业的外部性更加明显。传统行业中的投资具有沉淀性，其外部效应需要通过长时间的固定资本投入，而互联网行业并不需要过多的前期积累，配合其双边市场特性，行业信息流动便捷，各方收益回流迅速。这也是互联网平台通常免费向用户开放，然后通过吸引广告商植入广告获取利润的原因。更重要的是，投资与利益的获得本身没有必然的因果关系，因为商业投资必然具有风险。因此对平台的初始投资也应不是数据赋权的理由，即不保护公开商业数据并不必然导致平台丧失营利渠道。所以，激励论也无法证成公开商业数据赋权保护路径的正当性。

（二）公开商业数据赋权保护路径与相应权利的生成过程相背离

公开商业数据赋权进路大致可以概括为两种路径：传统财产权路径与新型财产权路径。从权利生成过程来看，新型财产权路径是一种新兴权利。关于新兴权利的可能性学界存在争议，但是可以肯定的是，新兴权利无法凭空产生，其需要一个权利基底，如个人信息权源于隐私权基底，且新兴权利之所以被“新兴”是因为社会发展所需要，但是事实不存在的权利其实践必要性须严谨对待。那么，创设新型数据权利的基底是何种民事权利？显然，公开商业数据权利没有相应的权利基底，而是基于现实情况考虑创设。

将公开商业数据归类为知识产权保护的模式一度受到普遍认可，著作权法成为法律救济的首选，但这种路径存在明显问题。

第一，该种路径将数据等同于知识产权的客体，即智慧财产，但公开商业数据本身与智慧财产的特性存在较大不同。互联网平台收集数据并通过数据分析技术将商业数据可视化，最终实现与平台用户的交流与互动。虽然平台对海量的数据进行了整理与编排，但这一过程无法等同于著作权法中汇编作品的选择与编排，这也是数据无法作为汇编作品进行保护的原因。知识产权法定主义决定了知识产权客体的要求，而公开商业数据并不符合知识产权客体要求。数据这一客体虽然符合知识产权客体可共享性特点，即不像传统财产权项下有体物排他性使用，但是这种可共享性特点并不同时具备知识产权客体的稀缺性特点。

第二，公开商业数据赋权保护路径与著作权保护的内在逻辑格格不入。以有限排他权路径为例，这一路径赋予数据平台公众传播权，并将这种传播权归为邻接权。这一赋权理由在于虽然这种赋权基础没有智力劳动，但是现存的广播组织权也并未因没有智力劳动而被著作权法排除在外。但著作权法是调整与文学艺术和科学作品有关的法律，广播组织权的授予是因为广播组织对作品进行了传播，而大数据集合与作品并没有关联。这一赋权路径的另一理由还在于避免市场失败，即如果不赋予数据收集者一定的回收投资的产权，就会产生市场失败。但是，赋予公众传播权是否能矫正市场失败并不确定，如前所述，商业投资的风险性是必然的，这种失败究竟是市场失败还是平台自身投资失败并未可知。更重要的是，有限排他权模式这一表述存在根本上的歧义。如果是权能上的排他，那么数据平台因数据收集就应享有公众传播权，只不过其不是排除任何第三人的公开传播，而是在效力上排除部分人，或者在部分地域、部分范围内排他。但有限排他权的内容显然不是如此，而是与著作权相比，仅赋予大数据收集者公众传播权，其他权利并不赋予。

第三，公开商业数据赋权保护路径与著作权法中保护期限的设定存在龃龉。从产生的原因来看，著作权是社会公共利益与智慧财产创造者利益之间平衡的产物，因此对于著作权的保护存在期限限制。然而，如果将公开商业数据作为知识产权保护的客体，那公开商业数据应设置多久的保护期限，以数据资源更新的时效性效仿著作权保护期毫无意义。同时，保护期过后的作品即进入公共领域，但这并不意味着进入公共领域的知识成果即毫无价值，但是公开商业数据这一时效性客体在经过保护期后是否仍然具有实用性并具有二次开发的价值则不确定。

（三）公开商业数据赋权保护路径的实践效果存疑

如果对公开商业数据赋权，那么权利实践的可行性必须经得起严谨论证，即如果能够设定权利，那么该权利的实践效果必须能兼顾权利保护和数据共享，并保证在互联网数据时代以公开商业数据为客体的权利设定可以适用传统权利行使过程。然而，公开商业数据赋权保护路径的实践效果并不能尽如人意，可行性存疑。

首先，公开商业数据赋权保护路径在权利取得方式上不同于财产权。从数据本质来看，数据不同于传统财产权客体，其作为一种生产资料具有较强的公共属性，这种公共属性导致它不具备排他性和竞争性，更重要的是，它并不会像传统财产一样通过使用而被消耗。因此，无论数据如何被获取、复制，原始数据不会像传统财产那样被移转。在这种情况下，有观点将其视为同知识产权一样的无形资产并主张知识产权保护路径。但是，知识产权这种无形资产通过法律设定而存在，且该法定主义是为了平衡公共利益与知识产权权利人的利益冲突。该法定权利的设定建立在创新的基础上，而数据这种基础生产资料尤其是本文所讨论的、在排除了可能因创新而获得知识产权保护之外的公开商业数据，显然不能只因为其具有无形性就认为其可以被知识产权所吸纳。

其次，从设权成本来看，公开商业数据赋权成本过高，无法兼顾权利保护与数据共享。这种高立法成本源于数据始终在多个主体间不停流动，权属边界模糊。财产权制度的核心是个人享有财产的各项控制权，且这种控制权是所有权人与财产之间一对一的映射关系。这种情况下公开商业数据的赋权保护可能出现极端情况，即多个主体主张不同权利，强行预先为其赋权则会产生“过度攫取公有领域中信息的危险” 。

最后，公开商业数据赋权保护路径难以构造出完整的权利义务结构体系。从权利创设结果来看，必须有相应的义务主体承担相应的义务内容，且当权利被侵害之后必须具备完整的权利救济体系。义务的创设则需要将权利细化，但是从现有研究来看，尚无完整的数据权利构造体系。从权利救济方面来看，公开数据赋权保护的目标是阻止竞争对手对该公开数据进行肆意爬取，但是数据的可共享性导致权利无法实现其弹力性和追及效力，因为从平台自身来看，公开商业数据并未减少，自证其商业损失亦极其困难。这恰恰证明了公开商业数据赋权保护路径的实践效果有待推敲，这也是适用反不正当竞争法规制以公开商业数据为载体的不正当竞争行为的必然性，即绕过精细的权利体系构造，以数据市场有序发展为目标对公开商业数据爬取行为进行正当性判断。

（四）公开商业数据赋权保护路径导致权利泛化

从公开商业数据赋权的根本理由来看，此权利是因时而设，即此权利的创设是基于当下公开商业数据行业发展的情境。如果此限定情境发生变化，权利的设定内容是否具有应对新情境的能力，而且数据行业的发展载体是互联网，如果答案是否定的，那么将导致该权利设定失去实践性。缺乏实践意义的权利设置最终将会导致权利泛化，因为需要不断设置新的权利以弥补之前权利救济的不足。

数据赋权因缺少实践性而导致权利泛化问题在比较法上也有经验可以借鉴。欧盟一直以来倾向于对数据进行赋权保护，1996年通过《数据库保护指令》（以下简称《指令》）赋予数据库控制者特殊权利，然而十年后，欧盟对该《指令》的评估表明其实践效果不尽如人意。因为这一《指令》的实践效果最终被证明违背了数据保护的宗旨，即协调性、促进投资、强化数据获取以及增强竞争力。《指令》所构建的保护规则实际上是一种过度保护，这种过度保护直接导致相较于美国而言，欧盟各国数据量大幅减少。由于《指令》对数据库的保护没有达到最初设想的效果，2017年欧盟在《打造欧洲数据经济》报告中又提出创设数据生产者权。有观点即认为该项权利的设置必须在获取数据与提升竞争力两个目标上进行严格评估，并且在原《指令》尚未完全废除的基础上协调二者关系也非易事。因此，权利的新设应经过严密论证，不仅需适应社会发展新状况，也应与既有权利体系相协调，否则如果因新设权利无法达到预期效果再次设权，必然导致“泛权利化”趋势。这不仅会造成权利设置目标与实效背离，也将导致严重的权利冲突，最终造成“立法愈多而秩序感愈少”的尴尬境地。

四、从对象到行为：公开商业数据爬取行为的反不正当竞争法规制

公开商业数据本质上无需赋权保护，但是如果完全放任该数据被肆意爬取，可能会阻碍大数据相关产业健康有序发展。从我国司法实践来看，现有围绕公开商业数据产生争议的案件基本的行为方式，均是行为人未经许可爬取对方公开商业数据，这也是法院论述是否构成不正当竞争的关键。公开商业数据被爬取具有天然的必然性，这是由公开商业数据本身的公开性决定的。因此，适用反不正当竞争法这一“行为法”对不正当的爬取公开商业数据行为进行规制恰如其分。因为对于这种爬取行为的正当性判断完全契合反不正当竞争法关于不正当竞争性“行为谴责式”的判断范式。但是，从技术中立的角度来看，数据爬取行为作为互联网行业无法避免的行为，原则上无需规制，只是由于数据爬取并未有一个明晰的限度，容易导致数据爬取过度，从而直接威胁互联网的生态平衡。因此，在现阶段，灵活性适用一般条款规制不正当的公开商业数据爬取行为具有合理性，但必须保持谦抑性。

（一）适用反不正当竞争法规制公开商业数据爬取行为的契合性

1.反不正当竞争法“行为谴责式”判断范式

作为公开商业数据“保护”的另一路径，反不正当竞争法一直被认为可以避免赋权保护路径产生的阻碍数据共享从而限制数据市场发展的问题。这种路径产生的原因在于公开商业数据被认为是一种既定利益，而反不正当竞争法保护的正是无法上升为权利的利益，适用反不正当竞争法对公开商业数据进行保护恰如其分。但从反不正当竞争法本质来看，行为法属性决定了其并不是为了保护某种利益而存在，而是通过制止某种不正当竞争行为，实现市场竞争有序发展。从根本上来看，数据的可复制性和不确定性决定了对数据价值本身难以评估，进而决定了不应当预设公开商业数据利益。因此对于公开商业数据问题，与其说反不正当竞争法是一种保护路径，不如说是一种规制爬取行为的手段。

反不正当竞争法框架下不正当竞争行为的判断范式应区别于侵权法框架下的“权利侵害式”判断范式，采取“行为谴责式”判断模式。我国司法实践中多数不正当竞争案件裁判皆采用了权利侵害式判断模式。这种模式下法院通常并非首先对不正当竞争行为本身进行考量，而是对合法利益进行预判，在确定存在既定可保护的利益之后再对竞争手段的正当性进行分析。竞争利益前置性判断方式在涉及公开商业数据爬取案件中亦经常出现。例如，在上海汉涛信息咨询有限公司诉北京百度网讯科技有限公司等不正当竞争纠纷案中，法院认为关于信息使用行为的正当性判断应首先考虑该信息是否具有商业价值，而对于商业价值的判断，法院认为点评信息是汉涛公司的核心竞争资源，这一竞争资源是其花费大量资源通过劳动获取的。这一判断模式无疑是以利益确定为先导判断不正当竞争行为的成立，且通过劳动论确定该公开商业数据的商业价值。这种判断模式忽略了市场竞争的本质，即商业竞争的目的就是对竞争优势、商业机会的争夺。只要存在商业竞争，必然存在一方占有竞争优势，一方损失商业机会，这种竞争形态正是经济社会中市场竞争所需要的。尤其是对于公开商业数据而言，其作为一种市场竞争的基础性生产资料，更不能将其预设为既定的商业利益。此外，竞争利益之所以不具有可诉性还在于其无法被具化，这种竞争利益只有被不正当竞争手段侵害时才能体现出来。

但是，对于公开商业数据利益前置性问题，一些法院也逐渐改变此种做法，逐渐向“行为谴责式”判断模式转化。例如，同样在上海汉涛信息咨询有限公司诉北京百度网讯科技有限公司等不正当竞争纠纷案中，上海知识产权法院二审虽然肯定汉涛公司的数据收集劳动，但是认为“当某一劳动成果不属于法定权利时，对于未经许可使用或利用他人劳动成果的行为，不能当然地认定为构成反不正当竞争法意义上的‘搭便车’和‘不劳而获’，这是因为‘模仿自由’，以及使用或利用不受法定权利保护的信息是基本的公共政策，也是一切技术和商业模式创新的基础，否则将在事实上设定了一个‘劳动成果权’”。这一论断既肯定了公开商业数据的原则上的利用自由，亦否定了不正当行为“权利侵害式”的判定范式，同时也证明公开商业数据具有价值并不等同于公开商业数据值得被保护，在反不正当竞争法框架下依旧应以行为的不正当性判断为核心。

2.数据爬取技术的中立性质

数据爬取的目标主要通过网络爬虫（Web Crawler）技术实现。网络爬虫技术相较于人工收集信息时代，依赖于自动化算法实现了信息收集质的飞跃。作为一种数据收集技术，网络爬虫存在两种数据收集途径：网页爬虫和接口爬虫。相对于传统的网页爬虫技术，接口爬虫技术更加精准。正是因为精准技术的升级导致数据爬取技术日益被滥用。现有对数据爬取的限制方式多通过Robots协议实现或者通过技术手段设限。Robots协议是行业自发形成的用于限制数据爬取的一种沟通机制。平台通过在设置Robots根文件限制数据爬取内容。在这一设置之下，数据爬取范围非常有限。虽然该协议的初衷是为了维护数据运行与数据共享的数据行业发展平衡，但数据平台现多倾向于利用该协议直接将所有数据设置为禁止爬取。这从另一种角度来看，能够被爬取的公开商业数据并不在Robots协议限制范围之内，因此可以自由爬取。通过技术设限则是一种反爬虫手段，即通过技术设置阻止数据爬取。技术设限通常包括：IP限制，即被爬取平台通过设置IP地址的访问次数、频率上限拒绝服务；验证码方式限制，即被爬取方在对IP地址访问次数设限，继续访问则需返回验证；登陆限制，即被爬取平台仅展示一些基础数据，如继续访问则需登陆平台；数据伪装限制，即通过一些特殊字体或字符对数据进行伪装增加数据爬取难度等多种手段实现。但是这些方式的正当性以及实际效果并未达成预期，尤其是当涉及爬取公开商业数据时，这些限制方式是否合理值得探讨。技术限制手段从根本上拒绝数据爬取最终可能导致数据垄断，因为从数据行业现状来看，大规模数据集中在少数巨头平台手中，这些平台如果通过技术壁垒持续性地保持数据集中，多数数据平台将无法继续生存，这也是hiQ Labs, Inc. v. LinkedIn Corp.案中美国法院进行利益平衡考量的原因。此外，这样的数据垄断将导致数据弱势平台为生存发展采取技术手段突破技术壁垒，造成数据爬取问题刑事化。

数据的价值在于可以重复利用、重复开发，基于同一种生产资料创造出不同的数据价值。但是数据价值的产生以及数据技术的革新均以足够体量的高质量公开数据为前提。鉴于此，《促进大数据行动发展纲要》将加快政府数据开放共享作为主要任务，稳步推动公共数据资源开放。公共数据的开放先例势将引导部分商业数据的公开化，打破数据壁垒，避免以独占大量数据为目的数据孤岛出现。除政府主动开放共享数据外，欧盟已初步探索企业数据向政府共享的路径，即“B2G数据共享”（Business-to-Government Data Sharing, B2G Data Sharing）。这种共享方式以数据利他主义为精神核心，倡导“政府或其他社会组织基于一般利益有权无偿使用企业和个人数据”，以激励社会经济数据共享。从数据平台运营角度来看，虽然数据爬取会对数据平台产生流量压力（数据爬取行为即在短时间内通过设定程序大规模访问目标平台，加大平台运营压力，甚至妨碍其用户正常访问，而数据平台为了维护平台正常运行必然需要加大技术投入和运营成本），但这并不必然导致数据爬取行为的不正当性，因为对于没有设置技术限制的公开商业数据而言，平台对于数据爬取行为具有容忍义务。“数据相关法律问题的研究均根植于网络空间或数字社会，而网络情境与现实社会的根本区别则在于是否依赖于工程或科学技术构建。”因此，对于公开商业数据爬取的规制仍然无法脱离互联网技术本身。依赖于互联网技术的发展，数据爬取也日益精准化和时效化。数据爬取是数据收集的主要方式，不仅极大提高了数据收集的效率，而且降低了数据收集成本。同时，也正是因为这种高效率、低成本的数据爬取技术促进了数据的全网流通和迅速变现。因此数据爬取行为已经成为互联网生态的一部分，数据爬取技术的中立性必然决定了爬取公开商业数据的行为具有非必然责难性，这种非必然责难性进而决定规制爬取公开商业数据行为只有在反不正当竞争法框架下才能得以实现，因为不预设具体利益、只判断行为正当与否的判断范式完全契合规制公开商业数据爬取行为的谦抑性。

（二）反不正当竞争法规制公开商业数据爬取行为的路径：适用一般条款

1.适用一般条款的合理性

面对实务中多适用反不正当竞争法一般条款解决公开商业数据爬取问题，学界多对此持异议。这种异议不止针对数据问题，也涉及其他不正当竞争行为适用一般条款，因此，“滥用”成为了适用反不正当竞争法一般条款适用的惯常评价。但面对社会出现的新型案件且短时间内无法固化为具体不正当竞争行为类型时，一般条款的适用具有恰当性。

反不正当竞争法的完整性结构是通过一般条款和类型化条款等形成的。反不正当竞争法中的一般条款在反不正当竞争法中具有根本的地位和影响。这种定位源于其与一般法律原则和概念相比具有较高的规范性，与类型化条款相比又具有内容上的模糊性，而在法律适用上又具有合法授权的裁量性，属于独立于法律原则和具体规则的第三类规范存在形式。一般条款的存在不仅扩大了反不正当竞争法的调整范围，而且保持了其规制的灵活性。其内容往往具有概括的规范性，即对权利与义务作出概括性的规定。如我国《反不正当竞争法》第2条第1款规定：“经营者在生产经营活动中，应当遵循自愿、平等、公平、诚信的原则，遵守法律和商业道德。”该条款对市场竞争参与者的基本义务作出了相对完整的规定。同时也可以看出一般条款具有不确定性，这种不确定性体现在其语言表述的概括性上，如自愿、平等、公平、诚信以及商业道德这些词语的内涵及外延难以准确界定，尤其是“商业道德”的界定，通常与多种因素有关，如法域、行业以及时代的变迁。

面对一般条款的不确定性，有观点反对适用一般条款解决公开商业数据爬取问题，主张将侵害公开商业数据不正当竞争行为类型化。但是这一方式在现阶段，即对数据性质定性暂未形成共识的背景下，就对公开商业数据予以法益确定，甚至匆匆进行侵害类型化划分，难免造成与赋权路径匆匆划分权利范围一样的后果。此外，现阶段关于数据的案件类型完全是技术使然。技术的快速发展是否会使侵害数据权益行为类型化目标落空，也难以预料。一般条款的不确定性与其说是不确定性，不如说是一种概括性，这也正是一般条款存在的意义。一般条款应对的是没有形成常态化的不正当竞争行为，如果为一般条款的适用设置标准且严格的条件，则存在将一般条款类型化的嫌疑。面对互联网环境下适用一般条款的可能性，我国法院也并非完全“滥用”一般条款，而是根据具体情景总结出更加细化的规则。如在“新浪微博诉脉脉案”中，法院认为适用一般条款除应满足最高人民法院提出的三个条件外，还应满足以下三个条件：（1）该竞争行为所采用的技术手段确实损害了消费者的利益，如限制消费者的自主选择权、未保障消费者的知情权、损害消费者的隐私权等；（2）该竞争行为破坏了互联网环境中的公开、公平、公正的市场竞争秩序，从而引发恶性竞争或者具备这样的可能性；（3）对于互联网中利用新技术手段或新商业模式的竞争行为，应首先推定具有正当性，不正当性需要证据加以证明。尽管该规则内容存在争议，但这一适用规则对《反不正当竞争法》一般条款进行了创新性适用，而且随着互联网的发展、案件的不断新型化，这种创新性规则会不断完善，进而取代旧的规则。这种随势而动、因案而设的规则亦是一般条款灵活意义所在。

2.适用一般条款的考量要素：场景化考量

我国司法实践对公开商业数据爬取案件基本上均适用反不正当竞争法一般条款进行规制，基本原因即在于公开商业数据的爬取行为违反了一般商业道德准则。区别于传统行业的商业道德标准，互联网时代的商业道德标准有其特性。对于爬取公开商业数据行为是否违反商业道德，有法院在审判实践中创设了相应的标准。例如，在北京微梦创科网络技术有限公司诉北京淘友天下技术有限公司等不正当竞争纠纷案中，法院认为脉脉获取微博信息违背了OpenAPI合作模式的基本原则——“三重授权”原则，即用户授权、平台授权以及用户授权。亦有法院以行业规定，即Robots协议为判断标准。但其实Robots协议无法作为数据爬取行为的商业道德标准，因为如以该协议作为一种行业准则，其制定往往源于互联网巨头平台，即使各平台对其稍作改动，其仍然无法适用于具体案件场景，且不同平台的改动将直接导致数据爬取的自由度不同，巨头平台的出发点多为限制数据分享，规则必然较为严格。因此，无论由法院创设标准抑或以Robots协议作为数据爬取正当性判断的道德准则，均过于主观。

区别于权利法以关注权利为中心，作为行为法的反不正当竞争法必然以规制不正当竞争行为为核心，因此对于公开商业数据问题，也不应以预设公开商业数据利益为前提，而应关注围绕公开商业数据竞争行为的正当性。市场竞争必然产生不正当竞争行为，互联网产业的发展也必然导致网络不正当竞争行为的产生，而且网络发展越充分，网络不正当竞争行为的方式就越多样。相较于传统产业依赖产品价格及质量这两大对象争夺交易机会产生，互联网竞争有其自身特点。互联网行业的竞争主要围绕用户的注意力展开，因此采用不同技术手段争夺用户注意力即成为常见的竞争手段。此处的用户并非仅指小范围的网络平台注册用户，还包括根植于互联网双边市场性的所有参与者。只要获取了这些用户的关注，无论是获得最终用户的使用费，还是通过双边性特性吸引到的广告植入，都可以形成平台营利的稳定渠道。因此，阻止用户注意力转向或截取用户注意力成为互联网不正当竞争行为的根本动因。不正当获取用户注意力通常通过流量劫持、关键词、广告屏蔽以及数据爬取等方式进行，但是这些方式无一例外均是技术使然。从技术中立角度出发，这些方式并非天然具有不正当性。因此，在适用《反不正当竞争法》一般条款判断爬取公开商业数据是否违反商业道德以及破坏竞争秩序时，应当进行客观的场景化考量。

美国法院面对公开商业数据爬取问题采用场景化考量规则。场景化规则源于数据隐私保护，后运用于数据爬取的司法规制。这一规则通过在具体场景中考量数据爬取过程以及数据爬取结果，来平衡数据爬取过程中所涉及的各方利益。在场景化规则之下，美国法院认为爬取公开数据行为完全合法，因为在数据公开的情况下，数据爬取行为既未违反协议授权，也未突破技术限制。这一结果与日本《不正当竞争防止法》对公开数据未予以保护相似。我国亦有学者肯定场景化考量规则对于数据权属界定的益处，无论是对个人数据还是企业数据，均是解决权属问题的最佳方式。美国hiQ Labs案的结果即是场景化规则下的产物。hiQ的主营业务依赖于LinkedIn的公开数据，但其爬取数据的目的并非取代LinkedIn，而是通过将这些爬取数据作为基础数据进行加工，结合自己的算法技术生成人力资源分析报告并出售，如其Keeper和Skill Mapper两种主要产品分别用于企业防止员工流失和技能培训。因此，其主营业务与LinkedIn并不相同。从利益平衡的角度来看，这种爬取行为不仅没有损害被爬取方的利益，反而促进了公开商业数据的二次加工利用。

因此，进行场景化考量亦是适用《反不正当竞争法》一般条款规制公开商业数据爬取行为的必然要求。不正当竞争必然造成相关利益损害，一般条款中关于竞争利益受损的考量则是基于市场竞争秩序、竞争者以及消费者三方利益因素。但是对于未设技术限制的公开商业数据进行爬取且基于数据的可复制性，要证明被爬取公开商业数据的一方利益是否受损极其困难，这也导致必须在特定场景下，对各方利益进行综合判断，才能得出公开商业数据爬取行为是否具有不正当性的结论。例如，在“大众点评诉百度案”中，百度搜索引擎完全爬取大众点评平台的内容，其目的是展示相同内容，在这种情况下，法院关于百度搜索引擎完全取代大众点评平台的担忧并非毫无道理。因为这种情景之下，爬取对于公开商业数据的二次开发毫无帮助，长此以往，还会导致大众点评这种数据平台因失去用户而最终消失。同时，随着经营该基础业务的大众点评平台消失，百度搜索引擎亦无从开展此种搜索业务，市场竞争即完全消失，除非百度搜索引擎追加资本开发、继续经营此项业务，但是从百度搜索引擎选择爬取而非自己开发经营即可看出其目标并非如此，而是为了吸引其百度地图平台用户的注意。从这个角度来看，数据的爬取行为反而使互联网平台之间形成了紧密的合作或制约关系，只是对于这种情况有必要综合各方竞争利益来设置公开商业数据爬取的限度。因此，基于反不正当竞争法保护利益的多元性，基于百度搜索引擎、大众点评平台以及消费者三方利益考量，百度搜索引擎开发的此种业务根本上丰富消费者的用户体验，缩短了消费者的检索时间，因此保留该业务具有必要性。但是考虑到大众点评平台被替代的可能性，百度搜索引擎现阶段的爬取行为存在不正当性。因为其有义务隐藏点评内容并设置浏览跳转功能，即如果消费者继续浏览则应跳转至大众点评平台，这样大众点评平台才能继续保有其消费市场，同时也可因百度搜索引擎的跳转功能实现用户增长。

结语

互联网产业本质特征是充分竞争，只有充分竞争才能使其保持高度创新和开放。数据并不能保护创新，只能驱动创新。因为技术的发展是建立在数据这一生产资料之上，因此只有通过数据公开、数据共享才能实现数据的繁荣。公开商业数据因其独立性已经成为公共的数据资源，面对公开商业数据问题，由于赋权保护路径本身存在理论正当性缺失与实践效果存疑等问题，不应予以赋权保护。对于公开商业数据，原则上应使其继续停留在公共状态并作为数据二次开发的生产资料，但是当爬取公开商业数据过限从而威胁互联网生态平衡时，应当适用反不正当竞争法对该行为予以纠正。反不正当竞争法通过规制不正当竞争行为而实现其法律目的，其规制的结果必然使得不正当竞争行为损害的竞争秩序得到修复。这样既不会因为通过赋予数据权属导致占有大量数据的巨头平台成为垄断主体，亦为处于起步或发展阶段的数据平台在利用现有数据基础上进行创新留有余地，从而最终促进数字经济纵深发展。

理论应当与时俱进

首席律师 徐新明

专利

商标

版权

商业秘密

反不正当竞争

植物新品种

地理标志

集成电路布图设计

技术合同

传统文化

律师动态

徐新明律师团队代理的福航公司与日本某株式会社发明专利权无效行政纠纷案终审胜诉

历时八年：徐新明律师代理的埃利康公司发明专利无效行政纠纷案胜诉

《华夏时报》采访徐新明律师：中创新航打响专利反击战，向宁德时代和特斯拉等索赔超10亿元

知产速递

中企在美专利增长32%

市场监管总局对谷歌涉嫌违反反垄断法立案调查

国务院发布《关于药品领域的反垄断指南》解读（附一图读懂）

知识产权环球资讯丨欧盟就全球SEP费率设定向WTO投诉中国；热播剧...

国知局发布《2024年中国专利调查报告》

审判动态

叶永青承认抄袭，赔偿500万并公开道歉

《逆水寒》编辑器创作视频搬运侵权案

索赔1亿！每日互动起诉苹果侵害发明专利

高德红外商业秘密案新进展：部分嫌疑人在逃

IBM和格罗方德就高性能芯片纠纷达成和解

案例聚焦

知识产权强国建设第三批典型案例发布！

2023年度知识产权行政保护典型案例发布

2023年中国法院10大知识产权案件、50件典型知识产权案例

2023年中国法院12件知识产权重点宣传案例

最高法知产法庭成立五周年十大影响力案件

法官视点

以关键词隐性使用探析《反法（修订草案）》第七条五项

如何精细确定著作权损害赔偿额？

局域网环境下信息网络传播权侵权责任如何认定？

侵犯经营信息类案件的审理要点

首发经济背景下“有一定影响的”竞争法益认定

裁判文书

法律宝库

中国法库

国际法库

公开商业数据爬取行为的规制路径

相关文章

公开数据爬取行为的正当性判断

人工智能大模型数据爬取行为的正当性认定

数据爬取竞争纠纷的审理思路

爬取数据，当心“踩雷”

爬取数据的知识产权法律风险

评论

首席律师徐新明