天达共和官方网站

观点

根据北大法宝案例库的统计，截至2023年1月，我国境内发生的与爬虫软件有关的公开案件约580件，其中刑事案件约80件，民事案件约100件，知识产权与不正当竞争纠纷案件约400件，并且案件数量呈逐年增加的趋势。在各异的判决中，被告们普遍喜欢以“（爬虫）技术中立”作为抗辩事由。本文拟就爬虫软件使用的合规边界进行探讨。

一、爬虫软件的定义

1993年，英国斯特灵大学计算机中心管理员Jonathon Fletcher为了让电脑浏览器的页面能够自动更新，设计了世界上第一款网页搜索引擎JumpStation，该软件在一年的时间内记录了世界范围内的27万5千个网页，以致斯特灵大学没有足够的服务器空间来存放这些资料，这类搜索软件被后人赋予了另一个名字——网络爬虫（Web Crawler）。尽笔者所知，我国目前对网络爬虫尚未法律法规层面的定义，但是经过多年的发展，爬虫软件的功能与定位并未脱离最初的设计，按照互联网行业观点，爬虫软件一般是指一种按照一定的规则，自动地抓取某类信息的程序或者脚本。

业内一般观点认为爬虫技术应当具有以下特征：（1）“抓取”应当是指按照制定规则解析并提取所需的网页数据，并下载到本地形成数据备份的行为；（2）抓取的“互联网信息”仅限于前端网页信息，不会获取网站的后台权限。前述特征也是爬虫技术与能够侵入计算机内存或截取网络封包的黑客技术或计算机病毒之间的根本性差异。从技术层面，计算机病毒是指人为制造的，具有传染性、潜伏性的，对计算机信息或系统起破坏作用的程序。而黑客技术是指对计算机系统和网络的缺陷和漏洞的发现，以及针对这些缺陷实施攻击的技术，可以用以盗取计算机数据。

二、爬虫软件技术中立性司法认定及合规边界分析

2022年3月，最高人民法院对大连倍通数据平台管理中心与崔某吉侵害爬虫技术秘密纠纷案（以下简称“倍通案”）做出终审判决，法院认为爬虫技术信息可以纳入商业秘密保护客体范畴，故最终支持了技术方的主张。我国《反不正当竞争法》第1条明确规定仅有经营者和消费者的“合法权益”才能得到该法的保护，因此倍通案从一定程度上认可了爬虫技术的中立性，创造或者持有爬虫技术并不具有当然的违法性。但这种技术中立性不应延伸至爬虫技术的使用场景中，成为使用爬虫技术的免责事由。

技术的中立性在于该技术被创造时可能被用于不特定的目的，故在不结合使用场景时，技术不具有明确的可归责性，以爬虫技术而言，需要甄别技术所爬取的信息类型，个案分析确定爬虫技术的使用是否违规，例如爬取公开信息和非公开信息在合规性上就存在区别。从大量的案例来看，对于爬虫软件使用合规性的认定需基于对爬取行为和被爬信息的分析，只要甄别出哪些行为触犯法律，哪些被爬信息受到法律保护，确定存在何种合规风险，就可以大致推导出该次爬虫软件的使用是否合规，这也是确定爬虫软件使用合规边界的关键所在。

三、爬虫技术使用过程中应关注的合规风险

（一）爬取个人信息存在的合规风险

在使用爬虫爬取个人信息的业务场景中，因被爬取者往往为不特定人群，绝大多数情形下不会事先取得被爬取者同意，只有爬取范围限定为自营网页或app时，才会通过签订《用户协议》或《隐私协议》的方式取得事先授权，但如果是自营网页或app，完全可以通过后台直接调取数据，没有必要使用网络爬虫技术。因此，违反个人信息保护是爬虫软件最常见的违规情形。未经他人同意，爬取他人个人信息的，面临如下法律风险及责任：

1、民事责任：处理个人信息侵害个人信息权益造成损害，个人信息处理者不能证明自己没有过错的，应当承担损害赔偿等侵权责任。（《个人信息保护法》第69条）

2、刑事责任：触犯《刑法》第253条[1]，以江苏省(2019)苏08刑终216号案为例，犯罪分子研发并运营具有付费查询公民个人借贷信息、身份证照片信息等功能的“黑爬虫”网站，谋取非法利益，最终被追究刑事责任。

《民法典》、《个人信息保护法》、《网络安全法》、最高院及最高检《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》中均对个人信息进行了定义，其中以《民法典》第1034条的定义最为详实：“个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息，包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。”实践中，个人信息的呈现情形远比前述法律定义复杂，需要爬虫使用者结合法律定义进行个案辨识，提前辨别个人信息，避免爬取个人信息或及时对信息“去标识化”。

（二）爬取著作权作品存在的合规风险

实践中大量盗版网站的素材来自网络爬虫所爬取的正版网站资源，此类侵权案件屡见不鲜，涉及的法律风险及责任如下：

1、民事责任：存在侵犯著作权行为的，应当根据情况，承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任。（《著作权法》第52条）

2、刑事责任：如果行为人通过爬虫非法获取他人享有著作权的文字作品、音乐、电影、电视、录像作品、计算机软件及其他作品，并实施了通过信息网络向公众传播该作品等行为，或者未经著作权人或者与著作权有关的权利人许可，故意避开或者破坏权利人为其作品、录音录像制品等采取的保护著作权或者与著作权有关的权利的技术措施的，则可能触犯《刑法》第217[2]条规定，构成侵犯著作权罪。

相较于个人信息，著作权作品更具有明确的特征和辨识度，在爬虫软件侵犯著作权的案件中，行为人往往不会因为识别不清而误触法律底线。需要注意的是，改变爬取的形式或被爬信息的呈现方式并不能改变此类案件侵犯著作权的行为本质，行为人不应抱有侥幸心理。以上海市(2017)沪0104刑初325号案为例，被告人段其飞在互联网上设立视频网站，利用搜索爬虫技术，针对其他视频网站的影视作品设置加框链接，并设置目录、索引、内容简介、排行榜等，吸引用户点击播放，另屏蔽所链影视作品的片头广告，在所设网站网页内发布广告后从网络广告联盟处收取费用牟利。换言之，本案中爬虫软件并没有爬取数据本身，而是爬取了数据链接，该等行为仍被法院认定为构成侵犯著作权罪。

（三）爬取国家事务信息存在的合规风险

爬取公检法机构或事业单位发布的国家事务信息，存在违反《刑法》第285条[3]规定，构成非法侵入计算机信息系统罪的风险。以四川省德昌县(2018)川3424刑初169号案件为例，被告人李文环使用爬虫软件，大量爬取全国各地及凉山州公安局交警支队车管所公告的车牌放号信息，之后使用软件采用多线程提交、批量刷单、验证码自动识别等方式，突破系统安全保护措施，将爬取的车牌号提交至“交通安全服务管理平台"车辆报废查询系统，进行对比，并根据反馈情况自动记录未注册车牌号，建立全国未注册车牌号数据库。李文环之后编写客户端查询软件，由李文环通过QQ、淘宝、微信等方式，以300-3000元每月的价格，分省市贩卖数据库查阅权限。其行为被认定为非法侵入计算机信息系统而被追究刑事责任。

国家事务信息尚无明确法律界定，实践中主要通过信息发布的主体和用途来辨识，公检法机构或事业单位因公发布的信息较有可能属于国家事务信息范围，爬虫使用者应注意避免对此类信息的爬取。

（四）爬取商业秘密信息存在的合规风险

如前文所述，网络爬虫爬取的信息多为前端网页信息，而很少有企业会把商业秘密信息放在前端网页中，因此司法实践中鲜有网络爬虫侵犯商业秘密的案件。但需注意的是，由于网络爬虫爬取大数据具有先天的优势，例如大量爬取B站页面的用户信息就能获取B站用户的性别构成、年龄构成、增长数量等重要商业信息。因此，如果可以通过大数据收集获取或推导出某商业秘密信息，而所需收集的大数据的全部或大部分信息能被网络爬虫爬取，那么理论上网络爬虫就具有侵犯该商业秘密信息的可能性及风险。

（五）爬取其他非公开信息存在的合规风险

除了个人信息、著作权作品、国家事务信息外，爬取其他非公开信息也可能存在合规风险。前述非公开信息在爬虫软件侵权场景中并无明确的法律界定，只是在案件中，信息如采取了一定技术手段保护而无法被直接取得则可能被认为是非公开信息，爬取该类信息可能触犯《刑法》第285条[4]规定的非法获取计算机信息系统数据、非法控制计算机信息系统罪。

《刑法》第285条的规定具有较大的解释空间，该罪名属于“口袋罪名”，在上述侵权案件中不要求信息的保护手段具有较高的水平，可以是robots协议保护[5]、IP限制、访问监控或其他反爬取保护技术。以浙江省(2015)浙杭刑终字第378号案为例，被告利用爬虫软件爬取淘宝店铺cookie[6]，并利用cookie获取用户订单信息。cookie技术本身并不具有较好的反爬取能力，但cookie的使用使得其搭载的信息成为了非公开信息，被告的爬取因此构成违法行为。

（六）爬取行为本身存在的合规风险

在不考虑被爬信息特殊性的情况下，单就爬取行为本身而言，如爬取行为具有破坏性，则存在触犯刑法第286条[7]的合规风险。如前文所述，网络爬虫应仅能爬取前端网页信息，而不能入侵电脑程序，故理论上网络爬虫不会造成计算机硬件或系统严重损毁，应较难触及破坏计算机信息系统罪等罪名，但实践中仍存在以该类罪名论处的案件，以笔者经验和理解，可能存在两种情况：（1）该类案件并没有区分网络技术和计算机病毒、黑客技术，案件并非严格意义上的爬虫侵权案件；（2）爬虫被过度使用，占用了大量计算机资源，造成了系统崩溃。在此情况下，爬虫使用者将可能承担民事侵权赔偿责任或刑事责任。

综上，为避免爬虫软件使用过程中的违规风险，在使用爬虫软件时，可按照下图所示步骤进行合规性判断：

图片1.png

注释：

[1] 违反国家有关规定，向他人出售或者提供公民个人信息，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。窃取或者以其他方法非法获取公民个人信息的，依照第一款的规定处罚。

[2] 《刑法》第217条规定：以营利为目的，侵犯著作权或者与著作权有关的权利的情形之一，违法所得数额较大或者有其他严重情节的，处三年以下有期徒刑，并处或者单处罚金；违法所得数额巨大或者有其他特别严重情节的，处三年以上十年以下有期徒刑，并处罚金。

[3] 《刑法》第285条规定：违反国家规定，侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的，处三年以下有期徒刑或者拘役。

[4] 违反国家规定，侵入计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。

[5] 是指网站可建立一个robots.txt文件来告诉爬虫哪些页面可以抓取,哪些页面不能抓取,而爬虫则通过读取robots.txt文件来识别这个页面是否允许被抓取，robots.txt文件本身不具有强制力。

[6] 当用户浏览淘宝网页时，由网页服务器置于用户硬盘上的一个非常小的文本文件（cookie），它可以记录用户的用户ID、密码、停留的时间等信息，方便用户再次进入店铺。

[7] 《刑法》第286条规定：“违反国家规定，对计算机信息系统功能进行删除、修改、增加、干扰，造成计算机信息系统不能正常运行，后果严重的，处五年以下有期徒刑或者拘役；后果特别严重的，处五年以上有期徒刑。”

“代码并不中立，技术亦非无罪” ——论爬虫软件使用的合规边界

观点

作者

作者动态

作者其他文章

相关领域

业务

团队

资讯

观点

律途

关于我们