爬虫技术因其高效的自动化数据处理能力,受到企业青睐。然而,爬虫技术的使用并非没有界限,即使是公开数据,擅自使用爬虫技术不当抓取也可能涉嫌犯罪。近日,上海市普陀区人民法院审结了上海首例认定提供爬虫程序抓取公开数据构成提供侵入计算机信息系统程序罪案。
2020年,王某从某名牌大学毕业后入职了一家网络公司。在浏览网络论坛时,王某发现爬虫技术应用火热,尤其在电商行业竞品分析市场中需求旺盛。此后,王某开发出一款能破解得物APP防护措施、自动抓取商品数据的爬虫程序,在网络平台发布介绍帖并售卖,短短两年间,共计获利60余万元。
2021年10月,王某发布的帖文被得物公司员工发现。经验证,该算法能够从得物APP获取产品定价信息等核心数据,得物公司立即向公安机关报案。
2023年11月,公安机关将王某抓获。根据调查结果,涉案爬虫程序通过破解API加密算法、批量获取设备身份指纹SK等技术方法绕过防护机制,无需授权即可获取服务器数据。王某到案后如实供述前述事实,自愿认罪认罚并退缴违法所得。
法院审理后认为,被告人王某明知其开发的爬虫程序及接口具有破解APP安全保护措施并获取商品数据的功能,仍通过网络向他人售卖并提供维护服务等,经审计违法所得共计60余万元,其行为已构成提供侵入计算机信息系统程序罪,且情节特别严重,依法应予处罚。鉴于王某具有坦白、认罪认罚、退赃等情节,法院判处其有期徒刑三年,缓刑三年,并处罚金8万元。
案件宣判后,被告人未上诉,公诉机关未抗诉,该判决已发生法律效力。
法官说法
爬虫又称网页抓取器,是一种从互联网抓取数据的自动化程序。爬虫技术可实现高效、快捷的数据聚合,有利于信息的共享和交流,但其使用并非没有边界。从尊重数据权利人意愿及保护数据资源价值角度出发,权利人有权设定其数据公开和共享的范围、程度,也有权对其数据设置相应的技术保护措施。未经授权许可,绕过或突破保护措施获取数据的行为,显然已超越合理使用的边界,绝非单纯的技术行为。
本案中,得物公司在其APP的用户协议及Robots协议中均明确宣示禁止任何数据抓取行为,并采取了签名认证、图形验证、设备指纹、代码混淆加固等防护措施。被告人王某无视系统警示,未经授权许可,向他人提供爬虫程序破解防护机制,获取系统数据,已属于法律规定的提供“专门用于侵入计算机信息系统的程序”行为,而非单纯的技术行为。
本案庭审中,辩护人提出涉案爬虫程序抓取的是公开、开放的物价信息,社会危害性较小,主张对王某应当从轻处罚。值得注意的是,公开数据的访问和抓取在行为对象、行为内容和行为目的上均存在本质差异,二者不可混为一谈。一般来说,访问公开数据,是指用户以消费为目的,访问企业在客户端以文字、图片、视频等形式展现的商品信息;而爬虫抓取的是系统后台以计算机语言编辑、传输的加密代码,用以价格监控、行为分析、趋势预测等。本案中,涉案商品信息在得物APP客户端可以正常浏览,但上述信息在APP后台所对应的代码进行了加密保护,并设置了频率控制、设备环境监测、人机行为校验等多种反爬虫措施,未经授权许可,绕过或突破上述保护措施获取数据的,仍然属于侵入计算机信息系统。