首页  »  新闻频道  »  国内新闻

爬虫技术应用合法性引争议 亟待规制非法爬取数据行为

2021-11-09 07:17:43

来源:法治日报

  爬虫技术应用合法性引争议

  保障数据安全亟待规制非法爬取数据行为

  核心阅读

  在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息。如果任由网络爬虫任意使用他人通过巨大投入获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

  □ 本报记者 张 维

  □ 法制网见习记者 邢国涵

  随着社会经济的快速发展,数据的价值日益凸显,已然成为企业科技创新的必备要素。但企业通过技术手段获取数据时,数据抓取技术的应用行为是否合理合法,是一个值得深思的问题。

  近年来,网络爬虫“爬取数据”成为热词,相关司法案例不断出现。据不完全统计,近些年涉及网络爬虫的司法案件达十余起,其中既包括民事案件,还包括刑事案件。这类案例甚至还有愈演愈烈之势。

  在近日于上海举行的长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会上,上海市人民检察院研究室副主任陈超然透露,检察机关正在积极推动企业合规改革试点工作,数据合规正是其中重点。“目前爬虫爬取数据案件非常普遍,当网络平台或者个人通过技术手段抓取别的平台数据时,这种行为是否合法,平台数据主体是谁,归谁使用,值得深入研讨。”

  杭州长三角大数据研究院副院长郭兵认为,数据爬虫作为中立性的技术,已在互联网产业领域得到广泛应用。需要注意的是,如果爬虫技术不当应用,会对其他竞争者的合法权益造成损害,甚至涉嫌违法或者犯罪,也将对产业的健康发展产生非常大的负面影响。

  爬取数据涉嫌侵权

  从技术角度看,爬虫是通过程序去模拟人类上网或者浏览网页、App行为,让其高效地在网上抓取爬虫制造者所需要的信息。

  欧莱雅中国数字化负责人刘煜晨说,大多数网站拒绝爬虫访问,其中的原因既包括商业利益考量,也包括自身网站运营安全的考量。除了爬虫可能爬到网站不愿被爬取的数据以外,网站经营者往往还会担心爬虫干扰网站正常运营。

  而非正规爬虫自动持续且高频地对被爬取方进行访问,服务器负载飙升,也会给服务器带来“难以承受”之重:应对经验不足的网站,尤其是中小网站可能会面临网站打不开、网页加载极其缓慢、有时甚至直接瘫痪的情况。

  新浪集团诉讼总监张喆说,无论是爬虫还是实现其他目的的技术,就其本身而言,都是中立的,但爬虫技术的应用不是中立的,技术应用都带有应用者的目的。这时候不应该评价技术原理,而是需要评价技术用来干什么,这一行为手段是否具有正当性。

  提及网络爬虫,robots协议是绕不开的话题。robots协议(也称爬虫协议)的全称是“网络爬虫排除标准”,网站通过robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。

  刘煜晨说,当网络爬虫访问一个网站,robots协议像立在自己房间门口的一个牌子,告诉外来者谁可以过来,谁不可以过来。但是,这只是一个君子协议,只能起到告示作用,起不到技术防范作用。

  实践中,恶意爬虫爬取时不遵守网站的robots协议,并可能爬取到不该爬的数据,这种情形并非孤例。小红书法务负责人曾翔说,恶意爬虫案例经常发生在内容平台和电商平台。在内容上被爬取的更多是视频、图片、文字、网红互动数据、用户行为等,在电商领域则多为商家信息和商品信息。

  “内容平台一般约定了相关内容知识产权归发布者或者发布者和平台共同所有,这些爬虫没有签订协议就获得用户授权,涉嫌对知识产权人权利的侵犯。”曾翔说。

  或应明确网站权利

  这就涉及到数据的权属及是否能开放的问题。

  上海市浦东区人民法院知识产权庭法官徐弘韬认为,数据是内容产业的核心竞争资源,内容平台经过汇总分析处理后的数据往往具有极高的经济价值。

  “如果要求内容平台经营者将其核心竞争资源向竞争对手无限开放,不仅有违‘互联互通’精神的实质,也不利于优质内容的不断更迭和互联网产业的持续发展。”徐弘韬说。

  恶意爬虫爬取数据案件频发的背后,是数据的价值增加,以数据为核心的市场竞争愈发激烈。

  华东政法大学教授高富平说,进入大数据时代,数据价值再次凸显,现在的爬虫技术已经从原来的网页爬虫进入到底层数据的爬取。数据爬虫问题会变得越来越严重。

  在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息,业内人士对此表示担忧:如果任由网络爬虫任意使用或利用他人通过巨大投入所获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

  高富平认为,如果网站合法积累数据资源,那么这些数据资源就应该属于网站的资产。“允许数据生产者、控制者基于商业目的开放数据是有好处的,通过许可使用、交换交易等方式,可以让更多人享用数据服务。期待在未来确认数据所有合法生产者对数据的控制权、使用权。”

  有序流转同等重要

  目前,网站虽然可以去指定相应策略或技术手段,防止爬虫抓取数据,但爬虫也有更多技术手段来反制这种反爬策略。

  刘煜晨说,反爬和爬取的技术一直在迭代,在技术领域,没有爬不了的网站和App,只有愿不愿意爬和多难爬的问题。

  据了解,现实中恶意网络爬虫制造者抗辩时,往往将robots协议限制爬取与数据流转联系起来。徐弘韬认为,在“互联互通”的语境下,“有序”和“流转”同等重要、缺一不可,需排除假借“互联互通”妨碍公平竞争、危害用户数据安全的行为。

  “对于非搜索引擎爬虫的正当性判别,要考虑是否足以保障用户数据的安全性。包括身份数据、行为数据等在内的用户数据,从属性来讲不仅仅是经营者的竞争资源,同样具有用户的个人隐私属性,而此类数据的集合更涉及社会公共利益。”徐弘韬说。

  据了解,近年来有关数据安全的法律规范正在不断完善中。数据安全法作为数据安全的基本法,承载着解决我国数据安全核心制度框架的重要任务。此外,还有2019年通过的密码法,工信部拟出台《工业和信息领域数据安全管理办法(试行)》等,一些地方如深圳、上海等也在探索制定数据管理相关规范。

  • 相关阅读
  • 山西足额保障灾后重建项目用地

      中新网太原11月9日电 (高瑞峰)9日,记者从山西省自然资源厅获悉,该厅制定印发《关于进一步做好当前建设用地报批工作有关事项的通知》(下称《通知》),支持10月上旬洪涝受灾地区重建。  10月2日至10月7日,山西...

    时间:11-09
  • 60年来历史同期最多 黑龙江单日平均降水量达15.3毫米

      中新网哈尔滨11月9日电(矫玲玲 记者姜辉)7日以来,黑龙江省持续降雪,西部出现大暴雪,中部出现严重雨雪冰冻。黑龙江省气象局9日发布的信息显示,黑龙江省8日平均降水量达15.3毫米,为1961年以来历史同期第1位。...

    时间:11-09
  • 王毅:反对某些国家出于维护海洋霸权的目的,在海上耀武扬威、拉帮结派

      中新社北京11月9日电 中国国务委员兼外长王毅9日以视频方式出席第二届“海洋合作与治理论坛”开幕式并发表致辞。  王毅表示,海洋是各国彼此联通的纽带,是全球化发展的重要平台。近年来,海上安全问题层出不穷...

    时间:11-09
  • 沈阳出现1905年以来冬季最强降雪

      记者从沈阳市气象局了解到,11月7日至9日沈阳市出现历史罕见的特大暴雪天气过程。据统计,此次过程是1905年有气象记录以来冬季最强降雪过程。截至9日8时,沈阳市平均降雪量51毫米,平均积雪深度34.1厘米,最大积...

    时间:11-09
  • “曙光明白”背后故事:指引航天员走好太空每一步

      央视网消息:神舟十三号航天员首次出舱活动圆满完成的同时,“曙光明白”这句话也冲上了热搜。在航天员出舱的过程中,地面支持小组通过“曙光岗”和航天员直接沟通。那么,“曙光”究竟指的是谁?他对航天员的支...

    时间:11-09
  • 新版“国旗黄”舱外航天服亮相 适体性版型优化更适合瘦小航天员

      央视网消息:这次神舟十三号航天员乘组首次出舱活动,航天员王亚平穿了一套新的舱外航天服,这套新的舱外服和之前神十二出舱的两套舱外服有什么不一样?  配色别出心裁 红黄蓝便于区分  为更好的满足航天员出...

    时间:11-09
  • “因为热爱,所以执着”中国女航天员首次出舱 完成多项技术验证

      央视网消息:11月8日凌晨1时16分,经过约6.5小时的出舱活动,神舟十三号航天员乘组密切协同,圆满完成出舱活动期间全部既定任务。航天员翟志刚、王亚平安全返回天和核心舱,出舱活动取得圆满成功。这是神舟十三号...

    时间:11-09
  • 王毅在“海洋合作与治理论坛”开幕式上发表视频致辞

      新华社北京11月9日电 11月9日,国务委员兼外长王毅以视频方式出席第二届“海洋合作与治理论坛”开幕式并发表致辞。  王毅表示,海洋是各国彼此联通的纽带,是全球化发展的重要平台。近年来,海上安全问题层出不...

    时间:11-09
  • 31省份累计报告接种新冠病毒疫苗233849.3万剂次

      中新网11月9日电 据国家卫健委微信公众号消息,截至2021年11月8日,31个省(自治区、直辖市)和新疆生产建设兵团累计报告接种新冠病毒疫苗233849.3万剂次。资料图:市民在移动疫苗接种车上接种新冠疫苗。中新社记者...

    时间:11-09
  • 黑河市爱辉区一小区调整为高风险地区

    关于调整黑河市爱辉区部分区域风险等级的通告  根据国务院联防联控机制有关规定,经专家咨询组综合评估研判,市疫情防控指挥部决定,自2021年11月9日15时起,将黑河市爱辉区热电社区阳光家园小区调整为高风险地区。...

    时间:11-09
免责声明:本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。 本网站转载图片、文字之类版权申明,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。