什么是Robots协议?
根据百度百科,Robots协议的 解释如下:“Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方 式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。
Robots协议起源于上世纪90年代,那时搜索技术刚刚出现,搜索蜘蛛(即搜索机器人,Robots)如何抓取数据还没有统一的规范。那个时代,建设网站所用的服务器设备普遍计算能力弱、存储空间小,如果搜索蜘蛛为了信息实时更新而频繁索引网站数据,会造成服务器设备负荷过重,导致网站对用户的访问反应过慢。
因 此,在1994年,一位荷兰籍网络工程师Martijn Koster首次提出Robots协议。对于当时的网站来说,设置Robots协议主要有三个目的:首先,是保护网站内部信息不被搜索引擎爬虫抓取;其 次,是引导爬虫不要抓取对用户没有价值的信息;最后,是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。
由此可以看出,Robots协议带有浓厚的时代感和历史局限性。进入到21世纪后,由于IT设备的计算能力飞速提高,搜索引擎蜘蛛索引网站数据对服务器造成的影响已经小到可以忽略不计。
而且,随着搜索引擎在互联网里的地位越来越重要,各个网站都需要按照搜索引擎的索引规则进行优化,以尽量让搜索引擎找到,并使自己尽可能出现在搜索结果的前 列。因此,除了在存储用户登录信息等隐私数据的地方设置禁止搜索引擎访问的Robots协议之外,网站都会欢迎搜索引擎访问自己的网站。
Robots协议为什么没被采纳为国际标准?
Robots协议虽然名为“协议”,但只是行业惯用的说法。它既不是法律意义上的协议,也不是国际组织采纳的标准,因此不受任何机构保护。
Robots协议的创始人Martijn Koster说:“Robots协议是一个未经标准组织备案的非官方标准,它也不属于任何商业组织。本协议不受任何机构保护,所有现有和未来的机器人不一定使用本协议。”
其实,早在1997年,MartijnKoster曾向IETF(互联网工程任务组)提交申请,试图把Robots协议作为该组织规范,但被IETF拒绝。 之后,国际电信联盟(ITU)、万维网联盟(W3C)的规范也同样拒绝采纳Robots协议。欧美电信专家担心,由于Robots协议包含排斥性条款,企 业可能会利用Robots协议的条款限制竞争,从而将后起竞争者挡在门外。
百度Robots协议有什么特殊的地方?
2008 年6月,雅虎、谷歌和微软共同通过非官方途径宣布采纳Robots作为标准,各大搜索引擎公司开始对Robots协议进行商业研究,以期帮助搜索引擎更好 地抓取到信息,为用户提供服务。各种公司标准的Robots协议开始产生,例如:著名搜索引擎谷歌在自己的Robots协议中增加了一个指令 “archive”,以此限制Google是否保留网页快照。
然而,Robots协议也日益成为占市场主导地位的搜索企业限制竞争的工具。百度的Robots协议的特别之处,在于其白名单机制——允许除360之外的所有搜索引擎访问百度网站,这种白名单在全球是绝无仅有的。
如果百度的Robots协议生效,那么用户使用360搜索将无法访问百度贴吧、百度知道、百度百科、百度文库等内容网站。这意味着百度可以利用自己的市场地位削弱360搜索的竞争力。
这个案例和微软与谷歌之间的纠纷非常类似。微软就谷歌不公平地阻碍必应等竞争对手访问谷歌控制的Youtube视频网站信息,于2011年4月在欧盟正式提 起诉讼。该案已被欧盟反垄断机构立案调查。在此之前,已经有三家公司向欧盟起诉了谷歌利用主导地位打击其他搜索引擎的不公平竞争行为。
Robots协议之争是3B大战的延续?
百度利用Robots协议屏蔽360搜索,引起业内的高度关注。工信部和中国互联网协会及时介入,调停百度和360之间的Robots协议纠纷。
2012 年11月1日,中国互联网协会在北京召集多家搜索企业,共同签署《互联网搜索引擎服务自律公约》。该公约的制定充分体现了互联网的精神。一方面,公约对非 法律条文规定,但在国际互联网界具有共识的Robots协议给予了充分的尊重和肯定。另一方面,业界能够基于诚信、自主自治的互联网精神来解决互联网的争 议,共同讨论和解决出现的问题。
《互联网搜索引擎服务自律公约》明确规定,“互联网站所有者设置Robots协议应遵循公平、开放和促进信 息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环 境。”然而,在各企业签署自律公约之后,百度并没有根据自律公约的要求,对设置白名单Robots协议屏蔽360搜索给予合理、正当的理由,继续屏蔽 360搜索对百度内容网站的访问。
Robots协议将如何决定互联网的走向?
“3B大战”让Robots协议从幕后走向台前,让这个简单的文本文件一下子获得了整个中国互联网世界的关注。百度认为360搜索访问旗下百度知道、百科、贴吧、旅游等站点的内容,违反了Robots协议。
360认为,百度的Robots协议单方面屏蔽了360搜索,却允许谷歌、必应、雅虎、搜狗、搜搜等搜索引擎正常访问,也违背了互联网的开放精神,是百度利用自己的市场地位滥用Robots协议,是对360搜索的不正当竞争。
到底Robots协议应该是像法律一样,神圣不可侵犯?还是应如其初衷一样,作为搜索引擎与网站之间沟通和协商的桥梁?事实上,因为Robots协议带有排 他性条款,国际组织担心其会成为企业竞争的工具,因此拒绝将其采纳为国际标准。所以迄今为止,从来没有任何组织或专家把Robots协议当成规范。
微软就谷歌阻碍必应搜索访问Youtube网站提起诉讼,以及百度通过Robots协议单独屏蔽360搜索访问百度网站,进一步证明了国际组织的担忧,即Robots协议已经越来越成为企业竞争的工具。
最糟糕的情况显然是,如果Robots协议成为国际标准,甚至具有法律效力,像谷歌和百度这样占据市场优势地位的搜索引擎,可以凭借自己的优势地位,迫使大量知名网站签署排他性Robots协议,只允许谷歌或百度的搜索引擎访问,屏蔽其他一切搜索引擎。
这样的情况一旦发生,就会出现马太效应,大者恒大,全世界只会仅存一两家搜索企业,市场竞争就会大大减弱。同时,互联网里自由流动的信息会产生割裂,形成信息孤岛。用户访问A网站要用一个搜索引擎,访问B网站则需要换一个搜索引擎。
由此,滥用“Robots协议”,不仅有损互联网的平等、分享精神,也违反了不正当竞争法,将会阻碍互联网的健康、有序发展。
专家、学者们怎么说?
正如互联网协会理事长胡启恒所说:“互联网是生而自治的,在日后随着互联网技术应用的不断发展,还会有许多新问题出现。”随着中国搜索市场竞争日趋激 烈,Robots协议本来作为一个行业约定俗成的、引导搜索蜘蛛更好索引内容的文本文件,现在已经成为企业之间竞争的工具。Robots协议进入行业自律 公约,已经举世罕见,而再一次成为法律诉讼的主题,这更是全球绝无仅有。
专家学者的意见
中搜CEO陈沛:Robots协议纠纷不是知识产权问题,而是企业竞争问题。
重庆邮电大学城市化战略研究院院长童大焕:百度通过白名单、黑名单的机制,限制360搜索引擎索引其内容,而允许其他搜索引擎索引其内容,既不公平,也违背 了Robots协议的初衷,更违背了互联网开放、分享的精神。任其滥用,必将造成行业竞争壁垒,导致搜索引擎信息呈现达不到尽可能完整的目的,阻碍搜索市 场的信息自由,损害网民利益。
中国社会科学院知识产权中心副研究员唐广良:Robots协议没有任何法律效力,既不属于法律保护的技术措 施,也不属于互联网运行必须遵循的技术规范,只是个别网站约定俗成的,就像游戏规则一样。关于双方谁对谁错不做评价。但这其中的行为是否违法要依据法律, 而不是依据某个网络公司。
互联网业界专家、博客中国创始人方兴东:不能利用Robots协议构建竞争壁垒。如果Robots协议真的成为法 律,那对互联网是灾难性的,整个互联网秩序就会混乱无序。例如,如果一个搜索引擎势力强大,它完全可能威胁或者利诱很多大型、知名网站与自己签约,利用 Robots协议阻止其他搜索引擎索引网站内容。这样,互联网就成了被搜索引擎割据的信息孤岛,完全违背了互联网精神。
工信部电信研究院知 识产权中心主任续俊旗:有关Robots协议网上的信息也非常多,从目前来看其实不算一个行业的规范,只是个别公司制定的,而且没有达到广泛认可。它最初 主要是为了限制流量,防止把一些没有价值的东西搜索到页面,目前来看,大家基本上认可它不是个行业标准,而且也不具备法律效力。总的来说,现在互联网产业 发展乱象根源还是规则不严谨,只有到产业发展到一定阶段才能够认识到它的规律性,才能发现其中的问题和解决问题的办法;另外一点,我觉得互联网还是在创 新,创新需要良好的竞争环境。