什么是Robots协议?
根据百度百科,Robots协议的 解释如下:“Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方 式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。
Robots协议起源于上世纪90年代,那时搜索技术刚刚出现,搜索蜘蛛(即搜索机器人,Robots)如何抓取数据还没有统一的规范。那个时代,建设网站所用的服务器设备普遍计算能力弱、存储空间小,如果搜索蜘蛛为了信息实时更新而频繁索引网站数据,会造成服务器设备负荷过重,导致网站对用户的访问反应过慢。
因 此,在1994年,一位荷兰籍网络工程师Martijn Koster首次提出Robots协议。对于当时的网站来说,设置Robots协议主要有三个目的:首先,是保护网站内部信息不被搜索引擎爬虫抓取;其 次,是引导爬虫不要抓取对用户没有价值的信息;最后,是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。
由此可以看出,Robots协议带有浓厚的时代感和历史局限性。进入到21世纪后,由于IT设备的计算能力飞速提高,搜索引擎蜘蛛索引网站数据对服务器造成的影响已经小到可以忽略不计。
而且,随着搜索引擎在互联网里的地位越来越重要,各个网站都需要按照搜索引擎的索引规则进行优化,以尽量让搜索引擎找到,并使自己尽可能出现在搜索结果的前 列。因此,除了在存储用户登录信息等隐私数据的地方设置禁止搜索引擎访问的Robots协议之外,网站都会欢迎搜索引擎访问自己的网站。
Robots协议为什么没被采纳为国际标准?
Robots协议虽然名为“协议”,但只是行业惯用的说法。它既不是法律意义上的协议,也不是国际组织采纳的标准,因此不受任何机构保护。
Robots协议的创始人Martijn Koster说:“Robots协议是一个未经标准组织备案的非官方标准,它也不属于任何商业组织。本协议不受任何机构保护,所有现有和未来的机器人不一定使用本协议。”
其实,早在1997年,MartijnKoster曾向IETF(互联网工程任务组)提交申请,试图把Robots协议作为该组织规范,但被IETF拒绝。 之后,国际电信联盟(ITU)、万维网联盟(W3C)的规范也同样拒绝采纳Robots协议。欧美电信专家担心,由于Robots协议包含排斥性条款,企 业可能会利用Robots协议的条款限制竞争,从而将后起竞争者挡在门外。
百度Robots协议有什么特殊的地方?
2008 年6月,雅虎、谷歌和微软共同通过非官方途径宣布采纳Robots作为标准,各大搜索引擎公司开始对Robots协议进行商业研究,以期帮助搜索引擎更好 地抓取到信息,为用户提供服务。各种公司标准的Robots协议开始产生,例如:著名搜索引擎谷歌在自己的Robots协议中增加了一个指令 “archive”,以此限制Google是否保留网页快照。
然而,Robots协议也日益成为占市场主导地位的搜索企业限制竞争的工具。百度的Robots协议的特别之处,在于其白名单机制——允许除360之外的所有搜索引擎访问百度网站,这种白名单在全球是绝无仅有的。
如果百度的Robots协议生效,那么用户使用360搜索将无法访问百度贴吧、百度知道、百度百科、百度文库等内容网站。这意味着百度可以利用自己的市场地位削弱360搜索的竞争力。
这个案例和微软与谷歌之间的纠纷非常类似。微软就谷歌不公平地阻碍必应等竞争对手访问谷歌控制的Youtube视频网站信息,于2011年4月在欧盟正式提 起诉讼。该案已被欧盟反垄断机构立案调查。在此之前,已经有三家公司向欧盟起诉了谷歌利用主导地位打击其他搜索引擎的不公平竞争行为。