设为首页收藏本站

LUPA开源社区

 找回密码
 注册
文章 帖子 博客
LUPA开源社区 首页 IT综合资讯 查看内容

搜索大战引发Robots协议之争

2013-10-28 13:59| 发布者: joejoe0332| 查看: 9929| 评论: 0|原作者: 法制晚报|来自: 法制晚报

摘要:   2012年8月,360推出独立的搜索引擎so.com,宣布正式进入搜索市场。凭借360浏览器的优势以及其强调的“安全、干净、真实”的搜索体验, 360在一周之内获得了10%的市场份额。大量用户使用360搜索访问百度贴吧、百 ...

  2012年8月,360推出独立的搜索引擎so.com,宣布正式进入搜索市场。凭借360浏览器的优势以及其强调的“安全、干净、真实”的搜索体验, 360在一周之内获得了10%的市场份额。大量用户使用360搜索访问百度贴吧、百度知道、百度百科、百度文库,于是一度占据80%市场份额的搜索企业百度针对新兴的360搜索,很快采取了两项措 施:第一,设置白名单机制的Robots协议,允许谷歌、必应、搜狗、搜搜在内的搜索引擎访问百度的上述网站,唯独不允许360搜索引擎访问。第 二,2012年10月,百度以360违反“Robots协议”为由,起诉360不正当竞争,并索赔1亿元人民币。


  时隔一年,该案在北京一中院开庭审理。这个诉讼案牵涉业界两个知名 的互联网企业,索赔金额创新高,并将一个原本不起眼的行业术语——Robots协议,一下子推到了世人面前。业界对该案高度关注,因为这场诉讼的结果意味 着Robots协议——一个业界约定俗成的通讯标准是否会法律化,是否上升为国家意志,以及将会如何决定未来互联网的发展走向。该案的宣判结果在这个网络 化生存的时代,将会影响到每一个人。

  什么是Robots协议?


  根据百度百科,Robots协议的 解释如下:“Robots协议(也称为爬虫协议、机器人协议等)的全称是网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方 式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。


  Robots协议起源于上世纪90年代,那时搜索技术刚刚出现,搜索蜘蛛(即搜索机器人,Robots)如何抓取数据还没有统一的规范。那个时代,建设网站所用的服务器设备普遍计算能力弱、存储空间小,如果搜索蜘蛛为了信息实时更新而频繁索引网站数据,会造成服务器设备负荷过重,导致网站对用户的访问反应过慢。


  因 此,在1994年,一位荷兰籍网络工程师Martijn Koster首次提出Robots协议。对于当时的网站来说,设置Robots协议主要有三个目的:首先,是保护网站内部信息不被搜索引擎爬虫抓取;其 次,是引导爬虫不要抓取对用户没有价值的信息;最后,是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。


  由此可以看出,Robots协议带有浓厚的时代感和历史局限性。进入到21世纪后,由于IT设备的计算能力飞速提高,搜索引擎蜘蛛索引网站数据对服务器造成的影响已经小到可以忽略不计。


  而且,随着搜索引擎在互联网里的地位越来越重要,各个网站都需要按照搜索引擎的索引规则进行优化,以尽量让搜索引擎找到,并使自己尽可能出现在搜索结果的前 列。因此,除了在存储用户登录信息等隐私数据的地方设置禁止搜索引擎访问的Robots协议之外,网站都会欢迎搜索引擎访问自己的网站。


  Robots协议为什么没被采纳为国际标准?


  Robots协议虽然名为“协议”,但只是行业惯用的说法。它既不是法律意义上的协议,也不是国际组织采纳的标准,因此不受任何机构保护。


  Robots协议的创始人Martijn Koster说:“Robots协议是一个未经标准组织备案的非官方标准,它也不属于任何商业组织。本协议不受任何机构保护,所有现有和未来的机器人不一定使用本协议。”


  其实,早在1997年,MartijnKoster曾向IETF(互联网工程任务组)提交申请,试图把Robots协议作为该组织规范,但被IETF拒绝。 之后,国际电信联盟(ITU)、万维网联盟(W3C)的规范也同样拒绝采纳Robots协议。欧美电信专家担心,由于Robots协议包含排斥性条款,企 业可能会利用Robots协议的条款限制竞争,从而将后起竞争者挡在门外。


  百度Robots协议有什么特殊的地方?


  2008 年6月,雅虎、谷歌和微软共同通过非官方途径宣布采纳Robots作为标准,各大搜索引擎公司开始对Robots协议进行商业研究,以期帮助搜索引擎更好 地抓取到信息,为用户提供服务。各种公司标准的Robots协议开始产生,例如:著名搜索引擎谷歌在自己的Robots协议中增加了一个指令 “archive”,以此限制Google是否保留网页快照。


  然而,Robots协议也日益成为占市场主导地位的搜索企业限制竞争的工具。百度的Robots协议的特别之处,在于其白名单机制——允许除360之外的所有搜索引擎访问百度网站,这种白名单在全球是绝无仅有的。


  如果百度的Robots协议生效,那么用户使用360搜索将无法访问百度贴吧、百度知道、百度百科、百度文库等内容网站。这意味着百度可以利用自己的市场地位削弱360搜索的竞争力。


  这个案例和微软与谷歌之间的纠纷非常类似。微软就谷歌不公平地阻碍必应等竞争对手访问谷歌控制的Youtube视频网站信息,于2011年4月在欧盟正式提 起诉讼。该案已被欧盟反垄断机构立案调查。在此之前,已经有三家公司向欧盟起诉了谷歌利用主导地位打击其他搜索引擎的不公平竞争行为。



酷毙

雷人

鲜花

鸡蛋

漂亮
  • 快毕业了,没工作经验,
    找份工作好难啊?
    赶紧去人才芯片公司磨练吧!!

最新评论

关于LUPA|人才芯片工程|人才招聘|LUPA认证|LUPA教育|LUPA开源社区 ( 浙B2-20090187 浙公网安备 33010602006705号   

返回顶部