截止到2005年2月16日,google已留存、搜集整理了8 058 044 651个网页,13亿张图像,成为搜集网页最完整的搜索引擎。而在7年前,整个网络仅有区区3亿个网页。这符合“资料多多益善”(more data is better data)的莫瑟定律(mercer’s lale在全球各地拥有6 000多部红帽linux服务器,google用这几千台机器构成一个庞大的超级计算机,并很好地完成了一切步骤:搜集信息、整理归类、精确网络信息、处理搜索请求。尽管每天要处理1亿以上、每秒上千次的搜索查询, google仍然能够在不到1秒的时间内对近百亿网页进行筛选并得出搜索结果。
以往的搜索引擎,尽管也能搜索到相关信息,但精确性却大打折扣,搜索结果往往很少能符合搜索用户的需要。google却成功地解决了这些问题:不用空间向量模型(关键词比对),而用精确搜索(完全符合)与网页排名。这颠覆了传统上重视齐全,而不重视搜索结果精确的想法。同时也呼应了google“快比慢好”以及“信息永远累积递增”的两个信条。
google通过其佩奇位阶(网页级别,pagerank)技术,越多网页所链接到的页面,将会获得更好的排名。网页上一个个的超级链接,就像一张张选票,选择出最有价值的网页,体现了google式的网络民主:越多网页所链接到的网页,其信息越符合用户的需求。“网页排序”技术颠覆了传统搜索引擎依赖分析网页内文字的排名方式,让单一网页的所有者很难操弄网页内的文字与超级链接,影响自己网页的重要性排名。google的首页简约典雅,但有用的信息几乎都在前几页。实际上,用户通常查看前几页的搜索结果。
虽然altavista具有前所未有的广泛搜索范围和快速的搜索速度,但能够把搜索范围、速度及pagerank技术完美结合起来的google最终实现了质的飞跃。
世界报摊
在线世界与现实世界的区别之一,就是它比后者容易找到用户所需要的东西。比如,在google出现以前,如果你需要寻找一篇关于人民币升值的文章,您就得去图书馆或者报摊,而且还不一定能找到你需要的文章。而通过google搜索,问题就变得简单多了。
本章未完,请翻开下方下一章继续阅读