Google是怎样工作的

来源:互联网 发布:opengl glsl变形算法 编辑:程序博客网 时间:2024/06/02 07:23

随着Google IPO掀起的疯狂,不难看出Google所具有的广泛的社会意义。对于大多数来说,是Google让网络变得真正实用起来。那么,Google是如何做到这些的呢?

  在线世界与现实世界的区别之一就是前者更易于找到本人想要的东西。譬如,要寻找一篇The Economist(经济学家)出版的文章,您就得去一家报摊,而这里还不一定有没有您希望的这篇文章。换种方式,试试网上搜索。进入Google,输入“economist”,您就能立刻进入Economist.com。至此已经很难记起这种寻找方式是从何时普遍起来。事实上,直到19989Google诞生以前,人们还没有形成这样的习惯。因为在当时的现实生活中,在线搜索还仅是一种漫无目的的操作。

  (1)Google=搜索

  Google比其之前出现的任何工具都具有优势,也因此它才改变了人们利用网络的方式。几乎一夜之间,它扩大了网络的作用,尤其对于那些非专业搜索用户来说,Google简直成了他们进入互联网的大门。最近,关于Google证券市场的讨论大大泯灭了其广阔的社会意义:仅仅少数极具影响力的技术就让他们的名字被作为动词使用。

  Google诞生于1998年,是当时还是斯坦福大学研究生的Sergey BrinLawrence Page开发的一项理论调查项目。尽管Google现在已经成为网上最受欢迎的 搜索引擎,但它不是搜索引擎的开山鼻祖。当时已发布的搜索引擎已经能够扫描或“crawl”爬行大部分网络内容,建立索引库,然后找到与某些词语相匹配的网页。但他们在网页返回方面普遍存在缺陷,即无法以一种有效的方式从成千上万网页中找出最佳信息。

  BrinPage的成就就是发明出搜索结果归类方式,通过一种被成为PageRank的数学运算法则得出最具相关性的结果网页。该运算法则是Google成功的核心,使其区别于以前所有的搜索引擎并赋予其从浩淼网络中为用户找出最有用网页的神奇能力。

  解剖网络

  PageRank通过分析网络本身的结构发挥作用。Google数据库中数十亿网页中的每一个网页与其他网页建立导出链接,或者是导入链接 。因此BrinPage充分认为,如果一个网页被许多其他网页加入链接,那么说明它很重要。此外,如果导向某个网页的网页都非常重要,那么说明该网页可能更加重要。因此形成该公式的内在循环理论,即一个网页的重要度取决于导向该网页的其他网页的重要度。利用某些精确计算得出最终结果,使每个网页赋予一定值,从而反映该网页的重要度。

  计算每个网页值的最简单的方式就是进行一个重复或迭代计算。首先,所有网页都被赋予一个相同的值;然后,把从一个网页指向另一网页的每条链接视为对目的网页的一记投票。每个网页的分值随着网页上导入链接的增加而不断重新进行计算,也就是导出链接网页的分值除以该页面上导出链接的数量。(每个页面的分值就这样被导出页面均分。)

  重新计算得出的分值将被作为新一轮分值计算过程中的依据,直至分值最终被确定并不再变化(数学上称之为聚合)。最终分值被作为排列搜索结果的依据:与某特定搜索词条相匹配的网页按照递减分值排列顺序,因此最重要的网页就会出现在搜索结果列表顶部。

  以上是对PageRank计算法则的最简单描述,然其运算速度达不到最快。事实上,Google采用的是被称为线性代数的一项数学分支成熟技术, 从而一步完成计算程序。(PageRank实际运算公式仍存在于斯坦福大学的网页Stanford web page上,其中还包括到一项额外的避免网页分值持续上升的递减因数。)

  另外,PageRank运算法则一直被不断修改,避免人们将此套系统用于博弈运作。自1998Google诞生以来,网页在Google搜索结果的排名被逐渐被重视,尤其对于依靠搜索引擎吸引潜在客户的商家来说更加重要:现在,三个人中至少有一个选择Google搜索引擎。正是出于这样的原因,一个被称为搜索引擎优化师的行业迅速崛起。付费后,他们就能巧妙地提高您的网页在Google及其他搜索引擎上的排名。

  原始的PageRank运算法则被按照一种简单直接的模式操作,通过建立网页链接工场增加目标网页的导入链接数量,夸大该网页的重要性。因此,Google最出的排名原则已经逐渐被复杂化,直到目前已经能够识别并把那些试图作弊的网页记入黑名单。

 

2

 

 PageBrin早期还实现了另一项重要发明,即将“anchor text”――锚文本作为页面价值评估参数。锚文本一般以蓝色字体显示并以下划线标示,构成网页之间的链接文字。两位创始人均认为锚文本对链接页面提供了虽然可能不精确但却极为精炼的内容描述,因此其作用绝对不容小觑。此外,当用户使用人名或公司名称搜索时,锚文本的使用还可有效确保最佳网站能够出现在搜索结果的顶部。

  为搜索结果排序成为Google取得的最重要的改进之处,但这仅是搜索的一个方面,并且如果其他搜索引擎同样取得成功的效果这将成无用之地。事实上,这也意味着创建一个综合的保持更新的网页索引库。PageRank位列Google最强大的、最有效地基础构建之顶,它实际吸取了早期的,现已被人们遗忘的搜索引擎所采用的技术。

  回顾搜索历史

  上世纪90年代初,一大批搜索引擎开始了网页抓取索引工作。他们中的大部分起源于学术调研项目,其中作为首批成员的World Wide Web WandererWorld Wide Web Worm采用的就是极为简单的技术,而且甚至不能够索引完整的网页,仅抓取了网页的标题、地址和头区信息。随后出现的部分商业搜索引擎均来自于学术研究项目(与Google的诞生相同)。WebCrawler1994年诞生于华盛顿大学,这是世界上第一个能够索引完整网页的搜索引擎,后来被美国在线AOL收购,并成为 LycosInfoSeek的效仿对象。但直到199512月,由数字设备公司(Digital Equipment Corporation)Louis Monier推出的Altavista才是为第一个支持高级搜索语法的搜索引擎。

  Altavista1215正式公开之前就已经拥有200000访问用户,究其成功在于Altavista从三个方面满足了用户需求,这也是后来引导Google取得成功的关键。第一,它的网上索引范围超过了在此之前的任何一家搜索引擎。正如创始人Monier所说,相对于早期搜索引擎仅用一个爬行程序索引网络,AltaVisata则同时放出数百个蜘蛛在网上抓取资源。第二,Altavista速度快,几乎瞬间便可从庞大的数据库中为用户返回搜索结果。第三,如Monier所形容的,他们一流行起来就把所有早期搜索引擎打压下去了。原因使Altavista小组从一开始就采用了一种模块设计技术,使他们能够随着网站的流行,不断扩大处理能力。在当时形形色色、良莠不齐的搜索引擎之中,只有Altavista成为网络搜索的代名词。

  即使取得如此成绩,Altavista仍然没有取得Google分清良莠的强大功能。熟练用户可通过它的各种搜索语法(借助于数据库程序)找到自己需要的信息,但大多数用户还是不能如愿。虽然Altavista达到的前所未有的搜索范围和速度使其在搜索领域前进了一大步,但能够把搜索范围、速度及PageRank完美结合起来的Google最终实现了质的飞跃。

 

3

 

寻找,Google的成长历程

  使用Google搜索时,与其说是在搜索网络,倒不如说是从Google服务器存储的网络备份上进行检索正确。(据说,Google在加州和维吉尼亚的服务器上分布着多份完整的网络备份)检索汇集了网络蜘蛛收集的所有网页,这些蜘蛛不断地在网上爬行、收集网页、从每个网页上提取链接建立列表,接着按照优先顺序(为了平衡列表的宽度和深度)对这些链接排列分类,然后从这个列表上收集下一个网页。

  当用户输入搜索请求,Google 搜索引擎便在索引库中寻找该搜索词(采用一系列技术将这一寻找工作分配在上千万计算机上),然后从文档服务器的某独立区域(这里从Google的网络备份中提供匹配页面的“snippets”快照)返回相匹配的搜索结果,同时从另一组服务器上返回相关广告。各阶段工作互相配合,加上PageRank的作用,最终形成搜索结果页面。Google设法将这种不到一秒的程序处理成本降至最低,采取的措施就是用Google自有的聪明软件,以可靠快速的方式把由现成部件组装的廉价计算机连接起来。就这样,Google用上千台机器构成一个庞大的超级计算机,并很好的完成了一切步骤:寻找、归类、精确网络信息。

  PageBrin在斯坦福大学的计算机系统上创建了Google的原型,并且听起来像是空想家一样,他们对未来设计了明确的蓝图,对他们的系统提出了充分的设想:即满足搜索和日处理上百万请求的能力,现在的Google已经实现了这一梦想。很显然,是缩小服务器架构的创意以及他们高瞻远瞩的能力使他们的研究项目轻松实现产业化。Google早期投资者之一,Sun Microsystems的共同创始人Andy Bechtolsheim甚至还没等得及听完PageBrin的全部陈述,就迫不及待地做出了回复,我何不直接给你们写张10万美元的支票呢?。于是他为“Google公司,一家还不存在的公司写了支票。因此PageBrin才能很快组建公司,正式成立Google公司。

  从网络繁荣初期直到现在,如何实现盈利成为一贯的话题。初期,Google通过销售定位条幅广告,向包括雅虎等其他搜索引擎、小型门户提供搜索服务取得收入。但是,正如加州大学伯克利分校教授John Battelle在其关于搜索引擎的著作中所写,当Google推出AdWords――搜索结果旁边自动显示列表的广告系统,其收入直到2000年不会下降。

  广告客户针对特定搜索词条进行竞价,出价最高的可在Google搜索结果旁边获得文本广告最高排名位置。但Google不会单纯地按照出价高低决定广告位置,即最高价格的广告不一定被安排在列表最顶部,因为Google还将广告的流行度考虑在内,因此当某则广告获得更多点击时,其排名也会超过其他出价较高的广告。因此,Google对搜索结果的排名原则同样适用于广告客户。

  在Google看来,自己受到的唯一小挫折就是对手Overture声称对AdWords式的赞助商链接方式拥有专利权。2002Overture因此向Google提起法律诉讼,最终结果是双方达成庭外和解,Google同意向雅虎(Overture母公司)赔偿价值203亿美元的270万股票。

  目前,Google受到雅虎和微软方面的三向夹击,双方同时表示坚决取代Google的互联网搜索引擎统治地位。雅虎所采取的战略就是从搜索到交友、地图等一系列在线服务进行统一组合;微软则希望对桌面搜索和网络搜索实现无缝结合,使其各种软件嵌入搜索功能从而逐渐屏弃用户对Google需求。同时两家公司还不断完善各自的基础搜索技术,加强对Google的竞争。

  超越搜索?

  作为回应,Google逐渐对自己进行分化,逐渐推出了专家讨论组,新闻、购物等搜索服务,还有免费电子邮件服务GmailGoogle还开发了可安装在PC上的搜索工具栏,使搜索用户无须访问Google网站就能实现Google搜索,同时在用户PC上站稳脚跟。Google技术能力不容置疑,但问题是随着Google所专注的搜索强项逐渐成为一系列服务的构成成分,Google是否能够保持其现有统治地位。

  然而,从Gmail中我们可以看到搜索其他服务中发挥的重要作用:Gmail用户无须对邮件向多个文件夹分类整理,只要利用Google轻便的搜索功能就能很快找到自己需要的邮件。因此,促成Google成功的重要技术因素在未来竞争中能否继续担当其主要斗争武器,还未为可知。我们将继续拭目以待。

 

 

 

 

原创粉丝点击