搜索引擎简介

来源:互联网 发布:8个灯流水灯单片机程序 编辑:程序博客网 时间:2024/06/11 15:45

搜索引擎简介

    搜索引擎可以说是目前所有互联网应用里技术含量最高的一种,搜索引擎本质上是一个匹配的过程,搜索是目前解决信息过载的相对有效方式。 

1、搜索引擎的发展史  

    1991年,Tim Berners-Lee 将超文本的概念引入了互联网,同时退出了WWW雏形,配套的HTTP传输协议及相应的Web服务器技术;1993年,全球互联网进入高速发展期。

    1995年,是商业搜索引擎公司发展的重要起点。其对应的背景是:互联网上Web站点数量首次超过100万,此时,普通用户已经无法以来手工的方式来获得自己想要的信息。

    Yahoo,依靠人工编辑导航目录,将互联网上重要的站点分们别类整理好,满足了人们查找重要网站的需求,可谓应时而生,从而快速增长为最著名的搜索和门户网站;其他搜索引擎公司则提供基于传统信息解锁系统的搜索服务,也获得了快速的增长

    Google于1998年成立,以PageRank连接分析技术大幅度提高了搜索质量,之后告诉发展并抢占了绝大多数搜索引擎市场,成为目前最重要的互联网公司之一。

    百度则依靠本地化优势,成为中国国内最强势的搜索引擎服务提供商。

    搜索引擎技术的发展可划分为四个阶段:

第一阶段:分类目录的一代
    也称导航时代,Yahoo和国内的hao123是这个时代的代表,通过人工收集整理,把属于各个类别的高质量的网站,或者网页愤懑别类,用户可以根据分级目录来查找高质量的网站。这种方式是纯人工的方式。
第二阶段:文本检索的一代

    采用经典的信息检索模型,比如布尔模型、向量空间模型、或者概率模型,来计算用户查询关键词和网页文本内容的相关程度,然后排序。

第三阶段:链接分析的一代

    充分利用网页之间的链接关系,网页链接代表了一种推荐关系,所以通过链接分析可以再海量内容中找出重要的网页,搜索引擎通过结合网页重要性和内容相似性来改善搜索质量。

第四阶段:用户中心的一代

    利用用户发送查询词时的时间和地理位置信息,利用用户过去发送的查询词以及相应的点击记录等历史信息等技术手段,来试图理解用户发出的某个很短小的查询词背后的真正需求。

2、搜索引擎的目标

    搜索引擎技术所希望达到目标可以归纳为更全、更快、更准。

    目前搜索引擎索引网页的覆盖范围都只占了互联网页面的一部分,可以通过提高网络爬虫相关技术来达到更全的目标。

    索引相关技术、缓存等技术的提出都是为了达到更快的目标

    排序相关技术、链接分析技术、用户研究等技术都是为了使搜索结果更加准确

3、索引引擎的技术架构

    搜索引擎的信息来源于互联网网页,通过网络爬虫将整个互联网的信息获取到本地,网页去重模块取出重复内容;网页内容通过倒排索引这种高效查询数据结构来保存,而网页之间的链接关系也会予以保存,在通过链接分析技术判断网页重要性时要用到。


原创粉丝点击