百度搜索引擎工作原理介绍

作者：原创发布时间： 2021/5/25 10:51:13

　　一、网页抓取

　　Spider每遇到一个新文档，都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面，即B/S模式。引擎蜘蛛先向页面提出访问请求，服务器接受其访问请求并返回HTML代码后，把获取的HTML代码存入原始页面数据库。搜索引擎使用多个蜘蛛分布爬行以提高爬行速度。搜索引擎的服务器遍布世界各地，每一台服务器都会派出多只蜘蛛同时去抓取网页。如何做到一个页面只访问一次，从而提高搜索引擎的工作效率。在抓取网页时，搜索引擎会建立两张不同的表，一张表记录已经访问过的网站，一张表记录没有访问过的网站。当蜘蛛抓取某个外部链接页面URL的时候，需把该网站的URL下载回来分析，当蜘蛛全部分析完这个URL后，将这个URL存入相应的表中，这时当另外的蜘蛛从其他的网站或页面又发现了这个URL时，它会对比看看已访问列表有没有，如果有，蜘蛛会自动丢弃该URL，不再访问。

　　二、预处理

　　建立索引为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果，搜索引擎必须将spider抓取的原始web页面做预处理。网页预处理最主要过程是为网页建立全文索引，之后开始分析网页，最后建立倒排文件(也称反向索引)。Web页面分析有以下步骤：判断网页类型，衡量其重要程度，丰富程度，对超链接进行分析，分词，把重复网页去掉。经过搜索引擎分析处理后，web网页已经不再是原始的网页页面，而是浓缩成能反映页面主题内容的、以词为单位的文档。数据索引中结构最复杂的是建立索引库，索引又分为文档索引和关键词索引。每个网页唯一的docID号是有文档索引分配的，每个wordID出现的次数、位置、大小格式都可以根据docID号在网页中检索出来。最终形成wordID的数据列表。倒排索引形成过程是这样的：搜索引擎用分词系统将文档自动切分成单词序列-对每个单词赋予唯一的单词编号-记录包含这个单词的文档。倒排索引是最简单的，实用的倒排索引还需记载更多的信息。在单词对应的倒排列表除了记录文档编号之外，单词频率信息也被记录进去，便于以后计算查询和文档的相似度。

　　三、查询服务

　　在搜索引擎界面输入关键词，点击“搜索”按钮之后，搜索引擎程序开始对搜索词进行以下处理：分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉。接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找出，而且对网页进行排序，最后按照一定格式返回到“搜索”页面。查询服务最核心的部分是搜索结果排序，其决定了搜索引擎的量好坏及用户满意度。实际搜索结果排序的因子很多，但最主要的因素之一是网页内容的相关度。影响相关性的主要因素包括如下五个方面。

上一篇：百度搜索引擎发展历程介绍下一篇：百度绿萝算法2.0的升级