打开客服菜单
SEO培训学院招生介绍
天青SEO培训 > 搜索引擎算法 > 最简单易懂的搜索引擎工作原理简介
最简单易懂的搜索引擎工作原理简介
编辑 : 天青SEO 时间 : 2018-06-07T10:12:02 浏览量 : 236

最简单易懂的搜索引擎工作原理简介

最简单易懂的搜索引擎工作原理简介

搜索引擎的工作过程大体上可以分成三个阶段。

(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。

(2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。

(3)排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

一、爬行和抓取

1、蜘蛛

蜘蛛访问页面时类似于普通用户使用的浏览器。

蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。

搜索引擎蜘蛛也有标明自己身份的用户代理名称。

2、跟踪链接

最简单的爬行遍历策略分为两种,一种是深度优先,另一种是广度优先。

所谓深度优先,指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他的链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

广度优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

 

最简单易懂的搜索引擎工作原理简介

 

从理论上来说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源、时间都不是无限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬取和收录了互联网的一小部分。

深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的网站(广度优先),也能照顾到一部分网站的内页(深度优先),同时也会考虑页面权重、网站规模、外链、更新等因素。

3、吸引蜘蛛

既然蜘蛛不能抓取所有页面,那么蜘蛛所要做的就是尽量抓取重要页面。

①网站和页面权重。质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。

②页面更新度。蜘蛛多次爬取后会对页面更新频率有所了解,如果页面经常更新,蜘蛛就会更加频繁的访问这种页面。

③导入链接。高质量的链接也经常使页面上的导出链接被爬行深度增加。

④与首页点击距离。一般来说网站上权重最高的是首页。离首页距离越近,页面权重越高。

⑤URL结构。短的、层次浅的URL也可能被直观地认为在网站上的权重相对较高。

4、地址库

为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现、但还没有抓取的页面,以及已经被抓取的页面。蜘蛛发现链接后不是马上就去访问,而是统一安排抓取。

5、文件存储

搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都有一个独特的文件编号。

6、爬行时的复制内容检测。

蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。这也就是有的站长在日志文件中发现了蜘蛛,但页面从来没有被真正收录过的原因之一。

二、预处理

1、提取文字

搜索引擎预处理首先要做的就是从HTML文件中去除标签,程序,提取出可用于排名处理的文字内容。

 最简单易懂的搜索引擎工作原理简介

 

除了可见文字,搜索引擎也会提取一些特殊的包含文字信息的代码,如meta标签中的文字、图片替代文字、flash文件中的替代文字、链接瞄文字等。

2、中文分词

分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面内容及用户查询都是以词为基础的。英文等语言单词与单词之间有空格作为天然分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有词和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些词本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。

中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。

基于词典匹配的方法是指,将待分析的一段文字与一个事先造好的词典进行匹配,其准确度在很大程度上取决于词典的完整性和更新情况。

基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。

实际工作中分词系统都是混合使用两种方法的。

搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生歧义的时候,比如在页面标题、h1标签及黑体中出现关键词

3、去停止词

无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“呀”、“哈”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中常见的停止词有the,a,an,to,of等。

4、消除噪声

绝大部分页面上还有一部分对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。

消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域。

5、去重

搜索引擎不喜欢重复性的东西,如果内容相关,搜索引擎希望只返回相同文章中的一篇。

去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取10个特征关键词就可以到达比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大了。

了解了搜索引擎的去重算法,SEO人员就应该知道简单地增加“的”、“地”、“得”、调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词,也就不发改变指纹。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别,混合不同文章、交叉段落顺序也不能使转载和抄袭变成原创。

6、正向索引

经过以上步骤之后,搜索引擎得到的就是独特的、能反映页面主体内容的,以词为单位的字符串。接下来搜索引擎程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置等信息。这样每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。

搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。

每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID了。这样的数据结构就成为正向索引。

 

最简单易懂的搜索引擎工作原理简介

7、倒排索引

正向索引还不能直接用于排名,搜索引擎会将正向索引重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。

在倒排索引中关键词是关键,每个关键词都对应着一系列的文件,这些文件中都出现了这个关键词,这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。

 

最简单易懂的搜索引擎工作原理简介

8、链接关系计算

搜索引擎在抓取页面内容后,必须事前计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么瞄文字,这些复杂的链接指向关系形成了网站和页面的链接权重。

9、特殊文件处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。

10、质量判断

这里所说的质量判断包含很多因素,并不局限于针对关键词的提取和计算,或者针对链接进行数值计算。比如对页面内容的判断,很可能包含了用户体验、页面排版、广告布局、语法、页面打开速度等,也可能会涉及模式识别、机器学习、人工智能等方法。

三、排名

1、搜索词处理

①中文分词。分词原理与页面分词相同,将查询字符串转换为以词为基础的关键词组合。

②去停止词。和索引时一样,搜索引擎也需要把搜索词中的停止词去掉,最大限度的提高排名相关性及效率。

③指令处理。查询词完成分词后,搜索引擎的默认处理方式是在关键词之间使用“与”逻辑。

另外用户输入的查询词还可能包含一些高级搜索指令,如加号、减号等,搜索引擎都需要做出识别和相应处理。

④拼写错误校正。

⑤整合搜索触发。某些关键词会触发整合搜索,比如明星姓名就经常触发图片和视频内容,当前的热门话题又容易触发资讯内容

⑥搜索框提示。用户在搜索框填写过程中,搜索引擎就根据热门搜索数据给出多组可能的查询词。

2、文件匹配

搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有搜索关键词的所有文件。在索引部分提到的倒排索引使得文件匹配能够快速完成。

3、初始子集的选择

找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至上千万,要对这么多的文件实时进行相关性计算,需要的时间还是太长。

实际上,用户并不需要知道所有匹配的几十万、几百万页面,绝大多数用户只会查看前两页,搜索引擎并不需要计算这么多页面的相关性,而只要计算最重要的一部分页面就可以了。

但问题在于,还没有计算相关性时,搜索引擎又怎么知道哪1000个文件是最相关的?所以用于最后相关性计算的初始页面的选择,必须依靠其他特征而不是相关性,其中最主要的就是页面权重

4、相关性计算

相关性计算是搜索引擎算法中最令SEO感兴趣的部分。

影响相关性的主要因素包括如下几方面:

①关键词常用程度。

越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。

所以搜索引擎对搜索词串中的关键词并不是一视同仁地处理,而是根据常用程度进行加权。不常用的词加权系数高,常用词加权系数低,排名算法对不常用的词给与更多关注

②词频及密度。

一般认为在没有关键词堆积的情况下,搜索词在页面中出现的次数越多,密度越高,说明页面与搜索词越相关。当然这只是一个大致直观规律,实际情况要复杂的多,出现频率及密度只是排名因素的很小一部分。

③关键词位置及形式。

就像在索引部分中提到的,页面关键词出现的格式和位置都被记录在索引库中。

④关键词距离。

切分后的关键词完整匹配地出现,说明与搜索词最相关。

⑤链接分析及页面权重。

除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是瞄文字。页面有越多以搜索词为瞄文字的导入链接,说明页面的相关性越强。

链接分析还包括了链接源页面本身的主题、瞄文字周围的文字等。

5、排名过滤及调整

经过以上步骤,大体排名就已经确定了。之后搜索引擎可能还会有一些过滤算法。对排名进行轻微调整,其中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面去,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。

6、排名显示

所有排名确定后,排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的说明标签。

7、搜索缓存

用户搜索的查询词有很大一部分是重复的。按照二八定律,20%的搜索词占到了搜索次数的80%。

如果每次搜索都重新处理排名可以说是很大的浪费。搜索引擎会把最常见的搜索词及结果存入缓存。用户搜索时直接从缓存中调用,而不必经过文件匹配和相关性计算,大大的提高了排名效率,缩短了搜索反应时间。

8、查询及点击日志

搜索用户的IP地址、搜索的查询词、搜索时间、以及点击了解哪些结果页面,搜索引擎都会记录形成日志。这些日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。


天青教育SEO培训学院专注SEO实战培训SEO专业培训SEO系统培训seo网络培训SEO排名优化培训。 如果你喜欢《最简单易懂的搜索引擎工作原理简介》,可以把他分享给你的朋友和同行,让他们也能从中受益,他们会对你的无私表示感谢。

《最简单易懂的搜索引擎工作原理简介》的相关文章

天青教育最新互联网干货文章

包括SEO、营销、建站、运营、推广、自媒体等领域

  • 16

    2018-01

    360搜索将逐步取消referer关键词显示

    亲爱的站长朋友们:大家好。近年来,搜索引擎网站信息加密已经成为业内共同举措,此举能更好维护网络环境的安全,提升用户搜索的体验。就此,360搜索将逐步取消refe ...

  • 04

    2018-06

    6月3日至6月5日熊掌号群发消息功能升级维护公告

    尊敬的熊掌号合作方,因系统升级维护需要,熊掌号群发消息功能将在2018年6月3日至2018年6月5日暂时下线,暂停使用。届时,熊掌号将不能针对粉丝用户进行群发消 ...

  • 27

    2018-04

    百度搜索关于处理失效、死链等低质内容的公告

    百度搜索一直致力于为站长和用户营造健康、优质的内容生态。近期发现,多数站点中存在内容失效、死链等低质问题,这些低质内容的存在会影响用户浏览百度搜索时的体验。同时 ...

  • 29

    2018-01

    百度移动搜索移动网页兼容性问题

    近期针对移动页面兼容性问题,百度内部做了专项数据评估和分析,发现一些网站的移动端页面在操作系统的不同版本下,页面浏览效果有较大差异,有些版本下存在排版异常、页面 ...

  • 23

    2017-08

    百度移动搜索冰桶算法,提高移动页面用户体验

    2016年,冰桶算法连续发布3个升级版本,现已更新到冰桶算法4.5,辣么多算法,究竟都说了什么呢?学院君现在就来和大家唠唠:冰桶算法,初次推出是2014年,主要 ...

  • 23

    2018-05

    百度谭待:搜索流量分配新机制

    5月22日,2018百度联盟生态峰会—熊掌号分论坛在海口召开;百度搜索战略官兼首席架构师谭待带来《搜索流量分配新机制》主题演讲。以下是《搜索流量分配新机制》的内 ...

  • 20

    2018-01

    网站没有被搜索引擎收录,如何提交网站给搜索引擎收录

    对SEO有所了解的都知道,收录是网站排名的基础,收录都没有,还谈什么排名;而在网站上线后,会因为各种因素影响,导致网站没有被搜索引擎收录或者网站收录量太少,这个 ...

  • 22

    2017-11

    什么是搜索引擎优化SEO?

    搜索引擎优化SEO的本质是:优化你的网站,让搜索引擎蜘蛛(spider)更好的阅读和抓取。SEO的中文意思是搜索引擎优化。通俗理解是:通过总结搜索引擎的排名规律 ...

  • 10

    2018-01

    小说专场SEO培训视频(附带详细文字说明)

    很多人多说做小说站没前途,看为什么百度偏偏单独发布了“小说专场”?百度站长平台刚刚发布了“小说专场的SEO培训视频”。这好像是头一次针对某个特定网站进行专项解读 ...

  • 10

    2018-05

    SEO实战培训都培训什么内容

    很多想参加SEO培训的朋友都会有个疑虑,那就是想知道SEO培训到底都培训什么内容,今天天青教育就跟大家讲一下天青教育SEO实战培训的主要培训大纲。最近我们的客服 ...

  • 24

    2018-04

    SEO整站优化方案制作

    不管是我们为自己的网站做SEO还是给自己公司的网站优化,又或者是给客户提供SEO服务,在SEO工作开始之前做好一份详细的SEO方案,不要怕费时间,只有有计划地去 ...

  • 26

    2018-01

    新站如何被百度快速收录

    关于新建站点如何快速的被百度收录,是很多SEOer在网站刚刚上线时最为关注的一个问题。并且收录的快慢也成了领导频繁追问的一件事,那如何通过使用百度链接提交工具快 ...

  • 22

    2017-11

    ​移动页面被百度转码展现_影响手机端排名最重要的几个因素

    随着这几年安卓手机和苹果手机的普及,现在移动端的流量呈现直线上升趋势,但是移动端搜索引擎优化方面,仍然有很多网站,并没有多少流量或者出现流量骤降的情况。这些都涉 ...

  • 20

    2018-01

    文章正文中的关键词链接,你知道怎么做吗

    内部链接的重要性,很多做SEO的朋友现在都知道。越大的网站,越要更加重视内部链接结构的布局。因为良好的内部链接结构可以引导权值的传递,提高收录,提升内页排名。但 ...

  • 21

    2018-03

    网站排名好,流量少的原因及解决办法

    之前有一位同在贵阳的SEO朋友咨询笔者,说在公司面临着被炒鱿鱼的窘境,后来笔者才知道原来是因为网站优化的事情,本来把“贵阳地暖安装公司”做到首页了,但老板却不满 ...

  • 08

    2018-03

    一个页面如何让它被百度收录

      收录和排名有没有关系?  有的网站收录是30万收录量,收录多,但没有排名,但是有的网站收录量很少,只有区区几十个,但是排名特别好。这是什么原因呢?  收录对 ...

  • 20

    2018-01

    百度站长社区版主飞鹰正义:浅谈百度搜索排序

    站长圈经常聊的话题中,怎么提升百度排序一定是排名TOP3的问题,那百度排序的原理是什么,该怎么提升,今天曲曲小姐姐特邀社区版主飞鹰,给大家分享一下他的理解。关于 ...

  • 07

    2017-12

    揭秘:SEO7天快速排名上首页,快排SEO的原理

    快速排名:简单的来说就是利用搜索引擎特点或者说是原理,对网站进行“不一样”的优化方式!对于快排这一技术,SEOer应该不陌生,特别是“点击排名”这一理论以及排名 ...

  • 22

    2018-05

    熊掌号平台最新消息,全新升级,全新上线

    熊掌号致力于帮助资源方快捷、高效地连接全网用户,通过充分利用百度搜索生态开放的优势,帮助资源方获取流量、沉淀用户和塑造品牌,实现自身内容与服务价值的快速增长。为 ...

  • 03

    2018-03

    什么是熊掌星力量,如何加入熊掌星力量

      熊掌号是百度搜索生态打造的重量级产品,致力于帮助内容和服务提供者便捷、高效地连接全网用户,并充分利用百度生态开放的优势,获取流量、沉淀用户、塑造品牌,实现自 ...

  • 19

    2018-03

    网站能长期生存靠的SEM之“攻”与SEO之“守”

    对于线上营销而言,SEM+SEO是一种攻防结合的战术,其目的是为了最大化搜索营销的效果收益。SEM开启的是“进攻”模式,SEO呈现的则是“防守”模式。搜索营销如 ...

  • 09

    2018-01

    移动搜索优化实用教程:解网站移动化之痛

    “移动化”已成为每一位互联网从业者不可规避,甚至是必须追赶的目标。从2014年开始,百度加快了自身的移动化转型,同时也更大力度推进全网向移动化转型。截止2014 ...

  • 09

    2018-01

    百度站长平台:“站长+”时代全新出击

    2015年7月31日,百度站长平台高端沙龙来到深圳,与太平洋、糗事百科、土巴兔等50余家优质站点技术负责人畅谈整个下午,围绕站长平台“站长+”转型、站长工具2. ...

  • 10

    2018-01

    互联网行业网站运营公约

    互联网行业网站运营公约由百度发起,旨在建立健康良性发展的互联网生态圈和规范的互联网行业网站运营标准,为互联网从业者对网站进行合理、正规化运营提供指导原则,帮助网 ...

  • 09

    2018-01

    百度站长平台VIP大讲堂:移动网站优化实用教程

    2015年4月28日,百度站长平台《VIP大讲堂——移动网站优化实用教程》开讲,全方位解读百度移动搜索收录、建库、适配相关内容。人民网、链家网、艺龙网等近50家 ...

  • 22

    2017-08

    改造MIP获得搜索引擎青睐,轻松完成SEO

    搜索引擎目标及页面排序方法搜索引擎作为互联网流量的入口,承担着流量分发的职责。但排序成千上万的网页,决定哪些网页在第一页,是由网页本身的用户体验决定的。权重算法 ...

  • 16

    2017-08

    百度与W3C中国联合组织移动网页加速技术研讨会

            2017年8月30日,百度联合W3C中国在北京中关村软件园国际会议中心主办了“移动网页加速技术研讨会”, ...

  • 19

    2018-03

    网站建设:需要了解的域名和空间相关知识

    在操作seo之前,我们需要拥有自己的网站,那么就需要先掌握域名和空间相关的知识。一、域名的选择搭建网站之前,我们需要给自己的网站选择一个域名。其实,域名就相当于 ...

  • 11

    2018-01

    百度站长平台站点验证图文教程

    百度站长平台是百度搜索与站长之间最直接的交流平台,通过在百度站长平台上进行站点验证,可以获得很多好处,下面天青教育随便给大家讲解几点:第一点:新站保护工具——强 ...

  • 20

    2018-03

    如果要学习web前端开发,需要学习什么

    遇到很多新手,都会问,如果要学习web前端开发,需要学习什么?难不难?多久能入门?怎么能快速建一个网站?工资能拿到多少?还有些让我推荐一些培训机构什么的要去学习 ...

    未能查询到您想要的文章

  • seo实战培训

  • seo系统培训

  • seo网络培训

  • seo视频培训

cache
Processed in 0.019316 Second.