百度网站收录先明白下搜索引擎的工作原理

发布时间：2022-01-14 10:09:46 所属栏目：搜索优化来源：互联网

导读：想要在搜索引擎中有好的排名表现，网站的收录是基础，从另一方面讲，页面收录的数量级别也代表着网站的整体质量。我认为想让百度网站收录你得先要了解搜索引擎的工作原理，这样才可以有针对性的去迎合搜索规则，让网站收录达到理想状态。搜索引擎的工作原

想要在搜索引擎中有好的排名表现，网站的收录是基础，从另一方面讲，页面收录的数量级别也代表着网站的整体质量。我认为想让百度网站收录你得先要了解搜索引擎的工作原理，这样才可以有针对性的去迎合搜索规则，让网站收录达到理想状态。

搜索引擎的工作原理非常复杂，接下来的简单讲一下搜索引擎怎么收录并实现网页排名的。

搜索引擎的工作过程大体上可以分成三个阶段：

1、爬行和抓取：搜索引擎蜘蛛通过跟踪链接发现和访问网页，读取页面HTML代码，存入数据库。
2、预处理：索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理，以备排名程序调用。
3、排名：用户输入查询词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

一、爬行和抓取

1) 蜘蛛访问。相信大家都知道它了，蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件，如果robots.txt文件禁止搜索引擎抓取某些文件和目录，蜘蛛会遵守协议，不抓取被禁止的网址。

2) 跟踪链接。为了抓取网上尽量多的页面，搜索引擎蜘蛛跟踪页面上的链接，从一个页面爬到下一个页面，最简单的爬行策略分为两种：一种是深度优先，另一种是广度优先。

深度是指蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。
广度是指蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三层页面。

3) 吸引蜘蛛。SEO人员想要百度网站收录，就要想办法吸引蜘蛛来抓取，蜘蛛只会抓取有价值的页面，以下是五个影响因素：网站和页面权重、页面更新度、导入链接、与首页的距离、URL结构。

4) 地址库。为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现但还没有抓取的页面，以及已经被抓取的页面。蜘蛛在页面上发现链接后并不是马上就去访问，而是将URL存入地址库，然后统一安排抓取。

地址库中URL有几个来源：

① 人工录入的种子网站；
② 蜘蛛抓取页面后，从HTML中解析出新的链接URL，与地址库中的数据进行对比，如果是地址库中没有网址，就存入待访问地址库；
③ 站长通过接口提交进来的网址；
④ 站长通过XML网站地图、站长平台提交的网址；

5) 文件存储。搜索引擎蜘蛛抓取的数据存入原始页面数据库。

6) 爬行时进行复制内容检测。

搜索引擎的工作原理

二、预处理

在一些SEO经验分享中，“预处理”也被简称为“索引”，因为索引是预处理最主要的内容：

1、提取文字

我们存入原始页面数据库中的是HTML代码，而HTML代码中，不仅有用户在页面上直接可以看到的文字内容，还有其他例如JS，AJAX等这类搜索引擎无法用于排名的内容。首先要做的，就是从HTML文件中去除这些无法解析的内容，提取出可以进行排名处理步骤的文字内容。

2、中文分词

分词是中文搜索引擎特有的步骤，搜索引擎存储/处理页面/用户搜索时都是以词为基础的。方法基本分两种：一种基于词典匹配，另一种是基于统计。

3、去停止词

不管是英文还是中文，页面中都会有一些出现频率很高的，对内容没有任何影响的词，如：的、啊、哈之类，这些词被称为停止词。搜索引擎会去掉这些停止词，使数据主题更突出，减少无谓的计算量。
百度网站收录先明白下搜索引擎的工作原理

（编辑：徐州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

网站优化过度是什么意	网站seo优化怎么删除企
杭州网站标题优化如何	网站优化推广对企业有