加入收藏 | 设为首页 | 会员中心 | 我要投稿 徐州站长网 (https://www.0516zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 搜索优化 > 正文

百度网站收录先明白下搜索引擎的工作原理

发布时间:2022-01-14 10:09:46 所属栏目:搜索优化 来源:互联网
导读:想要在搜索引擎中有好的排名表现,网站的收录是基础,从另一方面讲,页面收录的数量级别也代表着网站的整体质量。我认为想让百度网站收录你得先要了解搜索引擎的工作原理,这样才可以有针对性的去迎合搜索规则,让网站收录达到理想状态。 搜索引擎的工作原
        想要在搜索引擎中有好的排名表现,网站的收录是基础,从另一方面讲,页面收录的数量级别也代表着网站的整体质量。我认为想让百度网站收录你得先要了解搜索引擎的工作原理,这样才可以有针对性的去迎合搜索规则,让网站收录达到理想状态。
  
        搜索引擎的工作原理非常复杂,接下来的简单讲一下搜索引擎怎么收录并实现网页排名的。
 
搜索引擎的工作过程大体上可以分成三个阶段:
 
1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。
2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。
3、排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
 
一、爬行和抓取
 
1) 蜘蛛访问。相信大家都知道它了,蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取某些文件和目录,蜘蛛会遵守协议,不抓取被禁止的网址。
 
2) 跟踪链接。为了抓取网上尽量多的页面, 搜索引擎蜘蛛跟踪页面上的链接,从一个页面爬到下一个页面,最简单的爬行策略分为两种:一种是深度优先,另一种是广度优先。
 
深度是指蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
广度是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。
 
3) 吸引蜘蛛。SEO人员想要百度网站收录,就要想办法吸引蜘蛛来抓取,蜘蛛只会抓取有价值的页面,以下是五个影响因素:网站和页面权重、页面更新度、导入链接、与首页的距离、URL结构。
 
4) 地址库。为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现但还没有抓取的页面,以及已经被抓取的页面。蜘蛛在页面上发现链接后并不是马上就去访问,而是将URL存入地址库,然后统一安排抓取。
 
地址库中URL有几个来源:
 
① 人工录入的种子网站;
② 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有网址,就存入待访问地址库;
③ 站长通过接口提交进来的网址;
④ 站长通过XML网站地图、站长平台提交的网址;
 
5) 文件存储。搜索引擎蜘蛛抓取的数据存入原始页面数据库。
 
6) 爬行时进行复制内容检测。
 
搜索引擎的工作原理
 
二、预处理
 
在一些SEO经验分享中,“预处理”也被简称为“索引”,因为索引是预处理最主要的内容:
 
1、提取文字
 
我们存入原始页面数据库中的是HTML代码,而HTML代码中,不仅有用户在页面上直接可以看到的文字内容,还有其他例如JS,AJAX等这类搜索引擎无法用于排名的内容。首先要做的,就是从HTML文件中去除这些无法解析的内容,提取出可以进行排名处理步骤的文字内容。
 
2、中文分词
 
分词是中文搜索引擎特有的步骤,搜索引擎存储/处理页面/用户搜索时都是以词为基础的。方法基本分两种:一种基于词典匹配,另一种是基于统计。
 
3、去停止词
 
不管是英文还是中文,页面中都会有一些出现频率很高的,对内容没有任何影响的词,如:的、啊、哈之类,这些词被称为停止词。搜索引擎会去掉这些停止词,使数据主题更突出,减少无谓的计算量。
百度网站收录先明白下搜索引擎的工作原理

(编辑:徐州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读