搜索引擎收录页面的工作原理(搜索引擎按照收录内容分为什么类型)
gaoyangw 2025-04-07 14:08 18 浏览 0 评论
想要在搜索引擎中有好的排名表现,网站的收入是基础。另一方面,收录的页面数量也代表了网站的整体质量。我觉得想要百度网站被收录,首先要了解搜索引擎的工作原理,这样才能有针对性的迎合搜索规律,让网站被收录处于理想状态。搜索引擎的工作原理非常复杂。接下来简单说一下搜索引擎是如何收录和实现网页排名的。
搜索引擎的工作过程大致可以分成三个阶段:
1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。
2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
3、排名:用户输入查询词(关键词)后,排名程序调用索引数据,计算相关性,然后按一定格式生成搜索结果页面。
一、爬行和抓取
1) 蜘蛛访问:相信大家都知道它了,蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果robots.如果robots文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。
2)跟随链接:了在互联网上抓取尽可能多的页面,搜索引擎蜘蛛会沿着页面上的链接,从一个页面爬到下一个页面。最简单的抓取策略分为两种:一种是深度优先,一种是广度优先。
深度优先是指蜘蛛沿着发现的网络营销链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。
3) 吸引蜘蛛:SEO人员想要百度网站收录,就要想办法吸引蜘蛛来抓取,蜘蛛只会抓取有价值的页面,以下是五个影响因素:网站和页面权重、页面更新度、导入链接、与首页的距离、URL结构。
4.地址库:调度系统为了避免重复爬行和抓取网址,搜索引擎会建立地址库,记录已经被发现但还有没有抓取的页面,以及已经被抓取的页面。蜘蛛在页面上找到链接后并不立即访问,而是将网址存储在地址库中,然后统一安排抓取。
地址库中URL有几个来源:
1.人工录入的种子网站;
2. 蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL 与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。
3.站长通过接口提交进来的网址;
4.站长通过XML网站地图、站长平台提交的网址。
5.文件储存,搜索引擎蜘蛛抓取的数据存入原始页面数据库。
6.爬行时进行复制内容检测。
二、预处理
在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。
1、提取文字
我们存入原始页面数据库中的是HTML代码,而HTML代码中,不仅有用户在页面上直接可以看到的文字内容,还有其他例如JS,AJAX等这类搜索引擎无法用于排名的内容。首先要做的是从HTML文件中移除这些无法解决的内容提取出可以排序的文本内容。
2、中文分词
分词是中文信息搜索引擎公司特有的步骤,搜索引擎进行存储/处理系统页面/用户可以搜索时都是以词为基础的。中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。
3、去停止词
无论是英文还是中文,页面都会有一些很高的频率,内容对词语没有影响,比如: 的,啊哈,这些词语叫做停止词。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
4、去噪声词
大部分学生页面里有这么一部分研究内容对页面设计主题没什么发展贡献,比如A页面的内容是一篇关于百度公司网站收录的文章,关键词是百度网站收录,但是我们除了教师讲解网站收录这个工作内容的主体内容外,共同组成社会这个问题页面的还有一些例如页眉,页脚,广告等区域。
这些部分出现的词可能与页面内容本身的关键词没有关系。搜索引擎的排名程序在对数据进行排名时无法参考这些噪音内容,因此需要在预处理阶段将这些噪音分离出来并消除。消除噪声的方法是根据HTML的标签对页面进行分块,如页眉是header标签,页脚是footer标签等等,去除掉这些区域后,剩下的才是页面主体内容。
5、内容去重
也就是我们去掉重复的网页,同一篇文章经常会出现重复在不同企业网站/同一个公司网站的不同网址上。对于用户的体验来说,去重复是必要的。搜索引擎识别并删除页面中的重复内容。这个过程被称为去重复,是影响百度网站内容的关键因素之一。
6、正向索引
索引经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。
接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。
7、倒排索引
假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。
这样的计算量无法满足实时返回排名结果的要求,搜索引擎会提前对所有关键词进行分类,将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,在倒排索引中关键词是主键,每个关键词都对应着一系列文件,比如下图第一排右侧显示出来的文件,都是包含了关键词1的文件。这样,当用户搜索某个关键词的时候,排名程序在倒排索引中定位这个关键词,就可以马上找到所有包含这个关键词的页面。
三、搜索结果排名
经过搜索引擎蜘蛛抓取页面,索引程序计算得到的倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框中输入想要查询的内容后,排名程序调用索引库中的数据,计算排名并在搜索结果页面中显示内容。
1、搜索词处理
搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理过程包括:中文分词、去停止词、指令处理。
完成上述步骤后,搜索引擎处理其余内容的默认方法是使用关键字之间的和逻辑。
比如用户在搜索框中输入“减肥的方法”,经过分词和去停止词后,剩下的关键词为“减肥”、“方法”,搜索引擎排序时默认认为,用户想要查询的内容既包含“减肥”,也包含“方法”。
2、文件匹配
搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。进入的下一个发展阶段:文件进行匹配不同阶段,就是学生找出含有所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,假设用户搜索“关键词1 关键词2”,排名程序只要在倒排索引中找到“关键词1”和“关键词2”这两个词,就能找到分别含有这两个词的所有页面文件。
3、初始子集的选择
找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是比较长的。百度搜索引擎,最多只会返回760条结果,所以只需要计算前760个结果的相关性,就能满足要求。
由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含所有查询关键词),搜索引擎会先筛选出1000个页面权重较高的一个文件,通过对权重的筛选初始化一个子集,再对这个子集中的页面进行相关性计算。
4、相关性计算
选出初始子集后,对子集中的页面计算关键词相关性。计算相关性是排名过程中最具有重要的一步,影响相关性的主要经济因素分析包括如下几个问题方面:
① 关键词常用程度
分词后,多个关键词对整个搜索字符串的意义贡献不同。越常用的词对搜索词的意义贡献越小,越不常用的词对意义贡献越大。因此,搜索引擎不会对搜索词串中的关键字一视同仁,而是根据权重的大小来进行处理。不常见词的加权系数较高,不常见词的加权系数较低,排序算法对不常见词的关注度较高。
② 词频及密度
一般认为,在没有关键词积累的情况下,搜索词在页面中出现的频率越高,密度越高,页面与搜索词的相关性越强。当然,这只是一般规律,实际情况未必如此,所以相关性计算还有其他因素。频率和密度只是等式的一部分,它们变得越来越不重要。
③ 关键词位置及形式
如索引部分所述,页面关键字的格式和位置记录在索引库中。关键词出现比较重要的位置,如标题标签、黑体等,说明页面与关键词越相关,这一部分就是页面SEO所要解决的。
④ 关键词距离
分段后关键词完全匹配的出现表明,它与搜索关键词的相关性最强。例如,在搜索“减肥方法”时,页面上出现的一整套“减肥方法”四个字是最相关的。如果“网站”和“建设”两个词没有连续匹配出现,或者出现的距离近一些,也被搜索引擎认为有一定的相关性。
⑤ 链接分析及页面权重
除了页面本身之外,页面之间的链接和权重的关系也会影响关键字的相关性,其中最重要的是锚文本。页面上以搜索词为锚文本的导入链接越多,页面的相关性就越强。链接分析还包括了链接源页面本身的主题和锚文字周边的文字等。
总结: 本文解释了搜索引擎是如何工作的。了解他们在百度是如何工作的很重要。例如,标题应该包括用户可能搜索的词,正确表示关键词或文本中的分割词有助于判断内容和用户的搜索词之间的相关性。
作者:道一
来源:微信公众号【燃灯SEO课堂】
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
相关推荐
- 手把手教你30分钟搭建企业官网:零基础也能搞定的傻瓜式教程
-
想给公司做个网站展示产品,又怕被程序员忽悠花冤枉钱?今天教你个绝招——用现成的网站模板"拼"网站!就像搭乐高一样简单,全程鼠标点点就能搞定,连代码都不用碰。第一步:挑个合身的"...
- 以Twig模板为例浅学一手SSTI(twig中文)
-
什么是SSTISSTI:开局一张图,姿势全靠ySSTI,即服务器端模板注入(Server-SideTemplateInjection)...
- 成功上岸腾讯运营,教你如何写校招简历?
-
产品策划/运营的校招简历应该怎么写?作者从自身实际情况出发,总结分享了相关经验,希望对你有用。写在前面红红火火恍恍惚惚,本人是一位2020届本科毕业生,校招意向互联网产品类。此前有过产品相关的项目&a...
- 50个精彩的响应式HTML和CSS模板:上
-
自由设计固然是一件好事儿,然而经常关注先进的设计作品,久而久之,就会帮你节省更多的布景设计时间,视觉效果也明显会更为专业,可以参考以下这些响应式HTML/CSS模板,实用性高,你肯定能从中汲取不...
- 你的人生,有多少“模板”?(扣好人生第一粒扣子手抄报模板可打印)
-
你浏览网页时,注意过那些海报吗?海报不仅仅是广告,还可以传递新闻信息,也常常摘要一些金句热词。作为一种新的传播形式,海报传递信息,简洁快捷,鲜明突出,往往有意想不到的效果。然而,做一张网络海报并不容易...
- 5款值的推荐的高效工具软件(高效工作软件哪个好用)
-
现在,有很多实用的工具和软件可以帮助我们更高效地完成各种任务。以下是几个值得推荐的工具和软件,能够极大地提高我们的工作效率。1.矢量设计——AffinityDesigner...
- 广州津虹YY直播成立“麦絮”厂牌 打造直播界短剧新标杆
-
3月31日,广州津虹YY直播在广州举办了生态大会暨麦絮短剧星光点映礼,宣布正式成立短剧厂牌“麦絮”,旨在宣传和推广自制短剧。广州津虹YY直播计划聚焦生态故事,与旗下公会、主播,以及百度、七猫、爱奇艺、...
- 广州哪家小程序开发公司比较靠谱?这三家值得推荐
-
小程序已成为企业数字化的重要工具,广州作为互联网产业重镇,小程序开发公司众多。如何选择靠谱的服务商?本文推荐三家实力突出的公司,供您参考。一、广州聆科网络技术有限公司本土老牌技术团队,专注小程序定制开...
- 西北嚎狼解析SEOer如何写好优质的软文
-
什么是软文?狭义:指企业花钱在报纸或杂志等宣传载体上刊登的纯文字性的广告。广义:企业通过策划在杂志或网络等宣传载体上刊登的提升企业品牌形象和知名度。软文:以摆事实讲道理的方式使用使消费者走进企业设定的...
- 花了15分钟答题,成功成为内容品鉴官了
-
午后的阳光在手机屏上碎成光斑,我盯着弹窗里闪烁的「恭喜」二字,指尖悬停在半空忘了动作。第三次了,那些被题库支配到深夜的郁结,此刻正顺着喉咙往上涌,最终化成一声压在胸腔里的叹息——这次终究是不同的。(一...
- 怎样写出能突破一切封锁的好广告(怎样写出能突破一切封锁的好广告作文)
-
每天拿出一分钟来学习,你得生命会更加精彩,我是洪雨有个朋友跟我讲,“现在发广告真难啊,发个链接就被删了,有时候你起的名字里带点广告都不行,引流真难啊……洪雨为什么你几乎可以在任何地方做广告,是怎么做到...
- 你能看出几个广告?软文分享《一个程序员的一天》
-
从电视广告到平面广告,再到各个banner、病毒视频、软文、HTML5等等等,各家公司为了给自家的产品做广告费尽了心思,无所不用其极。小编近日看见一篇文章,一时间竟没反应出这是一篇软文!只能说6666...
- 中小企业发稿总被拒?资深编辑教你3招软文发布轻松过审
-
中小企业新闻媒体发稿经常被拒怎么办?资深编辑教你3招软文发布轻松过审:发稿流程和投稿要点、注意事项分享...
- 「源生活」那些让人惊喜的中秋节软文广告
-
说起中秋节,我相信很多人会想起来很多物品,小编想到的是:水果,月亮,月饼,鲜花。此外还有数不尽好广告,好文案。当然了中秋节作为下半年的第一个大节日,显得就比较重要了。特别是又是传统佳节,又是法定节假日...
- 软文案例标题和内容怎么写(软文优秀案例)
-
1:软文营销专家南昌牛推科技(媒介星软文平台)全网营销+一对一服务成长软文案例标题和内容怎么写?软文营销专家南昌牛推科技(媒介星软文平台)全网营销+一对一服务成长,从业务经验出发分享一些心得。软文标题...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 网站建设 (107)
- 百度收录 (50)
- 搜索引擎排名优化 (49)
- 关键词优化工具 (51)
- 外贸网站建设 (56)
- seo整站优化吧 (50)
- 苏州网站建设 (59)
- 百度搜索推广 (61)
- 关键词优化公司 (51)
- 广州网站建设 (48)
- 电商网站建设 (49)
- 百度站长平台 (48)
- 网站模板 (51)
- 厦门网站建设 (52)
- 百度快照推广 (51)
- 免费网页在线客服系统 (53)
- 雷神代刷网站推广 (53)
- 手机网站建设 (53)
- 网站维护 (53)
- 网页制作教程 (66)
- 百度收录批量查询工具 (48)
- 网站服务器 (53)
- 学生个人网页制作html (56)
- 一键优化 (67)
- 网页制作软件 (49)