搜索引擎收录页面的工作原理(搜索引擎按照收录内容分为什么类型)
gaoyangw 2025-04-07 14:08 17 浏览 0 评论
想要在搜索引擎中有好的排名表现,网站的收入是基础。另一方面,收录的页面数量也代表了网站的整体质量。我觉得想要百度网站被收录,首先要了解搜索引擎的工作原理,这样才能有针对性的迎合搜索规律,让网站被收录处于理想状态。搜索引擎的工作原理非常复杂。接下来简单说一下搜索引擎是如何收录和实现网页排名的。
搜索引擎的工作过程大致可以分成三个阶段:
1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。
2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
3、排名:用户输入查询词(关键词)后,排名程序调用索引数据,计算相关性,然后按一定格式生成搜索结果页面。
一、爬行和抓取
1) 蜘蛛访问:相信大家都知道它了,蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果robots.如果robots文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。
2)跟随链接:了在互联网上抓取尽可能多的页面,搜索引擎蜘蛛会沿着页面上的链接,从一个页面爬到下一个页面。最简单的抓取策略分为两种:一种是深度优先,一种是广度优先。
深度优先是指蜘蛛沿着发现的网络营销链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。
3) 吸引蜘蛛:SEO人员想要百度网站收录,就要想办法吸引蜘蛛来抓取,蜘蛛只会抓取有价值的页面,以下是五个影响因素:网站和页面权重、页面更新度、导入链接、与首页的距离、URL结构。
4.地址库:调度系统为了避免重复爬行和抓取网址,搜索引擎会建立地址库,记录已经被发现但还有没有抓取的页面,以及已经被抓取的页面。蜘蛛在页面上找到链接后并不立即访问,而是将网址存储在地址库中,然后统一安排抓取。
地址库中URL有几个来源:
1.人工录入的种子网站;
2. 蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL 与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。
3.站长通过接口提交进来的网址;
4.站长通过XML网站地图、站长平台提交的网址。
5.文件储存,搜索引擎蜘蛛抓取的数据存入原始页面数据库。
6.爬行时进行复制内容检测。
二、预处理
在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。
1、提取文字
我们存入原始页面数据库中的是HTML代码,而HTML代码中,不仅有用户在页面上直接可以看到的文字内容,还有其他例如JS,AJAX等这类搜索引擎无法用于排名的内容。首先要做的是从HTML文件中移除这些无法解决的内容提取出可以排序的文本内容。
2、中文分词
分词是中文信息搜索引擎公司特有的步骤,搜索引擎进行存储/处理系统页面/用户可以搜索时都是以词为基础的。中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。
3、去停止词
无论是英文还是中文,页面都会有一些很高的频率,内容对词语没有影响,比如: 的,啊哈,这些词语叫做停止词。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
4、去噪声词
大部分学生页面里有这么一部分研究内容对页面设计主题没什么发展贡献,比如A页面的内容是一篇关于百度公司网站收录的文章,关键词是百度网站收录,但是我们除了教师讲解网站收录这个工作内容的主体内容外,共同组成社会这个问题页面的还有一些例如页眉,页脚,广告等区域。
这些部分出现的词可能与页面内容本身的关键词没有关系。搜索引擎的排名程序在对数据进行排名时无法参考这些噪音内容,因此需要在预处理阶段将这些噪音分离出来并消除。消除噪声的方法是根据HTML的标签对页面进行分块,如页眉是header标签,页脚是footer标签等等,去除掉这些区域后,剩下的才是页面主体内容。
5、内容去重
也就是我们去掉重复的网页,同一篇文章经常会出现重复在不同企业网站/同一个公司网站的不同网址上。对于用户的体验来说,去重复是必要的。搜索引擎识别并删除页面中的重复内容。这个过程被称为去重复,是影响百度网站内容的关键因素之一。
6、正向索引
索引经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。
接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页面第一段文字等)。搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。
7、倒排索引
假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。
这样的计算量无法满足实时返回排名结果的要求,搜索引擎会提前对所有关键词进行分类,将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,在倒排索引中关键词是主键,每个关键词都对应着一系列文件,比如下图第一排右侧显示出来的文件,都是包含了关键词1的文件。这样,当用户搜索某个关键词的时候,排名程序在倒排索引中定位这个关键词,就可以马上找到所有包含这个关键词的页面。
三、搜索结果排名
经过搜索引擎蜘蛛抓取页面,索引程序计算得到的倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框中输入想要查询的内容后,排名程序调用索引库中的数据,计算排名并在搜索结果页面中显示内容。
1、搜索词处理
搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理过程包括:中文分词、去停止词、指令处理。
完成上述步骤后,搜索引擎处理其余内容的默认方法是使用关键字之间的和逻辑。
比如用户在搜索框中输入“减肥的方法”,经过分词和去停止词后,剩下的关键词为“减肥”、“方法”,搜索引擎排序时默认认为,用户想要查询的内容既包含“减肥”,也包含“方法”。
2、文件匹配
搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。进入的下一个发展阶段:文件进行匹配不同阶段,就是学生找出含有所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,假设用户搜索“关键词1 关键词2”,排名程序只要在倒排索引中找到“关键词1”和“关键词2”这两个词,就能找到分别含有这两个词的所有页面文件。
3、初始子集的选择
找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是比较长的。百度搜索引擎,最多只会返回760条结果,所以只需要计算前760个结果的相关性,就能满足要求。
由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含所有查询关键词),搜索引擎会先筛选出1000个页面权重较高的一个文件,通过对权重的筛选初始化一个子集,再对这个子集中的页面进行相关性计算。
4、相关性计算
选出初始子集后,对子集中的页面计算关键词相关性。计算相关性是排名过程中最具有重要的一步,影响相关性的主要经济因素分析包括如下几个问题方面:
① 关键词常用程度
分词后,多个关键词对整个搜索字符串的意义贡献不同。越常用的词对搜索词的意义贡献越小,越不常用的词对意义贡献越大。因此,搜索引擎不会对搜索词串中的关键字一视同仁,而是根据权重的大小来进行处理。不常见词的加权系数较高,不常见词的加权系数较低,排序算法对不常见词的关注度较高。
② 词频及密度
一般认为,在没有关键词积累的情况下,搜索词在页面中出现的频率越高,密度越高,页面与搜索词的相关性越强。当然,这只是一般规律,实际情况未必如此,所以相关性计算还有其他因素。频率和密度只是等式的一部分,它们变得越来越不重要。
③ 关键词位置及形式
如索引部分所述,页面关键字的格式和位置记录在索引库中。关键词出现比较重要的位置,如标题标签、黑体等,说明页面与关键词越相关,这一部分就是页面SEO所要解决的。
④ 关键词距离
分段后关键词完全匹配的出现表明,它与搜索关键词的相关性最强。例如,在搜索“减肥方法”时,页面上出现的一整套“减肥方法”四个字是最相关的。如果“网站”和“建设”两个词没有连续匹配出现,或者出现的距离近一些,也被搜索引擎认为有一定的相关性。
⑤ 链接分析及页面权重
除了页面本身之外,页面之间的链接和权重的关系也会影响关键字的相关性,其中最重要的是锚文本。页面上以搜索词为锚文本的导入链接越多,页面的相关性就越强。链接分析还包括了链接源页面本身的主题和锚文字周边的文字等。
总结: 本文解释了搜索引擎是如何工作的。了解他们在百度是如何工作的很重要。例如,标题应该包括用户可能搜索的词,正确表示关键词或文本中的分割词有助于判断内容和用户的搜索词之间的相关性。
作者:道一
来源:微信公众号【燃灯SEO课堂】
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
相关推荐
- 秒懂百科自媒体知识力年中榜发布 百度百科发力短视频
-
中新网7月31日电7月27日,百度百科发布“秒懂百科自媒体知识力年中榜”,60名视频PGC上榜。15家自媒体入选总榜,文化、生活、娱乐、美食、人文社科、健康等6个分榜单亦评选出TOP10名单。此举不...
- 搜索学校被导向色情网站?百度百科:网页过期被利用,已处理
-
2月28日,有微信公号发文称,通过百度搜索部分小学和幼儿园,会被导向色情网站。当晚10时48分,“百度百科”官方微博回应此事称,部分百科词条中的参考资料网站,因网页过期失效,被不法分子利用,目前“已经...
- 文物会说话?百度百科用技术让文物“活”起来
-
《国家宝藏》《上新了·故宫》等文创节目大热,让历史文物以另一种姿态走进大众视野。它们所承载的历史记忆、蕴含的人文精神和彰显的大国气象,都深深吸引着用户。以古人之规矩,开时代之生面。如今互联网带来的世纪...
- 如何更新文章才会被百度快速收录(如何更新百度百科)
-
发现很多做网站编辑的不是很懂SEO,公司也没有进行过专门的培训,导致很多网站编辑认为编辑就是发文章,也不考虑有没有人看,这篇文章的受众是谁,用户的体验怎么样,这篇文章是不是能够解决用户的问题,下面我...
- 百度现在不收录新站点了吗?为什么新站点难以被收录,问题在哪里
-
对于很多站长和网站运营者来说,百度的收录问题一直是个棘手的问题。尤其是近来有很多人反映,百度似乎变得更加严格,不再收录新站点。是不是所有的新站点都碰壁了呢?百度现在不收录新站点了吗?这个问题成为了不少...
- 微信社群营销推广方案怎么做(微信社群营销文案写作范本)
-
微信社群营销推广方案全攻略在当今数字化营销的浪潮中,微信社群已经成为了企业和个人进行营销推广的重要阵地。据相关数据显示,超过70%的企业认为微信社群能够有效提升品牌知名度和产品销量。那么,一份优秀的...
- 别再手动加好友了!这才是私域引流的正确打开方式!
-
相信不少做私域运营、电商推广的朋友,都有过类似的经历:一个一个手动输入微信号码,稍不注意就看错数字,添加后还得时刻守着手机,生怕错过好友通过请求,整个人都精神紧绷........难道就没有更高效的办法...
- 外贸站SEO别只顾关键词,wordpress标签和分类也藏了坑
-
有个客户的独立站上线快一年了,谷歌还是收录不全,他一度怀疑是不是域名买亏了我看了下后台,WordPress标签和分类页全都默认开启索引,页面内容还特别“空”……很多人用WP搭外贸站,会在产品页打...
- wordpress外贸站SEO标题写错了?首页排名怎么也上不去!
-
最近优化一个WordPress独立站时,客户说:“我都天天发文章了,为啥首页还没排名?”我一看源码,差点没晕过去……首页的title是:“首页-公司名称”然后meta描述是空的真的...
- 做SEO还靠猜?这3个搜索技巧让你效率翻倍、选题不再难!
-
你是不是也有过这种时候:一堆关键词摆在你面前,不知道该写哪一个?想写篇博客但毫无灵感,不知道客户到底关心啥?竞争对手都写了十几页内容了,你还不知道怎么开头?别急,其实你不是不会做SEO,是你还没掌握几...
- 商家哭了!这软件让低成本营销爽到飞起
-
在竞争日益激烈的商业环境中,营销成本居高不下,成为众多商家发展路上的“拦路虎”。如何以有限成本获取高效营销效果,成为商家们亟待解决的难题。今天,为大家带来一款营销利器——“智碰推”软件,助力商家...
- “海景”直播藏危机,莫让流量成“变量”
-
近年来,随着网络直播的兴起,越来越多的商户、个人纷纷利用手机直播吸引客流,但通过网络直播创新创收的同时,应依法依规明确发展边界,切勿使直播镜头成为泄露国家秘密、危害国家安全的窗口。“绝美”海景引危机为...
- “海景”直播藏危机 莫让流量成“变量”
-
近年来,随着网络直播的兴起,越来越多的商户、个人纷纷利用手机直播吸引客流,但通过网络直播创新创收的同时,应依法依规明确发展边界,切勿使直播镜头成为泄露国家秘密、危害国家安全的窗口。“绝美”海景引危机为...
- 营销技巧:要想快速成为营销高手,你就得在这几个方面下功夫
-
营销技巧:要想快速成为营销高手,你就得在这几个方面下功夫做销售的,都羡慕那些营销高手、绩优高手,羡慕人家一直都有持续不断的业绩,羡慕人家见到客户很容易就能获得对方的信任,顺利拿到对方的需求和预算,羡慕...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 网站建设 (107)
- 百度收录 (50)
- 搜索引擎排名优化 (49)
- 关键词优化工具 (51)
- 外贸网站建设 (56)
- seo整站优化吧 (50)
- 苏州网站建设 (59)
- 百度搜索推广 (61)
- 关键词优化公司 (51)
- 广州网站建设 (48)
- 电商网站建设 (49)
- 百度站长平台 (48)
- 网站模板 (51)
- 厦门网站建设 (52)
- 百度快照推广 (51)
- 免费网页在线客服系统 (53)
- 雷神代刷网站推广 (53)
- 手机网站建设 (53)
- 网站维护 (53)
- 网页制作教程 (66)
- 百度收录批量查询工具 (48)
- 网站服务器 (53)
- 学生个人网页制作html (56)
- 一键优化 (67)
- 网页制作软件 (49)