百度360必应搜狗淘宝本站头条
当前位置:网站首页 > SEO教程 > 正文

提升SEO搜索引擎蜘蛛抓取教程 搜索引擎蜘蛛爬行和抓取的规则是什么

gaoyangw 2024-11-05 10:30 24 浏览 0 评论

一、了解搜索引擎蜘蛛爬行以及抓取原理

搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。

① 爬行原理

搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。

搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。

搜索引擎蜘蛛将收到的HTML代码存入搜索引擎的原始页面数据库中。


② 如何爬行

为了提高搜索引擎蜘蛛的工作效率,通常采用多个蜘蛛并发分布爬行。

同时,分布爬行还分为两种模式:深度优先和广度优先。

深度优先:沿着发现的链接一直爬行,直到没有任何链接。

广度优先:先这一页面上的所有链接爬行完毕之后,才会沿着第二层页面继续这样爬行。

③ 蜘蛛必遵守的协议

搜索引擎蜘蛛在访问网站之前,都会先访问网站根目录下的robots.txt文件。

搜索引擎蜘蛛不会去抓取robots.txt文件中禁止爬行的文件或目录。

④ 常见搜索引擎蜘蛛

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

360蜘蛛:360Spider

SOSO蜘蛛:Sosospider

有道蜘蛛:YoudaoBot,YodaoBot

搜狗蜘蛛:Sogou News Spider

必应蜘蛛:bingbot

Alexa蜘蛛:ia_archiver

二、SEO优化内链如何布局提升蜘蛛抓取

SEO优化中如何有效的布局内链,让蜘蛛抓取 SEO优化,那么网站优化时,我们要如何合理分析内外链呢?关于内链,我们需要检查的是seo:seo.ee ,可以检测看看:

1、内页多关键词指向首页

现在还有很多网站在内容页搞了好多关键词,但是指向的全都是首页,这个小技巧在前几年还是有些用的,但是现在算是作弊的行为,切记。

2、是否有相关推荐

每个页面是否有推荐跟内容相关的内部指向链接,这个很重要,对用户,对蜘蛛都是非常有帮助的。

3、每个页面是否能链接到别的相关页面

内页要做相关的推荐,还有栏目页、专题页、首页都是一样的,只不过要从不同的定位角度来指向而已。

那么如何检查外链呢?一般常用两种方法:

1、通过domain指令

可以找出链接你的网站是哪些,检查一下是否有和不良的网站出现在一起,如果有要尽快处理掉,不然也是会有影响的。

2、通过友情链接

查看友情链接是否正常,比如你链接了别人,别人却把你的链接给撤销了,或者别人的网站打不开了等等之类的情况,需要及时的处理。


三、手机网站图片如何抓取

总结出了以下六种方法,协助我们优化网站和手机端的图片,以达到优化友好,迅速被录入的作用。

1、不要盗用图片尽量原创

尽量自己做图片,有很多免费的图片素材,我们可以通过拼接,做出我们需要的图片。

在平时工作的时候,发现和自己网站相关的图片可以先保存下来,在本地做出分类和标记。

网站需要图片的时候,看看相关的图片,自己着手做一个图片。这是一个长期积累的过程,随之时间的增加,自己的素材量也会越来越大。熟练了再做图片就得心应手了。

2、网站图片保存路径

这个问题很多站长都没有注意,图片在传到到网站的时候,尽量把图片保存在一个目录下面,

或者根据网站栏目做好相应的图片目录,上传的时候路径要相对固定,方便蜘蛛抓取,蜘蛛在访问到这个目录的时候就会“知道”这个目录里面保存的是图片;

图片文件命名最好使用一些有规律的或者意义的方法,可以使用时间、栏目名称或者网站名称来命名。

例如:SEO优化下面的图片可以使用“SEOYH2018-6-23-36”这种命名,前面“SEOYH”是SEO优化的简拼,中间是时间,最后是图片的ID。

为什么要这么做呢?

其实这样是培养搜索引擎蜘蛛抓取习惯,方便将来更快的识别网站图片内容。让蜘蛛抓的顺心了,网站被收录的几率就增加了,何乐而不为呢!


3、图片周围要有相关文字

网站图片是能把信息直接呈现给用户一个方法,搜索引擎在抓取网站内容的时候,也会检测这篇文章是否有配图、视频或者表格等等,

这些都是可以增加文章分数值的元素,其他的几个形式暂时不表,这里我们只说说关于图片周围相关文字的介绍。

首先图片周边文字要与图片本身内容相符,例如你的文章说的是做网站优化,里面配图是一道菜谱的图片,这不是挂羊头卖狗肉么?

用户的访问感会极差,搜索引擎通过相关算法识别这张图片以后,也会觉得图文不符,给你差评哦。

所以,每篇文章最少要配一张相应的图片,而且在图片的周围要出现和你网站标题相关的内容。不但能帮助搜索引擎理解图片,还可以增加文章的可读性、用户体验友好度以及相关性。

4、图片添加alt、title标签

许多站长在添加网站图片时可能没有留意这些细节,有的可能觉得麻烦,希望大家千万别有这种想法,这是大错特错的。

搜索引擎抓取网站图片的时候,atl标签是它首先抓取的,也是识别图片内容最重要的核心因素之一,图片的alt属性是直接告诉搜索引擎这是啥网站图片,以及这张要表达什么意思;

title标签是用户指向这张图片的时候,会显示的提示内容,这是增加用户体验度和增加网站关键词的一个小技巧。

alt和title标签

还有就是这两个属性,会给有阅读障碍的访问者提供访问的便利,例如:有盲人在访问你网站的时候,他看不到屏幕上的内容,可能是通过读屏软件来阅读的,如果有alt属性,软件会直接读出alt属性里的文字,给他们的访问提供方便。

5、图片的大小和分辨率

尽管两者看起来有些相同,但还是有很大的差别,相同大小的图片,分辨率更高的话,网站最终体积也会越大。这一点大家要搞清楚。

网站的上的图片,一直以来都提倡用尽量小的图片,去最大化呈现内容。为什么要这样呢?

因为小尺寸的图片会加载的更快,不会让访问者等待太久,特别是手机访问的时候,由于手机上网速度和流量的限制,用户更愿意访问能立即打开的页面,小尺寸图片就更有优势了。

在这里我们尽量做好平衡,在图片不失真的情况下,尺寸最好尽量的小。

现在有很多在线给图片瘦身的工具,各位站长可以去尝试一下,把网站的图片适当的压缩一下,一方面可以减少你服务器带宽的压力,另外还能给用户有流畅的体验。

6、手机端自动适应

很多站长都遇到过网站在电脑访问图片显示很正常,可是从手机端就会出现错位等等情况,这就是大尺寸的图片给不同尺寸的终端造成错位和显示不全的情况。

其实这个问题很好解决,在添加图片的时候宽高最好不要使用绝对大小,使用百分比就解决了。

具体说,CSS代码不能指定像素宽度:width:xxx px;只能指定百分比宽度:width: xx%;或者width:auto就可以了。

这样做的目的也是为了让百度的移动蜘蛛抓取的时候有个良好的体验,这也是为了更符合百度移动落地页体验。


四、如何提高搜索引擎抓取频率?

1、网站内容更新

搜索引擎抓取内容,只是针对个别页面,而不是全部的页面,这也是搜索引擎对网页的快照更新时间变短的原因。

比如说经常更新的页面,快照也会经常对其进行爬取,从而可以及时发现新内容与链接,删除不存在的信息,所以站长一定要长期坚持更新网页,才能使搜索引擎爬虫稳定前来抓取。

2、网站框架设计

对于网站的内部框架的设计,是要从很多方面进行的,其中,代码需要尽量简明清晰,代码过多容易导致页面体积过大,影响网络爬虫的抓取速度。

在抓取网站时,同时网页flash图片尽量少一些,flash格式的内容影响蜘蛛抓取,对于新网站来说,尽量选用伪静态形式的URL,这样可以让整个网站的页面都容易被抓取。

在设计时对于锚文本文字要分布合理,不能全写关键词,要适当的增加一些长尾词链接。对于内部链接设计也要通畅,方便权重传递。

3、网站导航设计

网站面包屑导航是网站设计的时候很多企业都会忽视的一个地方,导航是蜘蛛抓取的关键,如果网站导航不清晰,那么搜索引擎在抓取时就容易迷路,所以导航一定要合理的进行设计。

这里顺便提及锚文本建设,站内锚文本有利于网络爬虫发现和抓取更多站内网页,但是如果锚文本太多又容易被看成是刻意的调整,在设计时要把握锚文本的数量。

4、稳定更新频率

除了首页的设计之外,网站还有其他页面。爬虫抓取时不会对网站上的全部网页都建立索引,在它们找到重要的页面之前,可能已经抓取了足够多的网页离开了。

所以要保持保持一定的更新频率,更新频繁的页面能轻易被抓取,因此能自动抓取数量很多的页面,同时我们要注意网站层级的设计,不能太多,不然也不利于网站抓取。

北京耀途盛世多年致力于将SMO、SEO、SEM等互联网营销手段有机结合快速打造企业品牌在线声誉的外包服务领域。业务涵盖媒体报道,品牌策划,品牌建站,SEO,SEM等全面的互联网品牌运营推广。

耀途盛世秉承“服务至上,追求卓越”的经营理念,致力于打造成企业身边的互联网营销专家。耀途盛世为每一家客户提供了更先进的网络营销思路、更放心的售前售后服务及网络知识培训体系,并将全心全意为客户提供互联网品牌营销等全方位一体化的解决方案。

相关推荐

「柒哥说」SEO推广的出路在哪里?(seo的推广技巧)

事情的成败以结果为断,中间的波折不足为论。——佚名随着近年来百度对黑帽优化的持续打击,这几年做优化的公司倒闭了很多,也让很多公司走向了两个极端面,要么放弃做白帽优化,只做付费推广,要么一门心思做白...

使用ESP32-CAM开发板链接OV2640摄像头网页显示

ESP32-CAMOV2640摄像头模块简介下载接线及配置例程说明输出图像总结模块简介本次实验使用的是ESP32-CAM模块,是全新的WIFI+蓝牙双模开发板,内核采用的双核的32位CPU,是基于E...

用golang抓取网页有多简单?(golang做网站)

之前有一个需求需要抓取网络上公开的网页数据,网页的代码大致如下:需要抓取的数据一共4处,结构并没有什么规律,而且分散。但是使用golang却可以很轻松地获取到所需要的数据,而且代码量很少。doc,_...

日本金泽工业大学开发出“追踪用户眼球运动,自动放大网页内容”的技术

据impress网站2月10日报道,日本金泽工业大学于2月宣布,它已经使用AI开发了一个“视线追踪演示系统”。研究人员表示:当视力低下的人或老年人在智能手机或PC上浏览网站时,他们通常会发现遇到难以阅...

前端开发基础课分享1--教你写第一个网页,开启前端大神之路

HTML编辑器推荐可以使用专业的HTML编辑器来编辑HTML,菜鸟教程为大家推荐几款常用的编辑器:VSCode:https://code.visualstudio.com/SublimeT...

2025最新!网页设计行业前沿理念与趋势白皮书

视频直播app和网页版怎么开发?(视频直播app和网页版怎么开发软件)

视频直播APP和网页开发定制的几个功能点:1、直播类软件最主要的功能是支持手机APP端和电脑端视频直播推流,稳定低延迟,保障画面传输流畅、清晰。2、主播直接连麦PK、和用户互动聊天,包括文字和表情等3...

国外网页/移动端手机开发组件ui工具包欣赏

网上有很多可用的webui工具包,让你可以简单的创建一个易于使用的和有吸引力的界面。然而,许多网页设计师都会同意,找到一个好的网页设计工具可以轻松的克服网页设计项目中的挑战。有一件好事是,我们准备了...

你要做的是网页设计,还是前端开发?

很多同学自己的专业,不是网页相关的专业。如不是计算机专业还是设计专业。初学者,傻傻分不清web设计和web开发,就以为"做"几个简单网页就是设计,用ps做几个网页设计稿,就是做网页。这样导致:你不知道...

前端如何开发3D网页?(前端页面实现3d模型)

前言不论是电脑桌面应用,还是Web应用,想要渲染3D模型,都需要显卡的支持。显卡越好,渲染的速度就会越快。质量就会越高。而桌面应用因为直接跟电脑显卡通信对接,使用操作系统提供的图形语言GL,...

#软件开发#(专业软件开发,小程序搭建,APP定制,网页开发)

V:18660225162公司主营APP软件开发、管理系统开发、网站建设、微信开发小程序分销商城等咨询?APP开发:安卓、苹果、h5微信纯开发、区/块/链开发、微商城搭建、办公系统、财务系统、报名系...

学会网页制作,web app开发,你需要掌握这3个编程语言

做软件开发,是从事编程开发工作,必须先从语法基础开始学习,通过语法组成产品效果。前端开发的基础语法,由HTML+CSS+JavaScript组成,这是前端开发最基本的3个语言。网页布局基础:HTML+...

前端对接微信公众号网页开发流程,前期配置

微信公众号网页开发,其实就是我们开发的h5网页需要放到微信浏览器环境中使用,但是需要对接公众号授权,授权之后可以获取到用户的个人信息,以及可以使用公众号提供的一些API,如:图片上传、图片预览、获取位...

想要搭建网页游戏平台 需要多少成本?搭建成本解析

很多人对网页游戏感兴趣,想自己搭建网页游戏平台,那么搭建的成本需要多少,具体有哪些成本呢?今天跟着99SDK小编一起来了解一下!页游平台相比其他平台不一样,页游平台的形式是一个网站,所以我们需要的成本...

网站开发中前端和后端分别是什么(网站开发中前端和后端分别是什么意思)

前端开发和后端开发是为了什么?有什么区别?通俗地说,前端工作用户可以直接看到,而后端开发工作主要在服务器端,用户无法直接看到。虽然前端开发和后端开发有很大的区别,但是为了更好的用户体验,他们的工作是相...

取消回复欢迎 发表评论: