百度360必应搜狗淘宝本站头条
当前位置:网站首页 > SEO教程 > 正文

详解Nginx如何查看搜索引擎蜘蛛爬虫行为:爬行次数、爬行页面等

gaoyangw 2024-11-05 10:29 38 浏览 0 评论

概述

最近阿里云经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。

下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过50MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者更新下来放到分析机上执行,以免影响服务器性能。


常用蜘蛛的域名

常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:

  • 百度的蜘蛛通常是baidu.com或者baidu.jp的子域名
  • google爬虫通常是googlebot.com的子域名
  • 微软bing搜索引擎爬虫是search.msn.com的子域名
  • 搜狗蜘蛛是crawl.sogou.com的子域名

1、计算百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

最左面的数值显示的就是爬行次数。


2、百度蜘蛛的详细记录(Ctrl C可以终止)

cat access.log | grep Baiduspider

也可以用下面的命令:

cat access.log | grep Baiduspider | tail -n 10

cat access.log | grep Baiduspider | head -n 10

说明:只看最后10条或最前10条


3、百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。


4、百度蜘蛛派性记录时间点分布

cat access.log | grep “Baiduspider ” | awk ‘{print $4}'

5、百度蜘蛛爬行页面按次数降序列表

# cat access.log |grep "Baiduspider"|awk '{print $7}'|sort | uniq -c |sort -r

篇幅有限,关于nginx去查看搜索引擎蜘蛛爬虫的行为的内容就介绍到这了,上面的一些命令都是比较常用的,后面会分享更多关于nginx方面内容,感兴趣的朋友可以关注下!

相关推荐

「柒哥说」SEO推广的出路在哪里?(seo的推广技巧)

事情的成败以结果为断,中间的波折不足为论。——佚名随着近年来百度对黑帽优化的持续打击,这几年做优化的公司倒闭了很多,也让很多公司走向了两个极端面,要么放弃做白帽优化,只做付费推广,要么一门心思做白...

使用ESP32-CAM开发板链接OV2640摄像头网页显示

ESP32-CAMOV2640摄像头模块简介下载接线及配置例程说明输出图像总结模块简介本次实验使用的是ESP32-CAM模块,是全新的WIFI+蓝牙双模开发板,内核采用的双核的32位CPU,是基于E...

用golang抓取网页有多简单?(golang做网站)

之前有一个需求需要抓取网络上公开的网页数据,网页的代码大致如下:需要抓取的数据一共4处,结构并没有什么规律,而且分散。但是使用golang却可以很轻松地获取到所需要的数据,而且代码量很少。doc,_...

日本金泽工业大学开发出“追踪用户眼球运动,自动放大网页内容”的技术

据impress网站2月10日报道,日本金泽工业大学于2月宣布,它已经使用AI开发了一个“视线追踪演示系统”。研究人员表示:当视力低下的人或老年人在智能手机或PC上浏览网站时,他们通常会发现遇到难以阅...

前端开发基础课分享1--教你写第一个网页,开启前端大神之路

HTML编辑器推荐可以使用专业的HTML编辑器来编辑HTML,菜鸟教程为大家推荐几款常用的编辑器:VSCode:https://code.visualstudio.com/SublimeT...

2025最新!网页设计行业前沿理念与趋势白皮书

视频直播app和网页版怎么开发?(视频直播app和网页版怎么开发软件)

视频直播APP和网页开发定制的几个功能点:1、直播类软件最主要的功能是支持手机APP端和电脑端视频直播推流,稳定低延迟,保障画面传输流畅、清晰。2、主播直接连麦PK、和用户互动聊天,包括文字和表情等3...

国外网页/移动端手机开发组件ui工具包欣赏

网上有很多可用的webui工具包,让你可以简单的创建一个易于使用的和有吸引力的界面。然而,许多网页设计师都会同意,找到一个好的网页设计工具可以轻松的克服网页设计项目中的挑战。有一件好事是,我们准备了...

你要做的是网页设计,还是前端开发?

很多同学自己的专业,不是网页相关的专业。如不是计算机专业还是设计专业。初学者,傻傻分不清web设计和web开发,就以为"做"几个简单网页就是设计,用ps做几个网页设计稿,就是做网页。这样导致:你不知道...

前端如何开发3D网页?(前端页面实现3d模型)

前言不论是电脑桌面应用,还是Web应用,想要渲染3D模型,都需要显卡的支持。显卡越好,渲染的速度就会越快。质量就会越高。而桌面应用因为直接跟电脑显卡通信对接,使用操作系统提供的图形语言GL,...

#软件开发#(专业软件开发,小程序搭建,APP定制,网页开发)

V:18660225162公司主营APP软件开发、管理系统开发、网站建设、微信开发小程序分销商城等咨询?APP开发:安卓、苹果、h5微信纯开发、区/块/链开发、微商城搭建、办公系统、财务系统、报名系...

学会网页制作,web app开发,你需要掌握这3个编程语言

做软件开发,是从事编程开发工作,必须先从语法基础开始学习,通过语法组成产品效果。前端开发的基础语法,由HTML+CSS+JavaScript组成,这是前端开发最基本的3个语言。网页布局基础:HTML+...

前端对接微信公众号网页开发流程,前期配置

微信公众号网页开发,其实就是我们开发的h5网页需要放到微信浏览器环境中使用,但是需要对接公众号授权,授权之后可以获取到用户的个人信息,以及可以使用公众号提供的一些API,如:图片上传、图片预览、获取位...

想要搭建网页游戏平台 需要多少成本?搭建成本解析

很多人对网页游戏感兴趣,想自己搭建网页游戏平台,那么搭建的成本需要多少,具体有哪些成本呢?今天跟着99SDK小编一起来了解一下!页游平台相比其他平台不一样,页游平台的形式是一个网站,所以我们需要的成本...

网站开发中前端和后端分别是什么(网站开发中前端和后端分别是什么意思)

前端开发和后端开发是为了什么?有什么区别?通俗地说,前端工作用户可以直接看到,而后端开发工作主要在服务器端,用户无法直接看到。虽然前端开发和后端开发有很大的区别,但是为了更好的用户体验,他们的工作是相...

取消回复欢迎 发表评论: