百度360必应搜狗淘宝本站头条
当前位置:网站首页 > SEO教程 > 正文

产品经理学技术:搜索引擎工作原理

gaoyangw 2024-11-05 10:29 27 浏览 0 评论

在互联网时代,搜索引擎可以说是日常生活的一部分。不仅如此,搜索引擎历经20多年的风霜雨雪,仍然牢牢占据着流量入口,不得不让人感叹。

而且,提起搜索引擎,我们都会想到一家高大上的巨无霸公司和一家被黑出xiang的巨霸公司。足以见得搜索引擎的巨大作用。

作为产品人,对此当然不能视而不见,也应该了解了解其工作原理。

搜索引擎工作原理大致可以分为3个步骤

1. 爬行与抓取

2. 预处理

3. 排序

所谓一图胜千言,没图我说个……

PS:上图总结自《SEO实战密码》。

下面详细叙述:

爬行与抓取

简单地说:就是搜索引擎蜘蛛沿着互联网络爬行并抓取其爬行的页面,将这些抓取的页面存储起来。

说到这,你可能会问:为什么叫「蜘蛛」?

为了抓取尽量多的页面,搜索引擎会跟踪页面上的链接,从一个页面爬行到下一个页面,好像蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的由来。

搜索引擎在跟踪网络上的链接时,会使用一定策略,因为现在的网络链接太多。最简单的爬行遍历策略有两种,一种是深度优先,一种是广度优先

还有一点值得一提:搜索引擎访问网站页面时类似于普通用户使用的浏览器。搜索引擎蜘蛛抓取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML完全一样。

预处理

由于抓取的页面数量太大(以”亿”为单位),无法快速实时排序,所以需要预处理。这就是产品设计中的「复杂性守恒原则」,我们没办法让用户等待十几秒甚至更久,就只能在后台处理上下功夫。

在一些资料中,「预处理」也被称为「索引」,因为「索引」是预处理最主要的内容。

预处理的过程比较复杂,值得一提的有这么几点:

  • 去重:对于内容相似度高的,搜索引擎不喜欢,因为用户不喜欢这样的内容。而且,搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别。因此,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。所以,少抄袭,多原创吧
  • 正向索引:可以简称为「索引」。通过这个步骤,搜索引擎将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下。你看,这样就得到了每个文件(如每个页面)的对应关键词。这样用户就能搜索了吗?还不行。
  • 倒排索引:正向索引虽然提供了文件与关键词的对应关系,但无奈用户搜索的是关键词,因此搜索引擎还需根据这些对应关系找到某关键词对应的文件,这样的计算量无法满足实时返回排名结果的要求。因此,还需要倒排索引。倒排索引与正向索引刚好相反,它以关键词为关键,简单来说如下表:

得到了倒排索引,就能很快地根据用户搜索的关键词找到对应文件,但这样就够了吗?别天真啊。

通过上述步骤,其实只得到了页面本身的内容。说白了,就是页面本身告诉搜索引擎自己如何如何。

俗话说:王婆卖瓜,自卖自夸。

就像我们网购时不仅会看店家给的商品介绍,还会看看买家的评论一样,页面内容质量,也需要其他人的评价——这里的「其他人」指「其他页面。」所以,我们还需要链接关系计算。

  • 链接关系计算:每个页面上都有链接,不同页面之间用链接互相关联起来,这些关联关系,就形成了其他页面对某个页面的评价。这些复杂的链接指向关系形成了网站和页面的链接权重。

排名

发现没有:排名,是用户是用户唯一能感觉到的步骤,爬行与抓取、预处理,都在后台完成。正因如此,用户才会感到用起来十分快捷。

排名的过程也比较复杂,其中值得一提的有如下几点:

  • 搜索词处理:说白了,就是处理用户输入的关键词。这一步对用户来说更为关键,因为搜索引擎还不够智能,需要我们去学习一些高级指令,以获得更为精准的内容。

但由于每个关键词对应的文件数量都可能是巨大的(如几亿个),处理如此庞大的数据量,无法满足用户对「快」的需求。同时,用户并不需要所有内容,他们往往只查看前几页内容,甚至很多用户只查看第一页的前几条内容。因此,选择一定数量的内容进行处理,很有必要。这就涉及到选择初识子集

但如何选择呢?这是一个问题。

  • 选择初识子集:选择出示子集,关键在于「权重」。所以说权重有多重要,即使页面做得好,但权重不高,连做备胎的机会都没有。
  • 相关性计算:这是排名过程中最重要的一步,最终搜索结果页面的排名基本按照相关性从高到低排序。

但到此就结束了吗?还没有哦。

  • 排名过滤及调整:为了保证用户搜索结果更符合用户需求,搜索引擎需要过滤掉那些处心积虑钻空子的页面,在这一步,搜索引擎会找出这些页面并施加惩罚。典型的例子是百度的11位。所以,过度优化有风险。
  • 查询及点击日志:通过这一步,搜索引擎记录了用户的一些数据,从而为后续的优化提供依据。这和产品日常工作中的数据埋点有些相似。

本文由 @ITDoer 原创发布于人人都是产品经理。未经许可,禁止转载

相关推荐

「柒哥说」SEO推广的出路在哪里?(seo的推广技巧)

事情的成败以结果为断,中间的波折不足为论。——佚名随着近年来百度对黑帽优化的持续打击,这几年做优化的公司倒闭了很多,也让很多公司走向了两个极端面,要么放弃做白帽优化,只做付费推广,要么一门心思做白...

使用ESP32-CAM开发板链接OV2640摄像头网页显示

ESP32-CAMOV2640摄像头模块简介下载接线及配置例程说明输出图像总结模块简介本次实验使用的是ESP32-CAM模块,是全新的WIFI+蓝牙双模开发板,内核采用的双核的32位CPU,是基于E...

用golang抓取网页有多简单?(golang做网站)

之前有一个需求需要抓取网络上公开的网页数据,网页的代码大致如下:需要抓取的数据一共4处,结构并没有什么规律,而且分散。但是使用golang却可以很轻松地获取到所需要的数据,而且代码量很少。doc,_...

日本金泽工业大学开发出“追踪用户眼球运动,自动放大网页内容”的技术

据impress网站2月10日报道,日本金泽工业大学于2月宣布,它已经使用AI开发了一个“视线追踪演示系统”。研究人员表示:当视力低下的人或老年人在智能手机或PC上浏览网站时,他们通常会发现遇到难以阅...

前端开发基础课分享1--教你写第一个网页,开启前端大神之路

HTML编辑器推荐可以使用专业的HTML编辑器来编辑HTML,菜鸟教程为大家推荐几款常用的编辑器:VSCode:https://code.visualstudio.com/SublimeT...

2025最新!网页设计行业前沿理念与趋势白皮书

视频直播app和网页版怎么开发?(视频直播app和网页版怎么开发软件)

视频直播APP和网页开发定制的几个功能点:1、直播类软件最主要的功能是支持手机APP端和电脑端视频直播推流,稳定低延迟,保障画面传输流畅、清晰。2、主播直接连麦PK、和用户互动聊天,包括文字和表情等3...

国外网页/移动端手机开发组件ui工具包欣赏

网上有很多可用的webui工具包,让你可以简单的创建一个易于使用的和有吸引力的界面。然而,许多网页设计师都会同意,找到一个好的网页设计工具可以轻松的克服网页设计项目中的挑战。有一件好事是,我们准备了...

你要做的是网页设计,还是前端开发?

很多同学自己的专业,不是网页相关的专业。如不是计算机专业还是设计专业。初学者,傻傻分不清web设计和web开发,就以为"做"几个简单网页就是设计,用ps做几个网页设计稿,就是做网页。这样导致:你不知道...

前端如何开发3D网页?(前端页面实现3d模型)

前言不论是电脑桌面应用,还是Web应用,想要渲染3D模型,都需要显卡的支持。显卡越好,渲染的速度就会越快。质量就会越高。而桌面应用因为直接跟电脑显卡通信对接,使用操作系统提供的图形语言GL,...

#软件开发#(专业软件开发,小程序搭建,APP定制,网页开发)

V:18660225162公司主营APP软件开发、管理系统开发、网站建设、微信开发小程序分销商城等咨询?APP开发:安卓、苹果、h5微信纯开发、区/块/链开发、微商城搭建、办公系统、财务系统、报名系...

学会网页制作,web app开发,你需要掌握这3个编程语言

做软件开发,是从事编程开发工作,必须先从语法基础开始学习,通过语法组成产品效果。前端开发的基础语法,由HTML+CSS+JavaScript组成,这是前端开发最基本的3个语言。网页布局基础:HTML+...

前端对接微信公众号网页开发流程,前期配置

微信公众号网页开发,其实就是我们开发的h5网页需要放到微信浏览器环境中使用,但是需要对接公众号授权,授权之后可以获取到用户的个人信息,以及可以使用公众号提供的一些API,如:图片上传、图片预览、获取位...

想要搭建网页游戏平台 需要多少成本?搭建成本解析

很多人对网页游戏感兴趣,想自己搭建网页游戏平台,那么搭建的成本需要多少,具体有哪些成本呢?今天跟着99SDK小编一起来了解一下!页游平台相比其他平台不一样,页游平台的形式是一个网站,所以我们需要的成本...

网站开发中前端和后端分别是什么(网站开发中前端和后端分别是什么意思)

前端开发和后端开发是为了什么?有什么区别?通俗地说,前端工作用户可以直接看到,而后端开发工作主要在服务器端,用户无法直接看到。虽然前端开发和后端开发有很大的区别,但是为了更好的用户体验,他们的工作是相...

取消回复欢迎 发表评论: