×

博客 SEO 优化

个人博客的SEO优化(1):深入理解搜索引擎原理

元智汇电子 元智汇电子 发表于2023-11-08 13:22:11 浏览816 评论0

抢沙发发表评论

搜索引擎优化原理简介

SEO,即搜索引擎优化,是通过对网站进行优化以提高其在搜索引擎中的排名,从而获得更多访问量的策略。在我们深入了解SEO的优化要素和技巧之前,让我们先对搜索引擎的工作原理有个基本的了解,这样可以更好地理解SEO操作的实质。


搜索引擎工作原理概述

搜索引擎的工作过程相当复杂,但我们将以最简单的方式介绍它是如何实现网页排名的。


  1. 爬行和抓取阶段:

    搜索引擎通过跟踪链接访问网页,获取页面的HTML代码,并将其存入数据库。


  2. 预处理阶段:

    索引程序对抓取到的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。


  3. 排名阶段:

    用户输入关键词后,排名程序调用索引数据库,计算相关性,然后按照一定格式生成搜索结果页面。


第一步:爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。


  • Spider(蜘蛛)是用来爬行和抓取页面的程序,类似于我们熟知的机器人(bot)。它访问网站页面的方式类似于普通用户使用浏览器。Spider发出页面访问请求后,服务器返回HTML代码,Spider将其存入原始页面数据库。为了提高爬行和抓取速度,搜索引擎通常会使用多个Spider并行爬行。


  • Spider访问任何一个网站时,都会先访问该网站根目录下的robots.txt文件,该文件可以告诉Spider哪些文件或目录可以抓取或者禁止抓取。


  • 不同厂商的Spider也带有特定代理的名称,就像不同浏览器的用户代理(UA)不同一样。


  • 为了抓取尽可能多的页面,Spider会跟踪网页上的链接,从一个页面爬到下一个页面,就像蜘蛛在蜘蛛网上爬行一样。爬行遍历有两种策略:深度优先和广度优先。


  • 理论上,无论是深度优先还是广度优先,只要给Spider足够的时间,总是能把互联网上所有的页面链接都爬取完。但实际情况并非如此,由于各种资源的限制,搜索引擎也只是爬行和收录互联网的一部分,通常会混合使用深度优先和广度优先策略。


  • 通过各种手段,SEO旨在吸引Spider爬行并收录网站更多的页面。Spider会尽量抓取重要页面,而页面的重要性会受到多个因素的影响,包括网站和页面的权重、页面更新频率、导入的链接数量以及与首页的点击距离等。


  • 为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现但尚未抓取的页面,以及已经被抓取的页面。地址库的来源包括人工录入的种子网站和Spider爬取页面后解析出的网址。


  • Spider抓取的数据会存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML完全一样。


  • 复制内容检测是在预处理阶段处理掉的,Spider在爬行的时候也会进行一定程度的复制内容检测,权重低且大量抄袭复制内容的网站,Spider可能会停止继续爬行,这也强调了一个网站需要原创内容的重要性。


第二步:预处理

预处理也称为索引,是预处理过程中最主要的步骤。


  • 搜索引擎会提取页面的可见文字以及特殊的包含文字信息的代码,如Meta标签、图片Alt属性、超链接锚文字等。


  • 针对不同语言,搜索引擎会使用相应的分词算法,如中文分词、英文分词,对提取的文字进行分词。不同搜索引擎使用的分词算法可能有所不同。


  • 去除停止词是为了去除对内容没有影响的高频词,无论是中文还是英文,都会有一些频率高的词,如语气词、感叹词、介词、副词等。


  • 消除噪声是为了剔除对页面主题没有贡献的内容,比如版权声明文字、导航条等。在博客页面中,常见的文章分类、历史导航等信息都属于噪音,需要进行清理。


  • 去重是为了避免同一篇文章在不同网站或同一个网站的不同网址重复出现,搜索引擎不喜欢重复的内容,因此会对这部分内容进行去重。


  • 正向索引是索引的核心步骤,经过文字提取、分词、消噪、去重后,搜索引擎得到的是独特的、能反映页面主体内容的关键词集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置等信息,然后将这些结构存储进索引库。


  • 倒排索引将正向索引数据库重新构造为倒排索引,将文件对应到关键词的映射转换为关键词对文件的映射。这样在搜索关键词的时候,排序程序就可以在倒排索引中定位到这个关键词,找出所有包含这个关键词的文件。


  • 链接关系计算是预处理中重要的一部分,搜索引擎必须在抓取页面内容后,事先计算出页面上的链接关系,包括指向其他页面的链接和每个页面的导入链接。这些链接形成了网站和页面的链接权重,而Google的PageRank(PR)就是这种链接关系的体现。


  • 搜索引擎还可以抓取并索引以文字为基础的多种文件类型,如PDF、Word、PPT、TXT等。


第三步:排名

到了排名阶段,搜索引擎会根据用户输入的关键词,调用索引程序进行排名计算,并将搜索结果显示给用户。


  • 搜索词处理包括对用户输入的关键词进行分词、去停止词、指令处理等处理。


  • 文件匹配阶段根据关键词找出所有匹配关键字的文件,但由于文件数量庞大,不可能全部显示,因此需要根据页面权重计算出一个子集。


  • 相关性计算是排名过程中最重要的一步,它涉及到多个因素,如关键词的常用程度、词频与密度、关键词的位置与形式、关键词的距离以及页面权重等。


  • 排名过滤及调整阶段可能会对排序进行轻微调整,其中最重要的过滤是施加惩罚,一些作弊的页面会被降低权重。


  • 排名显示阶段将排名确定后的结果,调用原始页面的标题、Description Meta等信息显示在页面上。


  • 一部分搜索结果会被缓存,因为许多用户的搜索是重复的。


  • 搜索引擎还会记录用户的查询和点击日志,包括用户的IP地址、搜索关键词、搜索时间以及点击的结果页面,这些日志对于搜索引擎调整算法和预测搜索趋势等具有重要意义。


通过以上三个步骤,我们对搜索引擎的工作原理有了更深入的了解。这将有助于我们在接下来的站内优化和博客优化实践中更好地理解如何操作。


群贤毕至

访客