搜索引擎技术解析：爬虫与数据采集

引言

搜索引擎的运作过程错综复杂，接下来的三篇文章将简要介绍搜索引擎如何实现网页排名。尽管以下内容只是涉及搜索引擎技术的表层，但对于大多数SEO从业人员而言已经足够使用。

搜索引擎的工作过程主要可分为三个阶段：

（1）爬虫与数据采集：搜索引擎蜘蛛通过追踪、发现和访问网页，读取页面HTML代码，并将其存入数据库。

（2）预处理：索引程序对采集到的页面数据进行文字提取、中文分词、索引、倒排索引等处理，以备排名程序调用。

（3）排名：用户输入查询词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

爬虫与数据采集是搜索引擎工作的首要步骤，完成了数据收集任务。

一、网络蜘蛛

搜索引擎用于爬行和访问页面的程序被称为蜘蛛（spider）或机器人（bot）。

搜索引擎蜘蛛在访问网站页面时模拟普通用户使用的浏览器。蜘蛛程序发送页面访问请求后，服务器返回HTML代码，蜘蛛程序将收到的代码存入原始页面数据库。为了提高爬行和抓取速度，搜索引擎通常使用多个蜘蛛并发分布爬行。

在访问任何网站时，蜘蛛首先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵循协议，不抓取被禁止的网址。

与浏览器类似，搜索引擎蜘蛛也具有标识身份的用户代理名称。网站管理员可以在日志文件中查看搜索引擎的特定用户代理，从而识别搜索引擎蜘蛛。以下是一些常见的搜索引擎蜘蛛名称：

Baiduspider (www.baidu.com)
Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; Firefox/1.5.0.11; 360Spider)
Mozilla/5.0 (compatible; Yaboo! Slurp/3.0; Yahoo! Slurp)
Mozilla/5.0 (compatible; Googlebot/2.1; Googlebot)
Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376 Safari/8536,25 (compatible; Googlebot/2.1; Googlebot)
Mozilla/5.0 (compatible; bingbot/2.0; Bingbot)
Sogou web robot (www.sogou.com)
Sosospider (help.soso.com)
Mozilla/5.0 (compatible; YodaoBot/1.0; YodaoBot)

二、链接跟踪与爬行策略

为了尽可能抓取更多页面，搜索引擎蜘蛛通过追踪页面上的链接，沿着链接从一个页面爬到另一个页面，仿佛蜘蛛在蜘蛛网上行进一样，这也解释了搜索引擎蜘蛛名称的由来。

整个互联网由相互链接的网站和页面组成。理论上，蜘蛛可以从任何一个页面出发，顺着链接爬行到互联网上的所有页面。然而，由于网站和页面的链接结构异常复杂，蜘蛛需要采取特定的爬行策略才能有效遍历所有页面。

最简单的爬行遍历策略分为两种：深度优先和广度优先。

1. 深度优先策略

深度优先策略是指蜘蛛沿着发现的链接一直向前爬行，直到无法再向前为止。然后返回到第一个页面，沿着另一个链接再一直向前爬行。以图2-1为例，蜘蛛跟踪链接从A页面爬行到A1、A2、A3、A4，到达A4页面后，由于没有其他链接可跟踪，蜘蛛返回A页面，再顺着另一个链接爬行到B1、B2、B3、B4。在深度优先策略中，蜘蛛一直爬到无法再向前为止，才返回爬另一条线。