在本文中,我将讨论搜索引擎抓取工具和搜索引擎机器人活动不受控制的影响,可能会对您帐户的资源使用造成影响。
为什么需要控制搜索引擎机器人?
使用搜索引擎机器人来爬取互联网,查找和索引新的信息内容并提供浏览者信息搜索,这是互联网上散布信息的方式。
如果您希望在Google或Bing等大型搜索引擎中找到您的网站内容,这是非常好的方式。然而,在同一时间上,搜索引擎机器人与真正的人访问您的网站的活动方式是非常不同的。真正的人来到您的网站,有可能花费一些时间阅读当前的网页,他们会浏览更多信息。当他们愿意在网站上点击更多链接时,很可能是对这个网站很有兴趣。
搜索引擎机器人访问您的网站,主要任务是要抓取您网站上的内容,所以它们最可能从首页开始,它们轻松地找出网站的每一个链接一个接一个,直到发现全部的内容。
所以一个搜索引擎机器人访客,可能潜在影响数百个使用者的资源,就算没有上千个访客在您的网站上,一个资源使用到极限的网站,最后可能会让网站停止运作。如果只允许真正的人访问的话,这是可以避免的,并且设置只有好的搜索引擎机器人可以进入您的网站,所以这是很重要的概念。
如何控制搜索引擎机器人?
幸运的是,大多数守规矩的搜索引擎机器人,是会遵循一个标准化的robots.txt规则文件。如果您需要进一步了解如何阻止搜索引擎机器人检索您的网站,您可以观看这篇文章「如何使用robots.txt阻止搜索引擎爬取您的网站?」
您也可以阅读此篇「如何在Google网站管理员工具中设置延迟爬取您的网站」这个章节有步骤说明,如何控制Google的爬虫机器人。
不幸的是,并不是全部的自动化机器人都会顺从robots.txt规则,在这种情况下,最好的方式就是学习「使用.htaccess去阻止不需要的访客到您的网站」。