网页的路径犹如家庭的地址,从省、市、县、乡镇、社区、街道再到门牌号,而网页路径也是类似的概念:xxx123.com/dcow/seo/123.html。然而,过长的网页路径并不有利于爬虫对我们网站页面的抓取。就像朋友家的地址离得远而且又难找,要去他家我们是否更不愿前往,因此,需要进行路径的优化,更有利于爬虫对网站页面的抓取。
一、深入了解URL路径的分类
(1) 静态URL路径
以常见的.html、.htm、.shtml、.xml为后缀的称为静态路径,这种路径的页面较为有利于优化排名。
(2) 动态URL路径
动态的URL路径导向的是动态页面。它具有如下特征:1.路径中出现了“?”“%”“&”“=”等动态参数符号;2.以.asp,.php,.asp.net结尾,没有后缀。例如:http://xxx123.com/catalog.asp?cate=4 就是一个动态路径。
(3) 伪静态URL路径
指的是通过技术手段将一个动态的URL路径变成静态的URL路径的一种形式。伪静态URL路径从本质上说与全静态URL路径没有太大区别,最好是以htm或html结尾。例如:http://xxx123.com/seo/4.html
通过了解并优化这些不同类型的URL路径,可以提高网站页面的爬取效率,并采取相应的权重操作策略,进一步提升网站在搜索引擎中的排名。
二、URL路径的优化策略
首先解释什么是权重以及为何要对URL路径进行优化集权。
权重代表着搜索引擎对网站的信任度,继承在站点的每一个页面上。权重越高,有利于关键词排名,尽管并不直接决定排名。权重体现在网站内容、外链投票、网站结构、受重程度以及时效性等方面。
集权是为了将权重高的页面集中在一起,提高关键词排名的竞争力。搜索引擎在抓取网页时只认路径,因此对于搜索引擎而言,路径中多或少一个字母、数字、符号都是一个新的路径。存在一些不同路径指向同一页面的情况,需要规范化处理,以实现权重的集中效果。
1. 尽量使URL路径变得更短
从用户的角度考虑,短URL更容易记忆,用户也更愿意点击。较长的URL路径会降低权重,而URL长度不能超过60字节。
2. URL路径中的层级数量不能超过三层
网站URL路径的层级数量不宜太深,因为如果设置得太深,搜索引擎爬虫很难抓取这些路径页面的内容。一般中小型站点建议控制在三层以内,大型站点则不受此限制,但若层次太多,可考虑添加一级域名以缩短层次。
3. 优化URL路径中的字符名称
URL路径中的字符名称不应包含中文字符,最好使用英文字符,最好是以小写全拼的拼音形式作为二级目录的路径名称。中文字符作为URL路径会导致搜索引擎无法识别,即无法抓取。URL路径的后缀使用全拼的拼音形式,有利于用户记忆和搜索引擎抓取收录。
4. 保证URL路径的结构清晰
清晰简短的目录结构和规范的命名有利于用户体验和网址传播,同时也是搜索引擎友好的表现。清晰的浏览路径使网站导航结构更清晰,能够更均匀地分配网站权重。对于搜索引擎而言,浏览路径所在位置也是其抓取的重要内容。
5. URL中尽量包含关键词
在设计URL时,将关键词放入URL是优化的一个关键点。这有助于提高页面相关性,在排名时贡献一定的分数。关键词出现越靠前越好,最好在域名中,其次是在目录中,最小效果是在文件名中。但切记不要为了出现关键词而过度堆砌。
三、集权优化操作
(1) 路径唯一性
在面对多条路径指向同一个页面的情况时,我们选择重点路径进行优化。采取以下操作:
设置默认首页: 设定一个主要路径作为默认首页,确保搜索引擎识别并抓取该路径。
301永久重定向: 对于带www和不带www的情况都进行解析。如果网站计划发展二级域名,就重定向到不带www的;如果不计划发展二级域名,就使用301重定向到带www的路径。
robots.txt屏蔽: 使用robots.txt文件屏蔽不需要被搜索引擎抓取的路径,确保集中优化的路径得到更多关注。
(2) 网站首页去“尾巴”
所谓网站首页去“尾巴”即去除网站首页URL路径中的冗长尾巴,例如:“网址/index.html”、“网址/index.php”等情况。操作步骤如下:
去除尾巴后缀: 将首页URL路径的尾巴后缀去除,以简化路径。例如,将“网址/index.html”简化为“网址/”。
避免多余层次: 尾巴的存在增加了路径的层次深度,也提高了搜索引擎爬虫的抓取难度。通过去除尾巴,使路径更为简洁,有助于提高页面的优化效果。
通过这些集权优化操作,确保网站的路径结构更为清晰,有利于搜索引擎的抓取和页面的排名竞争。