重复内容是在SEO优化中一个相当普遍的议题,几乎所有的网站都会碰上。然而,许多刚开始学习SEO的人可能尚未瞭解这个议题的重要性。因此,我特别写下这篇文章,针对重复内容进行介绍。
重复内容(Duplicate Content)在SEO中被Google官方确认为一个问题,也是SEO优化中必须关注的项目之一。不过,重复内容的类型有许多种,而每一种类型的重复内容解决方法也各有不同。在这篇文章中,我希望能够帮助你全面学习这个优化项目,了解重复内容产生的塬因、塬理,并学会如何诊断自己的网站是否存在重复内容问题,以及当你遇到这种情况时,该选择哪种解决方案。
为什么重复内容会影响SEO?
Google非常重视用户体验,而在搜寻引擎中,用户体验也是Google最关心的议题之一。如果你是Google的高频用户,你会发现在搜寻结果中,我们经常看到丰富多样的资讯来解答搜寻者的问题。假如有五个网页包含完全相同的内容(例如,文章被转载到五个不同的网站,这五个网页都包含完全相同的内容),Google会在搜寻结果中给予这五个网页良好的排名吗?
不,通常並不会。
基本上,Google不会在搜寻结果中显示五篇完全相同的文章(即使它们来自不同的网站)。每个搜寻结果都应该提供不同的内容,因为不同的作者可能会提供不同的解决方案、观点、角度、资讯,以及产品。这样的多样性可以帮助搜寻者更好地解决问题。你能想像在某个关键字的搜寻结果中,前十个网页的内容都完全相同吗?Google不会这么做,因为这样并不能真正帮助搜寻者解决问题。Google希望搜寻者看到丰富多样的搜寻结果。
因此,如果你的网站上有五个网页包含完全相同的内容,通常Google只会选择其中一个网页给予较佳的排名。如果你的网站存在多个网页包含相同的内容,那么你可能会面临重复内容的问题,这可能会对你的SEO产生负面影响。
为什么重复内容会影响SEO?再举个例子,如果你和你的同学完全抄袭了彼此的作文,老师就无法判断哪一篇作文写得更好,因为两篇作文完全相同。Google就像老师一样,评断哪一篇作品的内容更优秀,并为其提供较高的搜寻排名。如果在不同网页中,出现了完全相同的内容,Google将无法判断哪一个网页的内容应该获得较佳的排名。
实际上,并非所有的重复内容都会对SEO造成负面影响。每种类型的重复内容塬因以及解决方法都各有不同。
在SEO领域中,有几种类型的重复内容呢?
实际上,重复内容的情形相当多样化,每种型式背后的塬因各有不同,对于SEO的影响以及相应的解决方案也不尽相同。接下来的文章将逐一进行详细说明。
广泛来看,只要在网站中存在着多个不同的网址,且这些网址的内容相同或极相似,这在SEO中就被称为「重复内容」。根据官方的定义,仅有在「抄袭、剽窃」他人内容的情况下,会对SEO产生直接的负面影响。这点我想就不需要多加赘述,Google已经正式确认,他们将对这类抄袭行为进行处理,以保护网站主的知识财产权。因此,如果你的网站内容以抄袭他人为主并且受到举报,Google将会采取措施降低你的搜寻可见度和排名。作为经营网站的我们,无论是产品描述、文章内容还是文案撰写,都要尽可能避免抄袭其他网站的内容,这不仅涉及法律问题,也并非持久之道。
除了抄袭、剽窃之外,SEO的重复内容还可以进一步区分为两大类,分别是「同网域重复内容」和「跨网域重复内容」,而「同网域重复内容」又可细分为「网址版本变化」和「产品变化」两类。接下来,我将首先解释重复内容的成因,并在文章末段进一步解释为何这些情形会影响到你的SEO,以及应该如何解决。各种重复内容的成因如下:
1.「同网域重复内容」之网址版本变化:HTTPS与WWW
如果你正在阅读这篇文章,你也可以跟着我一起检查你的网站是否存在这样的重复内容问题。
每一个网页可能都会存在许多不同版本的网址,对Google而言,哪怕是网址稍有不同,也视为完全不同的网页。以我这篇文章的网址为例,我可能会有四种版本的网址:
https://www.www.yesharris.com/content-duplicate-issue/ (HTTPS、带有www版本的网址)
https://www.yesharris.com/content-duplicate-issue/(HTTP、带有www版本的网址)
http://www.yesharris.com/content-duplicate-issue/(HTTP、带有www版本的网址)
https://www.yesharris.com/content-duplicate-issue/(HTTPS、无www版本的网址)
有些网站虽然有安装了HTTPS,但未进行适当的转址设定,导致HTTP版本和HTTPS版本的网址都可以进入你的网站。这会使得当Google爬取你的网页时,发现了 https://www.www.yesharris.com/ 和 https://www.yesharris.com/ 两个页面存在,即有两组网址都能进入你的网站,进而导致重复内容的问题。此外,若你的网页无论是有www或无www版本,也会引发重复内容问题,例如www.yesharris.com和www.www.yesharris.com。实际上,若你的网站共有1000页,但每页的HTTPS和HTTP版本都可以进入,那么Google爬取你的网页时,将会得到2000页(每页都有两种版本的网址)。不论是HTTPS和HTTP,还是www和非www,情况都是如此,会使得网页数量膨胀,并且每篇文章或产品都有两种网址。
你可以尝试用不同版本的网址,如www、非www、http、https,进入你的网页,若它们均能进入,那么你可能存在重复内容问题。如果进入网站后能够进行转址,请使用文章末尾提供的检测工具来确认转址情况。
这类型的重复内容对网站访客来说影响并不大,许多访客可能根本不会察觉到你的网站上存在重复内容。然而,这对于SEO来说却是一个重要的议题。在文章的后段,我将针对每一种重复内容列出相对应的解决方案。
2.「同网域重复内容」之网址版本变化:网址参数
无论是内容网站还是电商网站,根据网站架构的不同,可能会产生额外的网址参数,例如:
www.www.yesharris.com/content-duplicate-issue
www.www.yesharris.com/content-duplicate-issue?cid=21
www.www.yesharris.com/content-duplicate-issue?cid=52
www.www.yesharris.com/content-duplicate-issue?cid=34&pid=2
这些参数的产生塬因可能是在前台和后台架构时工程师的设计,或者公司需要追踪效果时所产生的。这种情况相当普遍,但许多营销人员可能并未意识到公司网站存在这么多种网址参数,我也曾经遇到许多客户之前并不知道自己的网站存在这样的重复内容问题,这正是影响了他们的SEO。因此,我建议你检查一下自己的网站,看看是否存在这种情况。或许你确实存在这样的问题,却一直忽略了它。
如何在实务上进行检查呢?
最直接的方法是观察Search Console中的到达网页报告以及Google Analytics中的"所有网页"报告,这样你就能看到你的网页是否有各种不同的参数。(在文章结尾我会介绍更多检查重复内容的方法)
3. 同网域重复内容" 产品变化/内容变化:
第三种重复内容在电商网站上比较常见。在电商网站上,商品可能会有很多不同的规格,例如,一件毛衣可能有不同颜色、不同尺寸,或者洗髮精可能有不同的容量,如300ml、500ml、1000ml。
假设今天你的毛衣产品页分为:
菜鸟牌 – 冬季防寒毛衣(黄)
菜鸟牌 – 冬季防寒毛衣(黑)
菜鸟牌 – 冬季防寒毛衣(红)
想像一下,如果你有这么多不同规格的产品页,事实上它们都是同一款产品,只是产品的规格不同。因此,这些产品页除了产品的图片和名称外,网页上的内容几乎完全一致(毕竟是同一件商品)。当有人搜寻“冬季防寒毛衣”时,Google只会选择其中一页进行排名,这样你就会遇到重复内容的问题。
备註:如果你有很多不同产品规格,包括不同颜色和尺寸,但并未分成不同的网址,那么就不会存在重复内容的问题,因为我们定义重复内容时,指的是在不同的网址上,存在相同的内容才会产生重复内容问题。
4. 跨网域重复内容" 商业合作、投稿:
如果你与其他网站进行商业合作,例如让其他媒体转载你的文章,或者你去转载别人的文章,就会出现重复内容的问题。然而,由于转载和商业合作通常都是经过双方授权的,因此对方不会来举报你,也不会被视为抄袭或剽窃。儘管如此,这仍然会对SEO产生一定的影响。关于商业合作和投稿的部分,我另外写了一篇文章:谈《文章投稿》对SEO的影响,文章投稿会损害SEO吗?
既然不是抄袭就不会受到惩罚,那么重复内容又会如何影响你的SEO呢?
上面介绍了常见的几种重复内容类型,接下来我将说明为何重复内容会影响你的SEO,并进一步解释如何解决这些重复内容问题。
由于重复内容是官方承认的SEO议题之一,也是业界SEO专家公认会影响SEO的现象之一,因此Google已多次解释重复内容对网站SEO的影响(Google甚至在官方网站上有一整页关于重复内容的说明)。根据官方说法,只要网站主没有恶意抄袭或剽窃他人内容,基本上Google不会对你进行惩处。
重复内容有许多不同形式和成因,可能发生在任何网域、任何网站。如果Google在爬取你的网站时发现了五个网页的内容完全相同,搜寻引擎会进行判断,并仅为这五个网页中的一个进行排名(为了为搜索者提供多样的搜索结果)。虽然Google不会对你的网站进行惩罚,但在实际应用中,这会引发两个SEO问题。
問題1:權重分散
例如,如果你的网站有A、B、C叁页的内容完全相同,这种情况并非由于抄袭或剽窃所致,可能是由于网址版本不同或者网站的参数问题。Google不会对你进行惩罚,只会选择其中一页进行排名(以提供搜索者多样的搜索结果)。虽然官方不会对你进行惩罚,但在实际应用中,这会导致一个SEO问题:你的权重会被分散。
我们都知道SEO中存在着所谓的“网页权重”,你的网页权重越高,对你的SEO越有帮助。在网页权重方面,Google最重视的是反向连结。假如今天你的某篇文章有叁个版本的网址:
https://www.www.yesharris.com/example(HTTPS版本的网址)
https://www.yesharris.com/example(HTTP版本的网址)
http://www.yesharris.com/example(无www的版本网址)
获得反向连结的主要方式之一就是你的内容被“传播、分享”。如果你的内容或产品受到消费者、网友或其他网站主的分享,并因此获得反向连结以提高网页的权重,那么当你的网页有叁种版本的网址时,你就无法控制别人分享和传播你的文章时使用的是哪一种网址。有的人可能分享A网址,而另一些人则分享B网址,这就会导致你的网页权重被分散。而这种权重的分散当然会对SEO产生影响。
问题2:影响Google爬取你的网页
举例来说,如果你有五万个网页,其中包括HTTPS和HTTP两种版本的网页,那么Google在爬取你的网页时实际上需要爬取十万页。这将使得Google在爬取你的网页时变得更加没有效率,也需要花费更多时间。试想,如果爬虫在爬取你的网页时感到吃力和效率低下,这是否会对你的SEO产生影响呢?答案显而易见。
我之前在另一篇文章中提到过,Google有所谓的爬取预算(Crawl Budget),当Google在爬取你的网页时效率不足时,这将影响你的SEO。(未来我将撰写一篇专门讨论爬取预算的文章)。
SEO与重复内容的解决方案
针对不同种类的重复内容,我们需要採取相应的解决策略。基本上,有以下几种解决方案:
解决方案1:301重定向
进行网页重定向时,有多种方法可供选择,包括301重定向、302重定向、Javascript转址等。然而,使用301重定向能将网页的权重集中(这是经过官方证实的作法,参见官方文件)。如果你遇到同网域重复内容的情况,通常301转址是最佳解决方案。
举例来说,如果你有以下不同版本的网址,而想避免权重分散:
https://www.www.yesharris.com/example (HTTPS版本的网址)
https://www.yesharris.com/example (HTTP版本的网址)
http://www.yesharris.com/example (沒有www的版本網址)
在这种情况下,你需要先确定一个标準网址,例如:https://www.www.yesharris.com/example。接着,将其他两种版本的网址进行301重定向至标準网址:
https://www.yesharris.com/example – > 301重定向至 – > https://www.www.yesharris.com/example
http://www.yesharris.com/example- > 301重定向至 – > https://www.www.yesharris.com/example
解决方案2:Canonical标记
Canonical标记是由Google提出的一种方法。你可以在HTML塬始码中加入这个标记,它能帮助Google识别你的重复内容问题,并将权重集中。这种方法适用于产品变化的情况。
举例来说,假设你有绿、蓝、红、黄四种颜色的毛衣款式,它们除了产品图片外,内容完全相同,这将会造成重复内容问题,影响你的SEO。
这时候,如果不能使用301重定向,你的替代方案就是使用Google提出的<canonical>标记。同样地,你需要先确定一个标準网址,比如绿色的毛衣。然后,在黄、红、蓝叁个毛衣的页面中加入<canonical>标记,指向绿色毛衣的URL。这样,Google就会知道这四个页面之间的关係,并将权重集中在绿色毛衣页面上。
解决方案3:商业合作和投稿
关于商业合作和投稿的部分,因为涵盖範围较广,我在另一篇文章中做了详细解释。如果你与品牌进行合作,让彼此转载文章,请参考:谈《文章投稿》对SEO的影响,文章投稿会损害SEO吗?
解决重复内容时的注意事项:
尽可能避免产生重复内容,最好的情况是根本没有重复内容产生,这样权重就不会被分散,也不需要特别使用解决方式。
谨慎使用301重定向,不要随意进行重定向,否则可能对SEO造成严重损害。
每个网站都会存在一些轻微的重复内容情况,重要的是要注意重复内容的比例。如果重复内容只占整篇内容的一小部分,通常不会对SEO产生太大影响。
检测重复内容的工具:
Search Console的「改善HTML」报表
Google Analytics的所有网页报表
爬虫工具如Ahrefs、Screaming Frog
此外,为了更全面地检测网站的SEO问题,通常我们会购买其他SEO工具,并结合Search Console和Google Analytics进行检测。例如,Ahrefs具有爬虫功能,可以侦测并列出网站上侦测到的SEO问题。
转址检测工具 - Redirect Path是一个免费的Chrome扩充功能,可帮助你检查网站的转址状况。
以上是有关SEO与重复内容解决方案的基本知识。期待未来能进一步分享更多有关重复内容的相关知识,下一篇文章再会!