You are here:  Home » PHP » 防止WordPress中博客内容刮刮的初学者指南

如果您日复一日地撰写原创内容,那么您已经意识到您的帖子将在几天内甚至几分钟内结束在一堆垃圾邮件站点上。一些用户甚至注意到被盗内容的网站超过了原帖。作为一个网站所有者,看到有人在未经许可的情况下窃取您的内容,将其货币化,在SERP中超过您,以及窃取您的受众群体,这是非常令人沮丧的。内容刮痧是一个很大的问题,因为人们很容易窃取你的内容。在本文中,我们将介绍什么是博客内容抓取,如何捕获内容抓取工具,如何处理内容抓取工具,如何减少和防止内容抓取,如何利用内容抓取,如何从内容抓取器赚钱,内容刮得好吗?

什么是博客内容刮痧?

博客内容抓取通常是通过脚本执行的行为,这些脚本从众多来源中提取内容并将其拉入一个站点。现在很容易,任何人都可以安装一个WordPress网站,放置一个免费或商业主题,并安装一些插件,这些插件将从选定的博客中删除内容,因此可以在他们的网站上发布。

他们为什么要窃取我的内容?

我们的一些用户问我们为什么要窃取我的内容?简单的答案是因为你很棒。事实是,这些内容刮刀别有用心。以下是为什么有人会刮掉你的内容的几个原因:

  • 联盟佣金 – 有一些肮脏的联盟营销人员只是想利用这个系统来赚取额外的钱。他们将使用您的内容和其他内容通过搜索引擎为其网站带来流量。这些网站通常针对特定的利基,因此他们有相关的产品,他们正在推广。
  • 铅生成 – 我们经常看到律师和房地产经纪人这样做。他们希望在他们的小社区看起来像行业领导者。他们没有足够的带宽来制作高质量的内容,因此他们会从其他来源中删除内容。有时候,他们甚至都没有意识到这一点,因为他们每月花费30美元来添加内容并帮助他们获得更好的搜索引擎优化。过去我们遇到过很多这样的问题。
  • 广告收入 – 有些人只想创建知识的“中心”。为特定利基市场的用户提供一站式服务。如果我每次有人用我们的内容做了一分钱,那么我们就会有几百便士。我们经常注意到我们的网站内容正在被删除。刮刀总是回复,我这样做是为了社区的利益。除了网站贴满广告。

这些只是为什么有人会窃取你的内容的几个原因。

如何抓住内容刮板

捕获内容抓取工具是一项繁琐的工作,可能会耗费大量时间。您可以通过几种方式来捕获内容抓取工具。

使用您的帖子标题搜索Google

是的,这听起来很痛苦。这个方法可能不值得,特别是如果你正在写一个非常受欢迎的主题。

搬场

如果您在帖子中添加内部链接,则会在网站窃取您的内容时发现引用。这种方式几乎就是刮刀告诉你他们正在抓你的内容。如果您使用的是Akismet,那么很多这些引用都将显示在SPAM文件夹中。同样,只有在帖子中有内部链接时才会有效。

网站管理员工具

如果您使用谷歌网站管理员工具,那么您可能已经知道链接到您的网站页面。如果您查看“流量”,您会看到一个页面,其中显示指向您网站的链接。你的刮刀可能会成为最好的刮刀之一。他们将拥有数百个(如果不是数千个)指向您网页的链接(考虑到您有内部链接)。

Links to Your Site - Google Webmaster Tools

FeedBurner罕见使用

如果您为WordPress博客设置了Feedburner,那么您可以看到一些不常见的用途。在Feed Stats下的Analyze选项卡中,您将看到“Uncommon Uses”。在那里,您将看到一个站点列表。

FeedBurner Uncommon Uses

如何处理内容编写器

人们在处理内容搜集器时采用的方法很少。什么都不做,杀死他们所有的方法,利用他们的方法。

无所作为

这是迄今为止您可以采取的最简单的方法。通常最受欢迎的博主会推荐这个,因为它需要很多时间来对抗刮刀。这种方法只是建议“不要与它们作斗争,花时间制作更高质量的内容并享受乐趣”。现在很明显,如果它是一个着名的博客,如Smashing Magazine,CSS-Tricks,Problogger或其他人,那么他们就不用担心了。它们是谷歌眼中的权威网站。

然而在熊猫更新期间,我们知道一些好的网站被标记为刮刀,因为谷歌认为他们的刮刀是原创内容。所以这种方法在我们看来并不总是最好的。

杀死所有方法

与“无所作为的方法”完全相反。在这种方法中,您只需联系刮刀并要求他们将内容删除。如果他们拒绝这样做或者根本不回复您的请求,那么您就向他们的主人提交DMCA(数字千年版权法案)。根据我们的经验,大多数抓取网站都没有可用的联系表格。如果他们这样做,那就利用它。如果他们没有联系表格,那么您需要进行Whois查询。

Whois Lookup

您可以在管理联系人上查看联系信息。通常,行政和技术联系是相同的。whois还显示域名注册商。大多数知名的网络托管公司和域名注册商都有DMCA表格或电子邮件。您可以看到此特定人员因为其名称服务器而与Hostgator一起使用。HostGator有一个DMCA投诉表格。如果名称服务器类似于ns1.theirdomain.com,那么您必须通过进行反向IP查找和搜索IP来深入挖掘。

您还可以使用DMCA.com的第三方服务进行删除。

杰夫斯塔尔在他的文章中建议你应该阻止坏人的IP。访问您的日志以获取其IP地址,然后在根.htaccess文件中使用以下内容阻止它:

Deny from 123.456.789

您还可以通过执行以下操作将它们重定向到虚拟订阅源:

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]

您可以像杰夫建议的那样在这里获得真正的创意。使用Lorem Ipsum将它们发送到非常大的文本源。你可以向他们发送一些令人作呕的坏事。您也可以将它们发送回自己的服务器,导致无限循环,从而导致网站崩溃。

我们采取的最后一种方法是利用它们。

如何利用内容编译器

这是我们处理内容抓取工具的方法,结果非常好。它有助于我们的SEO以及帮助我​​们赚取额外的钱。大多数刮刀使用您的RSS Feed窃取您的内容。所以这些是你可以做的事情:

  • 内部链接– 您需要将CRAP与帖子互连。借助WordPress 3.1中的内部链接功能,它现在比以往更容易。当您的文章中有内部链接时,它可以帮助您增加网页浏览量并降低您自己网站上的跳出率。其次,它会让你从窃取你内容的人那里得到反向链接。最后,它允许您窃取他们的观众。如果您是一位才华横溢的博主,那么您就会了解内部链接的艺术。您必须将链接放在有趣的关键字上。让用户点击它很诱人。如果你这样做,那么刮刀的观众也会点击它。就像那样,你从他们的网站上带走了一个访问者并将他们带回了原本应该放在首位的地方。
  • 自动链接关键字与联盟链接– 像Ninja Affiliate和SEO Smart Links这样的插件很少会自动用关联链接替换指定的关键字。例如:HostGator,StudioPress,MaxCDN,Gravity Forms<<当这篇文章上线时,这些都将被联盟链接自动替换。
  • 使用RSS Footer获取创意– 你可以使用Yoast插件的RSS页脚或WordPress SEO来为你的RSS页脚添加自定义项目。你可以在这里添加任何你想要的东西。我们知道有些人喜欢将自己的产品推广到RSS阅读器。所以他们会添加横幅。猜猜看,现在这些横幅广告也出现在这些刮刀的网站上。在我们的案例中,我们总是在RSS源的帖子底部添加一些免责声明。它只是读作“如何将您的WordPress网站置于只读状态进行网站迁移和维护是一个帖子来自:WPBeginner,不允许在其他网站上复制。”通过这样做,我们获得了原始文章的反向链接来自scraper的网站,让谷歌和其他搜索引擎知道我们是权威。它还让用户知道该网站正在窃取我们的内容。如果你对代码很好,那么你可以完全疯了。比如为你的RSS阅读器添加相关帖子,以及其他一些东西。查看我们完全操作您的WordPress RSS提要指南

如何减少博客内容刮痧并可能预防它

考虑到你采用我们的大量内部链接方法,添加联盟链接,rss横幅和这样的机会是你将减少内容刮到很好的措施。如果你采用Jeff Starr关于重定向内容抓取器的建议,那也将阻止那些刮刀。除了我们上面分享的内容之外,您还可以使用其他一些技巧。

完整与摘要RSS Feed

博客社区一直在争论是否拥有完整的RSS提要或摘要RSS提要。我们不打算详细讨论这个争论,但是有一个仅使用摘要RSS提要的PROS之一就是防止内容抓取。您可以通过转到WordPress管理面板并进入设置»阅读来更改设置。然后更改设置对于Feed节目中的每篇文章:摘要。

注意:我们有完整的Feed,因为我们更关心我们的RSS阅读器而不是垃圾邮件发送者。

Trackback SPAM

Trackbacks和Pingbacks肯定有很多用途,但是它们现在经常被滥用。主题通常会在评论之下或之间显示引用和pingback。这使得垃圾邮件发送者有动力刮取您的网站并发送引用。如果您错误地批准了它,那么他们会从您的网站获得反向链接并提及。以下是如何在以后的所有帖子中禁用引用。这篇文章将向您展示如何在现有的WordPress帖子上禁用引用和ping。

内容搜索是否很好?

有可能。如果你发现你是从刮刀网站赚钱的,那么肯定可以。如果您从刮刀网站看到大量流量,那么它就可以。然而,在大多数情况下,事实并非如此。您应该始终尝试取消您的内容。但是你会发现,随着你的博客越来越大,几乎不可能跟踪所有内容抓取工具。我们仍然发出DMCA投诉,但是我们知道有很多其他网站正在窃取我们无法跟上的内容。

您有什么想法?您是否使用任何其他机制来防止内容刮擦?很想听听你的想法。