正在加载中

wordpress的robots.txt设置技巧

WordPress自从2.1版本开始,在Privacy选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多,最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。

对WordPress博客而言,一般来说,结构相对简单,robots.txt的设置可采用如下格式:
        User-agent: *
        Disallow: /wp-
        Disallow:/feed/
        Disallow: /comments/feed
        Disallow: /trackback/
        Disallow: /其他要排除的目录/
  其中,“User-agent: *” 指该限制对所有搜索引擎如Google、百度、Yahoo等均有效;“Disallow: /wp-”行则指禁止搜索引擎索引、收录Wordpress自身的工作文件:包括以“wp-”开头的文件与目录如管理目录“wp-admin”。

         所以以上设置的全部意思就是:
        允许所有的搜索引擎的机器人(Spider)访问本站,
        但是不能爬行以wp-开头的文件和目录,
        不能爬行/feed/、/comments/feed/、/trackback/和/其他要排除的目录/

当然,如果你还不知道什么是robots.txt,那你需要看下这里:
robots.txt的概念、语法及其常见使用技巧
robots.txt给网站带来的好处和坏处?
robots.txt的常见问题及高级设置技巧

我们上面对WordPress博客的robots.txt的设置就是相当简陋的,如果您需要更复杂的设置,如针对不同搜索引擎设定或使用通配符等,可参考robots.txt设置的高级技巧及相应搜索引擎的说明。

最后需要提醒的是,百度搜索帮助中心说明“请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件”。但是又有热提出,即使您打算允许搜索引擎的Spider在网站内任意爬行,不做任何限定,最好也上传一个类似如下格式的robots.txt文件,不然,当网站出现错误链接即404错误时,搜索引擎的Spider会将网站的自定义404页面视robots.txt,这将给Spider索引网站带来很大的困扰,从而影响搜索引擎对网站页面的收录。
上面这个问题虽然aoker还没有得到定论,但对于WordPress这个程序来说,有很多页面是最好不要让搜索引擎去抓的,你需要写一个有限制性的robots.txt。如果你实在想全站开放,也最好写如下的代码到robots.txt中,免得被404错误页面误伤。
User-agent: *
Disallow:

最后,aoker综合所有的情况,暂时先采用这种:
User-agent: *
Disallow: /wp-
Disallow:/feed/
Disallow: /comments/feed
Disallow: /trackback/

以后若有改动会在本文说明有何改动及改动的原因。
设置完成之后,你可以用Google网站管理员里有一个分析robots.txt工具分析robots.txt是否成功设置了阻止Google蜘蛛对特定网页的访问,以及robots.txt是否有语法错误等等。robots.txt文件很重要,但如果我们写错的话,可能会给网站带来很大的麻烦。

以上内容的提供者有:
http://www.osxcn.com/
http://blogsdiy.org/2007-03/robots-txt-for-wordpress/
aoker只是针对本文所述问题的相关内容进行整理,方便自己和其它爱好者学习!
相关内容持续整理中………….谢谢关注…………


Post a Comment