WordPress配置robots.txt文件

  • A+
所属分类:随笔分享

谈到robots,那些擅长SEO的童鞋一定不会陌生,但对于我等菜鸟,这完全是个陌生的领域。所以,先来看看维基百科的解释。

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。

robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL,也不能用"Disallow: *.gif"这样的通配符。

先来看一个所谓Wordpress官方的robots.txt文件写法。

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /author/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# digg mirror
User-agent: duggmirror
Disallow: /
Sitemap: http://www.example.com/sitemap.xml

从上述文件可以看出,一个标准的robots.txt文件,通常包括三大部分:第一部分是User-agent,表示对所有的搜索引擎都采用下面的规则;第二部分是Allow及Disallow,也就是允许抓取以及禁止抓取设置;第三部分是Sitemap,也就是站点地图,baidu及google都有。

对照官方的写法,根据本站的实际,也给分文网的博客写个robots.txt文件。

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
Sitemap: http://www.ifenwen.com/blog/sitemap.xml
Sitemap: http://www.ifenwen.com/blog/sitemap_baidu.xml

书写robots.txt时,需要注意冒号(:)之后有个空格,然后是斜杠(/)。最后写完了要上传到网站根目录,如果对于你的robots.txt的写法不放心的话,可以利用Google的网站管理员工具测试 robots.txt文件。

要测试网站的 robots.txt 文件,请执行以下操作:
在网站站长工具首页上,点击相关网站。
在运行状况 (Health) 下,点击已拦截的网址。。
请点击测试 robots.txt 标签(如果尚未选中的话)。
复制您的 robots.txt 文件的内容,并将其粘贴到第一个框中。
在网址框中,列出要用于测试的网站。
在 User-agent 列表中,选择所需的 User-agent。

发表评论取消回复

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:2   其中:访客  2   博主  0

    • 黑窝 黑窝's Blog 3

      网站根目录下没有,访问却能访问!
      自己上传了却显示的还是原来的……咋回事?

        • admin admin 9

          @黑窝's Blog 额 延时吧 等等就好了。。。