wordpress博客robots.txt文件写法

maolai 网站建设wordpress博客robots.txt文件写法已关闭评论355阅读模式

Robots协议,又称为机器人协议,网站用来告知搜索引擎哪些页面可以被抓取,哪些页面不能被抓取的。Robots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。它并不是一个命令,只是一种国际上通行的规范,将网站的一些不能被抓取的文件或者目录,记录在robots.txt中,当搜索引擎的蜘蛛访问这个网站时候,首先就会去访问robots文件,得知不能被抓取目录和文件信息。

如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。

User-agent:* 表示不允许所有的搜索引擎抓取。

User-agent:baiduspider 只允许百度搜索引擎抓取。

User-agent: * Disallow:/ 禁止所有搜索引擎抓取。(Allow表示允许)

比如,如果你不允许所有搜索引擎抓取http://www.xxx.com/archives/385.html 这个页面的。如下这样写即可:(当然,如果搜索引擎不遵守的,加了也没用)

User-agent: *

Disallow: /archives/385.html

WordPress博客的robots.txt文件写法得根据自身网站情况来定,当然我们可以借鉴一些知名wordpress网站的robots.txt写法。

以下就是www.bokequ.com的robots

User-agent: *

Disallow: /wp-

Disallow: /?

Disallow: /feed/

Disallow: /*/feed/

Disallow: /trackback/

Disallow: /*/trackback/

Disallow: /page/

Disallow: /a-category/*/page/

Disallow: /a-tag/*/page/

Sitemap: http://www.bokequ.com/sitemap.html

wordpress博客robots.txt文件写法

下面详细解释下每行规则的含义:

User-agent: * 对所有搜索引擎开放收录

Disallow: /wp- 禁止搜索引擎收录所有包含“wp-”字样的url,如wp-admin、wp-content、wp-includes、wp-login.php等

Disallow: /? 禁止搜索引擎收录所有包含“?”字样的url

Disallow: /feed/ 禁止搜索引擎收录RSS订阅页面

Disallow: /*/feed/ 禁止搜索引擎收录所有分类目录、TAG、文章的RSS订阅

Disallow: /trackback/ 禁止收录网站的trackback

Disallow: /*/trackback/ 禁止收录所有分类目录、TAG、文章的trackback

Disallow: /page/ 禁止百度收录首页分页,防止首页权重过于分散

Disallow: /a-category/*/page/ 禁止百度收录分类目录分页

Disallow: /a-tag/*/page/ 禁止百度收录TAG标签分页

Sitemap: http://www.bokequ.com/sitemap.html

robots.txt文件增加Sitemap链接地址.

 
maolai
  • 本文由 maolai 发表于 2015年3月30日 21:46:14
  • 转载请务必保留本文链接:http://www.bokequ.com/363.html