robots怎么写( 二 )


Disallow: /*?* 禁止访问网站中所有的动态页面Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录Allow: /tmp 这里定义是允许爬寻tmp的整个目录Allow: .htm$ 仅允许访问以".htm"为后缀的URL 。Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例例1. 禁止所有搜索引擎访问网站的任何部分User-agent: *Disallow: /实例分析:淘宝网的 Robots.txt文件User-agent: BaiduspiderDisallow: /很显然淘宝不允许百度的机器人访问其网站下其所有的目录 。
5. 请教关于robots写法的一些 robots.txt文件的写法 User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录) 。
Disallow: /*?* 禁止访问网站中所有的动态页面 Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件 。Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp的整个目录 Allow: .htm$ 仅允许访问以".htm"为后缀的URL 。
Allow: .gif$ 允许抓取网页和gif格式图片 。
6. 一般门户网站的robots文件怎么写 使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法 。
最简单的开放写法不作任何限制,Wordpress站内链接结构比较合理,作为一般博客,完全开放就可以了,代码:User-agent: *Disallow:允许所有蜘蛛访问,允许访问所有内容 。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法 。
最简单的严格写法User-agent: *Disallow: /wp-*#Allow: /wp-content/uploads/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /?s=允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果 。Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉 。
Allow 不是所有搜索引擎都支持 。最合理的写法卖瓜的都说自己瓜甜,我也觉得自己的Robots.txt写的最合理 User-agent: *Disallow: /wp-adminDisallow: /wp-content/pluginsDisallow: /wp-content/themesDisallow: /wp-includesDisallow: /?s=Sitemap: /sitemap.xml允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果 。
包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议) 。robots.txt其他写法为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):Disallow: /page/#限制抓取Wordpress分页Disallow: /category/*/page/*#限制抓取分类的分页Disallow: /tag/#限制抓取标签页面Disallow: */trackback/#限制抓取Trackback内容Disallow: /category/*#限制抓取所有分类列表最后,推荐使用 Google管理员工具,登录后访问“工具 -> 分析 robots.txt”,检查文件有效性 。

robots怎么写

文章插图