ITbadu

学习与记录,研究与分享!观点与互联网,需要改变的是思想!

robots.txt写法

  

一、什么是Robots.txt

  搜索引擎蜘蛛(英文:spider)在抓取一个网站时,首先会检查该网站的根目录里面是否有一个叫做robots.txt文件(如:你的网站域名是 www.xxx.com 那么搜索引擎会检查 www.xxx.com/robots.txt 这个默认路径),这个文件用于指定搜索引擎蜘蛛spider在您网站上的抓取范围,当你不想让蜘蛛爬取你站内页面或者某个目录时就可以用robots.txt来屏蔽蜘蛛抓取。
  

二、Robots.txt有什么作用?

  1、能够屏蔽死链接(死链接能够造成网站降权,关键词排名和流量下降)。
  2、能够屏蔽重复页面。
  3、能够屏蔽无内容页面,如:404页面,评论页,用户个人中心页面,用户资料页。
  4、能够根据需求来屏蔽不需要收录的页面,减少权重浪费,让网站价值最大化。
  

三、Robots.txt如何操作?

  Robots.txt的写法很简单,只要3步就可以搞定了!
  1、第一步,先在桌面新建一个记事本,然后把记事本的名称改成:robots.txt
  2、第二步,编写robots.txt语法。
  3、第三步,用FTP把该文档上传到网站的根目录。
  蜘蛛爬取后48小时就能够生效。
  

四、Robots.txt的其他运用

1.<meta name="robots" content="nofollow">
2.禁止蜘蛛爬取该页面中所有链接。
3.<meta name="robots" content="nofollow">
4.<meta name="Baiduspider" content="nofollow">
5.<a href="http://www.itbadu.com" rel="nofollow">网站推广方案</a>
  

五、Robots.txt语法

1.1、User-agent: 定义搜索引擎
2.User-agent:*  对所有蜘蛛起作用
3.User-agent:baiduspider  只对百度有作用
4.User-agent:googlebot  只对谷歌有作用
5.2、Disallow: 屏蔽,他就是告诉搜索引擎的蜘蛛(spider)那些页面和目录是不能抓取的
6.3、Allow: 允许收录,他就是告诉搜索引擎哪些页面是允许被收录的。
  当然在robots.txt 这个文件里面只要你没有写明屏蔽哪些页面,那么搜索引擎的蜘蛛就会默认这个是允许抓取的。那么这里就出现了一个问题,既然没有写屏蔽的话就默认为允许抓取,那为什么还需要第三个语法?那么白接下来就会解释下。
  如:有个目录(/seo)下我们不知道有多少文件,但我们只想让蜘蛛抓取a.html b.html c.html,那么我们该怎么办呢?
1.User-agent:*
2.Allow:/sdfasdfaf/a.html
3.Allow:/sdfasdfaf/b.html
4.Allow:/sdfasdfaf/c.html
5.Disallow:/seo/
  用上面这个语法就ok了,这样我们就能理解Allow语法的作用了。
  这个地方值得提的一点就是/seo和/seo/是不一样的,前者是对包含/seo的链接起作用,后者是对seo的目录起作用。
  

六、Robots.txt中通配符的作用

  Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
  

1、"$" 匹配行结束符就是指只要你是以这个后缀结束的我就能够匹配你,包含你。

  .asp$ 这样写的话那么只要是.asp结尾的链接都是能匹配到的。
  如abcdefg.asp是可以匹配到的。
  

2、"*" 匹配0或多个任意字符

  如:abcdefg.html是可以通过abcd*.html来匹配到的


« 爱站是如何计算百度权重规划好网站的URL让优化事半功倍 »
  • 收藏自己看,分享大家看!

  • 更多


  • 相关文章:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Tags

最近发表

最新评论及回复

当使用本站时,代表您已接受了本站的 免责声明,随之而来的风险与本站无关!|
Copyright 2010-2012 ITbadu.CoM. Some Rights Reserved. 苏ICP备10083347号-1
苏州seo | seo优化 | seo工具 | 网站分析