一、什么是Robots.txt
搜索引擎蜘蛛(英文:spider)在抓取一个网站时,首先会检查该网站的根目录里面是否有一个叫做robots.txt文件(如:你的网站域名是 www.xxx.com 那么搜索引擎会检查 www.xxx.com/robots.txt 这个默认路径),这个文件用于指定搜索引擎蜘蛛spider在您网站上的抓取范围,当你不想让蜘蛛爬取你站内页面或者某个目录时就可以用robots.txt来屏蔽蜘蛛抓取。二、Robots.txt有什么作用?
1、能够屏蔽死链接(死链接能够造成网站降权,关键词排名和流量下降)。2、能够屏蔽重复页面。
3、能够屏蔽无内容页面,如:404页面,评论页,用户个人中心页面,用户资料页。
4、能够根据需求来屏蔽不需要收录的页面,减少权重浪费,让网站价值最大化。
三、Robots.txt如何操作?
Robots.txt的写法很简单,只要3步就可以搞定了!1、第一步,先在桌面新建一个记事本,然后把记事本的名称改成:robots.txt
2、第二步,编写robots.txt语法。
3、第三步,用FTP把该文档上传到网站的根目录。
蜘蛛爬取后48小时就能够生效。
四、Robots.txt的其他运用
1.<meta name="robots" content="nofollow"> 2.禁止蜘蛛爬取该页面中所有链接。 3.<meta name="robots" content="nofollow"> 4.<meta name="Baiduspider" content="nofollow"> 5.<a href="http://www.itbadu.com" rel="nofollow">网站推广方案</a>
五、Robots.txt语法
1.1、User-agent: 定义搜索引擎 2.User-agent:* 对所有蜘蛛起作用 3.User-agent:baiduspider 只对百度有作用 4.User-agent:googlebot 只对谷歌有作用 5.2、Disallow: 屏蔽,他就是告诉搜索引擎的蜘蛛(spider)那些页面和目录是不能抓取的 6.3、Allow: 允许收录,他就是告诉搜索引擎哪些页面是允许被收录的。当然在robots.txt 这个文件里面只要你没有写明屏蔽哪些页面,那么搜索引擎的蜘蛛就会默认这个是允许抓取的。那么这里就出现了一个问题,既然没有写屏蔽的话就默认为允许抓取,那为什么还需要第三个语法?那么白接下来就会解释下。
如:有个目录(/seo)下我们不知道有多少文件,但我们只想让蜘蛛抓取a.html b.html c.html,那么我们该怎么办呢?
1.User-agent:* 2.Allow:/sdfasdfaf/a.html 3.Allow:/sdfasdfaf/b.html 4.Allow:/sdfasdfaf/c.html 5.Disallow:/seo/用上面这个语法就ok了,这样我们就能理解Allow语法的作用了。
这个地方值得提的一点就是/seo和/seo/是不一样的,前者是对包含/seo的链接起作用,后者是对seo的目录起作用。
六、Robots.txt中通配符的作用
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。1、"$" 匹配行结束符就是指只要你是以这个后缀结束的我就能够匹配你,包含你。
.asp$ 这样写的话那么只要是.asp结尾的链接都是能匹配到的。如abcdefg.asp是可以匹配到的。