ITbadu

学习与记录,研究与分享!观点与互联网,需要改变的是思想!

规划好网站的URL让优化事半功倍

  相信大家关于如何让网站被搜索引擎能够顺利的爬取多少也能知道点,相关的文章也看过不少。优化已经存在的网站、重新做一个新站也好,首先都离不开URL的规划,当然一套好的URL会让网站优化事半功倍,同时你应该看下这篇文章:如何让URL标准化
  

规划网站URL文章推荐

  •《优化网站的抓取与收录》http://www.google.cn/ggblog/googlewebmaster-cn/2009/08/blog-post.html
  •《创建方便 Google 处理的网址结构》http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=76329
  虽然是谷歌的文档,当然对于百度等其他主流搜索引擎同样是百分之百的适用的。
  

搜索引擎蜘蛛是如何来爬取网站的?

  通常情况下我们理解的蜘蛛抓取页面可能是蜘蛛会看到一个页面就抓取一个页面。这种爬理解爬取的方式是不正确的。
  

蜘蛛实际的爬取方式

  爬虫顺着一个个的URL在互联网上抓取网页,它一边下载这个网页,一边在提取这个网页中的链接。假设只有一个蜘蛛以网站的某个节点开始爬取到itbadu的首页,那么蜘蛛顺着首页能够抓取到好多的URL链接,这时它会将这些URl存放带一个公用的“待抓取列表”中。
  实际上蜘蛛在爬取的时候不会只有一个蜘蛛在工作的,那么这里使用的“公共待抓取列表“就能够解释蜘蛛为了节约时间不同的蜘蛛不会重复抓取同一页面了,在公共的列表中重复的URL是会被去重的。
  这是一个节点在一种理想状态下的情况,不过实际上因为搜索引擎以后还要更新这个网页等等一些原因,一个网站每天还是有很多重复抓取。
  谷歌的质量指南中说过如果站点地图上的链接超过100个,则需要将站点地图拆分为多个网页。有些人把这句话理解为:“爬虫只能抓取前100个链接“,这是不对的。
  当然也并是不所有的链接都能够保证能抓取到,为什么会有一个列表呢?就是将所有的URL放到列表中,然后进行抓取。
  

蜘蛛是如何抓取“待抓取列表”中的

  说到这里就到了为什么需要进行合理的URL规划了,因为蜘蛛在每个网站上停留的时间是有限的,所以并不是所有放入待抓取列表中的URL都会被蜘蛛抓取到,有可能会在蜘蛛下次来的时候再抓取,也极有可能就需要等待下次的机会了,所以这里就更加显示出URL合理性的重要性了。
  

蜘蛛是如何判断“待抓取列表”中的URL抓取重要性的

  说的通白点就是“待抓取列表”中的URL,哪些会被优先抓取,哪些会被次要抓取?其实要理解这个也并不难,目录层次深的会被次要,链接复杂程度高的会被次要,带参数多的会被次要,重复率高的会被次要……
  如果当前蜘蛛来到你的网站只有抓取3个链接的时间(假设),而当前蜘蛛一共在列表中存有10个链接,那么它怎样来进行判断要抓取哪些URL呢?
  URL抓取的判断因素:URL的重要性=页面链接导入次数(页面的导入链接数)+URL权重
  这样就应该能好理解了,很显然如果想网站重要的页面能够经常的被抓取到,那么就要保证重要页面的链接次数已经URL权重。
  

URL规划误区

  有些人在进行URL规划的时候把所有页面都建在根目录下,这样做是不好的,因为这样所有的URL又不能很好的体现哪些是重要的,哪些是次要的,及没 有很好的逻辑性,反而有会得不偿失,所以好的URL是能够按照正常的业务逻辑来呈现,及哪些URL是属于哪些URL的下级,哪些是属于同一层次的。


« robots.txt写法如何让URL标准化 »
  • 收藏自己看,分享大家看!

  • 更多


  • 相关文章:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Tags

最近发表

最新评论及回复

当使用本站时,代表您已接受了本站的 免责声明,随之而来的风险与本站无关!|
Copyright 2010-2012 ITbadu.CoM. Some Rights Reserved. 苏ICP备10083347号-1
苏州seo | seo优化 | seo工具 | 网站分析