规划网站URL文章推荐
•《优化网站的抓取与收录》http://www.google.cn/ggblog/googlewebmaster-cn/2009/08/blog-post.html•《创建方便 Google 处理的网址结构》http://www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=76329
虽然是谷歌的文档,当然对于百度等其他主流搜索引擎同样是百分之百的适用的。
搜索引擎蜘蛛是如何来爬取网站的?
通常情况下我们理解的蜘蛛抓取页面可能是蜘蛛会看到一个页面就抓取一个页面。这种爬理解爬取的方式是不正确的。蜘蛛实际的爬取方式
爬虫顺着一个个的URL在互联网上抓取网页,它一边下载这个网页,一边在提取这个网页中的链接。假设只有一个蜘蛛以网站的某个节点开始爬取到itbadu的首页,那么蜘蛛顺着首页能够抓取到好多的URL链接,这时它会将这些URl存放带一个公用的“待抓取列表”中。实际上蜘蛛在爬取的时候不会只有一个蜘蛛在工作的,那么这里使用的“公共待抓取列表“就能够解释蜘蛛为了节约时间不同的蜘蛛不会重复抓取同一页面了,在公共的列表中重复的URL是会被去重的。
这是一个节点在一种理想状态下的情况,不过实际上因为搜索引擎以后还要更新这个网页等等一些原因,一个网站每天还是有很多重复抓取。
谷歌的质量指南中说过如果站点地图上的链接超过100个,则需要将站点地图拆分为多个网页。有些人把这句话理解为:“爬虫只能抓取前100个链接“,这是不对的。
当然也并是不所有的链接都能够保证能抓取到,为什么会有一个列表呢?就是将所有的URL放到列表中,然后进行抓取。
蜘蛛是如何抓取“待抓取列表”中的
说到这里就到了为什么需要进行合理的URL规划了,因为蜘蛛在每个网站上停留的时间是有限的,所以并不是所有放入待抓取列表中的URL都会被蜘蛛抓取到,有可能会在蜘蛛下次来的时候再抓取,也极有可能就需要等待下次的机会了,所以这里就更加显示出URL合理性的重要性了。蜘蛛是如何判断“待抓取列表”中的URL抓取重要性的
说的通白点就是“待抓取列表”中的URL,哪些会被优先抓取,哪些会被次要抓取?其实要理解这个也并不难,目录层次深的会被次要,链接复杂程度高的会被次要,带参数多的会被次要,重复率高的会被次要……如果当前蜘蛛来到你的网站只有抓取3个链接的时间(假设),而当前蜘蛛一共在列表中存有10个链接,那么它怎样来进行判断要抓取哪些URL呢?
URL抓取的判断因素:URL的重要性=页面链接导入次数(页面的导入链接数)+URL权重
这样就应该能好理解了,很显然如果想网站重要的页面能够经常的被抓取到,那么就要保证重要页面的链接次数已经URL权重。