注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

一个色导航

一个色导航

 
 
 

日志

 
 

SEO博客:浅谈Robots协议  

2010-07-19 17:31:08|  分类: 优化分享 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

   robots.txt是一个存文本文件,当一个搜索robot访问一个站点时,它首先爬行来检查该站点根目录下是否存在robots.txt如果存在,搜索robot就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎robot就沿着链接抓取。

robots.txt必须放在一个站点的根目录下面,而且文件名必须全部小写.

<meta name="robots" content="all"> 指表示搜索robot可以沿着该页面上的链接继续抓取下去。

那么如果设置网站中的不想被robot访问的部分呢?

首先:创建一个存文本robots.txt

其次:

#
# robots.txt for Discuz! Board
# Version 2.5
#

User-agent: *(*指所有robot,)
Disallow: /admin
Disallow: /attachments
Disallow: /images
Disallow: /forumdata
Disallow: /include
Disallow: /ipdata
Disallow: /templates
Disallow: /plugins

注明:#是注解

eg:Disallow:/help 则是对 help.html 和 help/index.html 都不允许访问;

                       而/help/ 则只允许robot访问help.html页面

常见搜索引擎robot名称:

百度:BaiduSpider

谷歌:Googlebot

本文源自于:http://hi.baidu.com/dingjunyuan

  评论这张
 
阅读(13)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018