robots文件常用指令和使用技巧介绍

Jerry2015年09月10日 23:20 分类 : 运营推广  > SEO
阅读: 1120

分享到微信朋友圈

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取。简单的理解robots.txt文件就是网站和搜索引擎之间的一个协意文件。

robots文件

Robots 是什么?
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取。简单的理解robots.txt文件就是网站和搜索引擎之间的一个协意文件。

robots不是命令,是指令,写robots不会即时生效可能要过二三天

Robots常用指令介绍
User-agent:定义搜索引擎的类型
Disallow: 指禁止搜索引擎抓取的路径
Allow: 允许搜索引擎收录的地址
*:匹配0或多个任意字符
$: 匹配行结束符


常见搜索引擎蜘蛛名称介绍

Baiduspider:百度蜘蛛
Googlebot 谷歌蜘蛛
360spider 360蜘蛛
sogouspider 搜狗蜘蛛


案例说明
允许所有蜘蛛爬取网站所有页面
Useo-agent: *
Allow: /

不允许所有蜘蛛爬取网站所有页面
User-agent: * 
Disallow: /

不允许百度蜘蛛爬取网站所有页面
如淘宝的:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /


Robots能解决什么问题?
1、屏蔽网站中的死链接
2、屏蔽重复页面及 无内容页面
3、屏蔽有多个路径的同一个页面
4、网站的隐私的页面不会检索收录
Jerry
微搜吧

精彩评论:0

还可以输入250个字 评论

评论成功

评论失败

 

微信公众号

微博