当前位置:首 页 > seo > 查看文章

大丽博客:robots的概念和设置(SEO第五课)

seo 你是第908个围观者 0条评论 供稿者:

robots的概念

robots就是一个协议,它告诉搜索引擎爬虫什么可以抓取,什么不可以抓取。(就相当于一个公司门口的公告一样

robots是一个txt文件,命名为robots.txt,放在你的网站根目录下。搜索引擎访问你的网站的时候,首先会看到这个协议,看下哪些内容允许抓取,哪些内容不允许。

 

出现以下情况,一般会屏蔽掉,不让蜘蛛抓取。

1、你的网站某个页面比较机密,不想让别人看到,就可以屏蔽掉这个页面,不让百度收录,比如你的网站后台登录地址。

2、你的网站还不稳定,前期不想让所有的爬虫抓取,就可以进行如下设置。

User-Agent: *
Disallow: /

(将上述两行复制到robots.txt,然后将该文件上传到你的网站根目录即可)

3、跟百度有仇,不想让它抓取,例如我们看下淘宝的robots.txt文件,在浏览器中输入www.taobao.com/robots.txt,可以看到淘宝的robots文件如下,它是屏蔽了百度的蜘蛛的,不允许百度蜘蛛的抓取。

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

如何来设置robots.txt的规则呢?我们可以利用百度站长工具来自动生成

首先在百度站长工具注册一个账号,登录后,在左侧找到网站分析-robots-生成robots.txt。

选择蜘蛛类型,比如Baiduspider,选择允许抓取或者不允许抓取(一般是设置不允许抓取的),填写路径。

例如:

不允许百度蜘蛛抓取你的themes文件夹下的所有文件,就可以这样设置:

选择Baiduspider-选择不允许抓取-路径填写/wp-content/themes-点击创建

robots.txt内容里出现如下规则

User-Agent: Baiduspider

Disallow: /wp-content/themes

只需要将上面两行代码,复制到你的robots.txt文件,然后上传到根目录即可.

 

不允许百度蜘蛛抓取你的1.html页面,可以这样设置:

选择Baiduspider-选择不允许抓取-路径填写/1.html-点击创建

robots.txt内容里出现如下规则

User-Agent: Baiduspider
Disallow: /1.html

只需要将上面两行代码,复制到你的robots.txt文件,然后上传到根目录即可.

 

分享到:
标签:
做靠谱的微商,过幸福的生活,大丽个人微信idali8。

—— 大丽

TA的网站

你可能也喜欢Related Posts

众说纷纭Comments

大眼 可爱 大笑 坏笑 害羞 发怒 折磨 快哭了 大哭 白眼 晕 流汗 困 腼腆 惊讶 憨笑 色 得意 骷髅 囧 睡觉 眨眼 亲亲 疑问 闭嘴 难过 淡定 抗议 鄙视 猪头
小提示:直接粘贴图片到输入框试试
努力发送中...
footer logo
Copyright © 大丽博客 Studio All Rights Reserved.| |百度地图|谷歌地图.苏ICP备15061914号 愉快地使用WordPress Theme by QQOQ