关闭

绑定手机号

应国家法规对于账号实名的要求,请您在进行下一步操作前,需要先完成手机绑定 (若绑定失败,请重新登录绑定)。了解更多

不绑定绑定手机号

360官网 | 360商城 | 360手机官网 | 社区客户端

推荐 论坛 版块 活动 好奇者试用 商城 积分商城
本帖最后由 浣溪沙 于 2017-6-28 18:07 编辑

【Robots简介】
robots.txt是一个协议,是搜索引擎访问网站时第一个要查看的文件,它存在的目的是告诉搜索引擎哪些页面能被抓取,哪些页面不能被抓取。
当spider访问一个站点时,会首先检查该站点根目录下是否存在robots.txt,如果存在,spider会按照文件中的内容来确定访问的范围;如果该文件不存在,所有的spider将能够访问网站上所有没有被口令保护的页面。
【具体介绍】
1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中,如果有多条User-agent记录说明有多个robot会受到\robots.txt\的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在\robots.txt\文件中,\User-agent:*\这样的记录只能有一条。
360搜索支持user-agent命令,包括使用通配符的user-agent命令。
2、Disallow命令指定不建议收录的文件、目录。
Disallow值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。
3、Allow命令指定建议收录的文件、目录。
Allow值用于描述希望被访问的一组URL,它的值也可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。
User-agent: * 这里的*代表所有的搜索引擎种类,*是一个通配符,*也可以替换成其他的蜘蛛名称,例如:Googlebot、yisouspider,表示屏蔽特定搜索引擎的蜘蛛
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以\.htm\为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以\.htm\为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图,告诉爬虫这个页面是网站地图
【注意事项】
1、robots文件往往放置于根目录下;
2、当您的网站包含有不希望被搜索引擎收录的内容时,才需要使用robots.txt文件;
3、360搜索会对这样形式的robots进行全匹配url处理,所以在写robots的时候一定要小心,最好写尽量精确的url通配,不建议做泛匹配
User-agent: *
Disallow: *#*
或者
User-agent: *
Disallow: #
360搜索会把#认为是全部匹配,从而不抓取全部的url
类似的,如写成:Disallow: #.html,则会不抓取所有以html为后缀的url

【常见问题】
Robots相关的常见问题主要是因错误书写robots导致的网站不被360搜索引擎收录。所以建议站长,当网站出现不收录时,首先检查一下robtos文件是否正确。
Robots协议是一个搜索引擎和网站之间的善意协议,我们鼓励站长们也能善意使用这一协议,除非有充足合理的理由,否则我们一般都不建议使用Robots协议屏蔽360搜索及其他搜索引擎的蜘蛛。
其他任何不清楚的,还可以访问咱们的robots百科词条:
或参考360搜索针对robots的FAQ:

共 7 个关于关于robots.txt的二三事的回复 最后回复于 2017-10-7 14:07

评论

直达楼层

小小happy呢 产品答疑师 发表于 2017-6-28 18:45 | 显示全部楼层 | 私信
赞赞赞,让技术贴来的更猛烈些吧
也欢迎更多的技术人员加入进来,一起努力做好网站优化
九零VS零零 LV5.少尉 发表于 2017-6-28 19:04 | 显示全部楼层 | 私信
赞赞赞
憨宝宝 LV4.上士 发表于 2017-6-29 08:50 | 显示全部楼层 | 私信
360不遵守页面robots协议吗?我们某个频道页面放了robots限制被抓取,但现在还是看得到360的搜索引擎抓取。
wwwzafcc LV4.上士 发表于 2017-6-29 09:49 | 显示全部楼层 | 私信
赞赞赞
时代亚洲 LV4.上士 发表于 2017-6-29 17:22 | 显示全部楼层 | 私信
支持了
360fans25873786250 LV3.中士 发表于 2017-9-1 15:24 | 显示全部楼层 | 私信
最近才开始学的SEO知识,发现其实很多站做得确实不怎么好,不过这样才好,让坑货多一些,其他的站才有机会嘛,要是大家都做得好了,那竞争真的大啊。
wwwfengcn LV3.中士 发表于 2017-10-7 14:07 | 显示全部楼层 | 私信
Sitemap: 网站地图,告诉爬虫这个页面是网站地图
这个是写全URL,还是“/sitemap.xml”
您需要登录后才可以回帖 登录 | 注册

本版积分规则

浣溪沙 产品答疑师

粉丝:13 关注:0 积分:2403

精华:0 金币:971 经验:1408

最后登录时间:2017-10-20

私信 加好友

浣溪沙

粉丝:13 关注:0

私信

最新活动

老周邀您参加360公司2017年度感恩用户节!

内容推荐 热门推荐最新主帖

    360社区客户端下载

    快速回复 返回顶部 返回列表