网站建设服务热线 服务热线: 021-61984767
您的当前位置:首页 » 互联网知识 » SEO优化 » SEO知识 » Robots.txt文件的重要性与写法介绍
Robots.txt文件的重要性与写法介绍
发布时间:2019-04-26 12:31:16  作者:助贤网络  浏览:407  本文标签:
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫扫除规范”(Robots Exclusion Protocol),网站经过Robots协议通知搜索引擎哪些页面能够抓取,哪些页面不能抓取。

一、Robots.txt文件的重要性
robots.txt是搜索引擎蜘蛛拜访网站时要查看的第一个文件,并且会依据robots.txt文件的内容来匍匐网站。在某种意义上说,它的一个使命就是辅导蜘蛛匍匐,削减搜索引擎蜘蛛的工作量。

当搜索引擎蜘蛛拜访网站时,它会首要查看该站点根目录下是否存在robots.txt文件,假如该文件存在,搜索引擎蜘蛛就会依照该文件中的内容来断定匍匐的规划;假如该文件不存在,则一切的搜索引擎蜘蛛将能够拜访网站上一切没有被口令维护的页面。


一般搜索引擎对网站派出的蜘蛛是有配额的,多大规划的网站放出多少蜘蛛。假如咱们不装备robots文件,那么蜘蛛来到网站以后会无目的的匍匐,形成的一个成果就是,需求它匍匐的目录,没有匍匐到,不需求匍匐的,也就是咱们不想被录入的内容却被匍匐并放出快照。所以robots文件关于咱们做网站优化来说具有很重要的影响。


1.网站没有Robots.txt文件的坏处

假如网站中没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即便被搜索引擎蜘蛛匍匐,也不会添加网站的录入率和权重,只会糟蹋服务器资源;搜索引擎派出的蜘蛛资源也是有限的,咱们要做的应该是尽量让蜘蛛匍匐网站要点文件、目录,最大极限的节省蜘蛛资源。


2.Robots.txt文件的寄存方位

网站根目录下,经过“域名/robots.txt”能正常拜访即可,如http://域名/robots.txt

二、Robots.txt文件的写法
User-agent: * *代表一切搜索引擎,也可指定搜索引擎,如指定百度,User-agent: BaiduspiderDisallow: /a/ 是制止抓取a目录下面的一切内容Disallow: /cgi-bin/*.htm 制止拜访/cgi-bin/目录下的一切以”.htm”为后缀的URL(包括子目录)Disallow: /*?* 制止拜访网站中一切包括问号 (?) 的网址Disallow: /.jpg$ 制止抓取网页一切的.jpg格局的图片Disallow:/ab/adc.html 制止爬取ab文件夹下面的adc.html文件。Allow: /cgi-bin/a/ 是答应爬寻cgi-bin目录下面的a目录Allow: /tmp 是答应爬寻tmp的整个目录Allow: .htm$ 答应拜访以”.htm”为后缀的URL。Allow: .gif$ 答应抓取网页和gif格局图片Sitemap: 网站地图,通知爬虫这个页面是网站地图。


助贤推荐的robots文件书写方法如下:

User-agent: * 
Disallow: /i*/ 
Disallow: /a*d/ 
Disallow: /*.php 
Disallow: /*/*.php 
Disallow: /*/list*.html 
Allow: /img/ 
Sitemap: https://域名/sitemap.xml


Robots.txt文件的阐明

User-agent: * 
(注释:这儿的*代表一切的搜索引擎品种,*是一个通配符;当然你也能够针对某个搜索引擎,如User-agent: Baiduspider、User-Agent: 360Spider、User-Agent: Sogouspider。)
Disallow: /i*/ 
(注释:Disallow为制止匍匐,假如需求制止蜘蛛匍匐images目录,能够写为Disallow: /images/ ;引荐本站选用的写法,Disallow: /i*/,能够在必定程度上进步网站的安全性,假如写成Disallow: /images/可能会露出网站后台文件途径,特别是办理途径。选用通配符的写法需求留意一点,i*代表一切以w最初的目录。)
Disallow: /a*d/ 
(注释:制止匍匐一切以字母a开端、以字母d完毕的目录,如/abd/、/acd/、/abcd/,这种写法也是出于安全考虑。)
Disallow: /*.php 
(注释:制止匍匐根目录下的一切以.php结束的文件,实际情况能够依据你所运用的网站程序来决议。)
Disallow: /*/*.php 
(注释:制止匍匐一切目录下的一切以.php结束的文件。)
Disallow: /*/list*.html 
(注释:网站栏目文章多的时分会有分页,如第1页、第2页……,假如需求制止匍匐分页,假定分页URL为www.xxx.com/news/list_1_32.html,咱们能够采纳Disallow: /*/list*.html这种写法来制止匍匐一切目录下的一切分页。)
Allow: /img/ 
(注释:Allow代表答应匍匐。Disallow: /i*/为制止匍匐一切以i最初的目录,可是咱们需求让蜘蛛匍匐img这个目录,能够选用Allow: /img/这种写法。)
版权:【注明为本站原创的文章,转载请注明出处与原文地址!本站部分转载文章能找到原作者的我们都会注明,若文章涉及版权请发至邮箱:will@izhuxian.net,我们以便及时处理,可支付稿费。向本站投稿或需要本站向贵司网站定期免费投稿请加QQ:2816660846】
耐心的沟通是为您提供更优方案的基础
在线沟通
上海工商备案
QQ咨询
在线咨询
微信咨询
扫码咨询
联系电话
助贤网络联系电话 021-61984767
预约上门
返回顶部
  • 助贤网络在线QQ咨询
    QQ咨询
  • 网站建设联系电话
    联系电话
  • 返回网站建设公司首页
    首页
  • 预约助贤网络上门服务
    预约上门
  • 返回网页顶部
    返回顶部
  • 关闭弹窗
    与助贤网络启动新征程