云南seo优化建站技术分享博客今天和大家说说网站robots文件是什么?有什么作用?怎样检查网站robots文件是不是正常?
文章源自张俊SEM-https://zhangjunsem.com/1117.html
整个网站能不能被收录货某个目录下所有页面都不能收录,robots文件中的任何一个字母差错都可能造成致命影响。只有确保robots文件中的每一行代码正确,不会错误禁止应该被收录的文件或目录,网站才有机会说优化。那么,问题来了,哪里可以看到网站的robots文件?文章源自张俊SEM-https://zhangjunsem.com/1117.html
拿博主的果地博客来说,打开连接::文章源自张俊SEM-https://zhangjunsem.com/1117.html
下面是这些代码的含义:文章源自张俊SEM-https://zhangjunsem.com/1117.html
user-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符文章源自张俊SEM-https://zhangjunsem.com/1117.html
disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录文章源自张俊SEM-https://zhangjunsem.com/1117.html
disallow: /require/ 这里定义是禁止爬寻require目录下面的目录文章源自张俊SEM-https://zhangjunsem.com/1117.html
disallow: /abc/ 这里定义是禁止爬寻abc目录下面的目录文章源自张俊SEM-https://zhangjunsem.com/1117.html
disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的url(包含子目录)。文章源自张俊SEM-https://zhangjunsem.com/1117.html
disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址文章源自张俊SEM-https://zhangjunsem.com/1117.html
disallow: /.jpg$
disallow:/ab/ 。
allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
allow: /tmp 这里定义是允许爬寻tmp的整个目录
allow: .htm$ 仅允许访问以".htm"为后缀的url。
allow: .gif$ 允许抓取网页和gif格式图片
sitemap: 网站地图 告诉爬虫这个页面是网站地图
大家可以试试自己的网站有没有,分别对应着看看自己的代码是不是对的。除此之外,大家还可以同过百度站长平台,来检测自己网站robots文件的书写是不是正确,具体的步骤如下:
打开百度站长平台-单机左侧列表类目robots输入自己需要检测的网站-单机下方检测并更新选项-查看结果如下图:
了解了robots的作用,怎么检测,特定代码的意义和书写规范,对比和检测下自己网站robots文件,看看是不是正常的,没错的话,恭喜,你的网站起码没有屏蔽搜索引擎的抓取哈。
声明:转载此文是出于传递更多学习交流目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。本站部分图文来源于网络,仅供学习交流,发表作品观点仅代表作者本人,本站仅提供信息存储空间服务,不承担连带责任。如有侵权,请及时联系管理员删除。











评论