robots禁止抓取规则为什么还被收录

张俊SEM seo优化124字数 1544阅读5分8秒阅读模式

有时候不希望搜索引擎抓取某些内容可以写robots.txt文件放到根目录,按理蜘蛛会首先读取这个文件,按照robots协议抓取相应的内容。但是许多站长们发现,蜘蛛并不太遵守这个协议。

为验证这个问题,做了测试后发现,如果蜘蛛已经抓取并有索引、快照了,这个时候再写robots就不遵守这个协议了,一般在robots中禁止抓取文件夹如下,文章源自张俊SEM-https://zhangjunsem.com/28042.html

Disallow:/about/

还不放心,在页面里增加<meta>声明文章源自张俊SEM-https://zhangjunsem.com/28042.html

<meta name="robots" content="noindex,follow" />

这个声明的意思是告诉蜘蛛不建立索引,可以沿着路径继续抓取内容。以为这就能让已经收录的快照删除了,有网友说这需要等待,时间都说不好。文章源自张俊SEM-https://zhangjunsem.com/28042.html

百度有个规则是判断页面质量,如果多个页面重复内容过多,会被降权,甚至移出索引库。等待很长世间才会被移出索引库,一般调整过的网站的收录量会减少,但不是大幅度减少,是因为有些垃圾页面在算法更新后被移出索引库而已,这对于正规SEO做法的站长来说是好事,垃圾页面会影响到网站的排名。文章源自张俊SEM-https://zhangjunsem.com/28042.html

robots和nofollow都能控制蜘蛛抓取范围,而两个的用法不尽相同。文章源自张俊SEM-https://zhangjunsem.com/28042.html

robots协议

告诉蜘蛛哪些内容可抓取,哪些不可抓取。原则是:参与排名的就让蜘蛛抓,不参与的或涉及到信息安全的不抓取。文章源自张俊SEM-https://zhangjunsem.com/28042.html

nofollow标签

告诉蜘蛛该页面内,某链接不可信任,不传递权重。一般在页面链接较多的情况下(页面会给该页面下所有链接权重),为了集中页面权重,一些无关紧要的链接采用nofollow加以控制。文章源自张俊SEM-https://zhangjunsem.com/28042.html

简单说,nofollow主要是为了集中某个页面的权重,而robots是控制整个网站的蜘蛛抓取范围。那么问题来了,为什么很多时候蜘蛛不遵守我们的robots协议呢?(一些垃圾蜘蛛是完全不遵守robots协议的)我们说的蜘蛛主要指百度、谷歌蜘蛛。文章源自张俊SEM-https://zhangjunsem.com/28042.html

①书写错误文章源自张俊SEM-https://zhangjunsem.com/28042.html

robots.txt的书写格式是一行一行的写,不能连着写,如文章源自张俊SEM-https://zhangjunsem.com/28042.html

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/

每个记录都需要另起一行,每个记录里不允许空行,空行用来分割不同的记录。正确的如

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

很多时候搜索引擎抓取了你 robots.txt 不允许抓取的内容不是因为机器人不遵守,而是从抓取到索引到展现这个过程需要一段时间,当搜索引擎已经抓取了,你才更新,那么之前抓取的是不会那么快删掉的,删除周期并不规律,一般是算法更新后生效的情况多些。

下面说下几个新手可能会需要的信息。

1、robots.txt 怎么写?

各大搜索引擎的站长平台(英文叫 webmasters )都有详细说明,也有生成工具。

2、怎样确定 robots.txt 有效?

站长平台都有抓取 robots.txt 的工具,也会有“抓取工具”来确认某个页面是不是可以正确抓取。

3、怎样通知搜索引擎 robots.txt 已更新?

和上面的一样,通过站长平台的抓取工具重新抓取(有的是“更新”)即可。

4、让搜索引擎抓取了不应该抓取的内容怎么办?

这个常用方法有几种:

* 在站长平台的删除链接工具中输入链接并确认删除
* 修改代码使搜索引擎访问时返回错误代码(503、404等),然后在站长平台重新抓取
* 修改 robots.txt (这个只建议在上面两个操作过之后补充)

5、整站禁止抓取,如何操作更有效?

有的搜索引擎索引是不遵守 robots.txt 的,只有在展现的时候遵守,也就是说,就算你 robots.txt 写明了禁止抓取,你会发现还是有机器人来爬。

所以如果是大目录或者是整站禁止抓取,建议在服务器软件(如 nginx)的代码段中直接判断搜索引擎 UA 并返回错误代码。这样一方面可以减轻服务器压力,一方面可以真正禁止抓取。

声明:转载此文是出于传递更多学习交流目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。本站部分图文来源于网络,仅供学习交流,发表作品观点仅代表作者本人,本站仅提供信息存储空间服务,不承担连带责任。如有侵权,请及时联系管理员删除。

weinxin
ynxtwl
加个微信
交个朋友
张俊SEM
  • 本文由 张俊SEM 发表于 2025年2月17日11:39:59
  • 转载请务必保留本文链接:https://zhangjunsem.com/28042.html
  • 搜索引擎
  • 蜘蛛
  • 站长
新站在百度审核期间的操作指南(如何让新站尽快通过百度审核)
新站在百度审核期间的操作指南(如何让新站尽快通过百度审核) SEO技术

新站在百度审核期间的操作指南(如何让新站尽快通过百度审核)

对于刚刚建立的新站来说,通过百度的审核是非常重要的一步。然而,百度的审核机制也相对复杂,需要站长们具备一定的知识和技能。本篇文章将为大家详细介绍新站在百度审核期间的操作指南,希望对站长们有所帮助。 一...
网站运营 2 年没见效果?3 步搞定流量低、权重不高难题
网站运营 2 年没见效果?3 步搞定流量低、权重不高难题 seo优化

网站运营 2 年没见效果?3 步搞定流量低、权重不高难题

不少站长投入时间精力搭建网站,可运营 2 年后却发现:流量始终上不去,搜索引擎权重也没明显提升,既没带来预期转化,也慢慢磨灭了运营热情。其实,网站流量与权重不佳,并非 “运营时间不够”,而是忽略了核心...
WordPress页面
WordPress页面 WordPress主题

WordPress页面

在WordPress中添加页面类似于在博客中发布文章。页面是静态内容,通常不会更改其显示的信息。 一、添加页面 首先点击【页面】-【新建页面】如下面的屏幕截图所示; 然后将获得如下面屏幕截图所示的编辑...