AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

撞见女厕所的男人,谁在笑,谁在叫,详解 robots.txt 规则

1750
2025-05-21 08:10
2025-05-21 08:10
1750

【跨境合规实战训练营】“关、汇、税、商”系统搭建,点击获取跨境合规解决方案>>>

当尖叫与奸笑撕破女厕所的平静 —— 是标识牌误导让老实人误入歧途?还是法外狂徒硬闯?

你的独立站 robots.txt 正面临和 【厕所指示牌】同样困境:爬虫大军中混杂着迷路的「误闯者」也有蓄谋已久的「偷窥狂」。

你的独立站 robots.txt 文档就好像是一个厕所的指示牌,告诉了男人们进哪一边,女人们进哪一边。但是你可能把这个标识牌写错了,导致男人们走错路跑到了女厕所。 另外,也有可能是指示牌是正确的,遇到一个根本不遵守指示牌指引的流氓故意硬闯进来的。
当谷歌,Bing ,Yandex这些正规的搜索引擎进入网站,搜索引擎的爬虫蜘蛛进入你的网站第一个访问的文档就是 robots.txt ,他们会根据robots.txt 指引的规则路线来爬取你的网站。
当黑客,或者暴力蜘蛛进入你网站,他根本不会看你的robots.txt 指引,直接开始他的猖狂行为。这种情况独立站运营是毫无办法的,除非给你造成重大损失,此时只能搜集证据,告上法庭。看下面的案例,百度都拿这种情况没办法,只能告他。

既然流氓我们只能告他,那我们该怎么防止老实人【误闯禁区】呢?robots这么重要,作为独立站运营我们该怎么编辑这个文档,怎么规定爬行规则。今天SEO小平就详细给你分析robots的全面知识。

怎么修改网站的 robots.xtx 文档


分2部分 Shopify 与 WordPress(Yoast)的路径指南


1. Shopify 平台的 robots.txt 修改流程


Shopify 为商家提供了编辑 robots.txt 文件的功能,以此对搜索引擎爬虫的抓取范围进行自主调控,具体操作步骤如下:


  1. 登录 Shopify 管理后台

    使用商家账号登录 Shopify 店铺的管理页面。

  2. 进入主题编辑界面

    点击页面中的 “在线商店” 选项,随后选择 “主题”。在主题页面中,找到正在使用的 “实时主题” 板块,点击其旁边的 “操作” 按钮,并选择 “编辑代码”。

  3. 创建 robots.txt 模板

    在代码编辑界面左侧的文件目录中,找到 “模板” 部分,点击 “添加新模板”。此时会弹出一个选项框,将 “创建新模板用于” 的选项更改为 “robots.txt”,最后点击 “创建模板”。Shopify 会自动生成一个名为 “robots.txt.liquid” 的文件,这个文件包含了店铺默认的 robots.txt 规则。

  4. 编辑 robots.txt 内容

    在生成的 “robots.txt.liquid” 文件中,你可以根据实际需求修改规则。比如,若要阻止特定搜索引擎爬虫访问某个目录,可以添加类似 “Disallow: / 特定目录名 /” 的指令;若要添加网站地图链接,可使用 “Sitemap: https:// 你的域名 /sitemap.xml” 的格式进行添加。完成修改后,点击保存,新的规则便会生效。

2. 借助 Yoast 插件修改 WordPress 的 robots.txt


Yoast SEO 插件是 WordPress 生态中一款强大的 SEO 优化工具,利用它可以便捷地对 robots.txt 文件进行修改:


  1. 安装并激活 Yoast SEO 插件

    登录 WordPress 网站的后台管理界面,点击 “插件” 菜单,选择 “添加新插件”。在搜索框中输入 “Yoast SEO”,找到该插件后点击 “安装” 按钮,安装完成后再点击 “激活”。

  2. 进入文件编辑器

    在 WordPress 后台左侧菜单中点击 “Yoast SEO”,在展开的选项中选择 “工具”,然后点击 “文件编辑器”。若 WordPress 禁用了文件编辑功能,该菜单选项可能不会出现,此时需要先在服务器层面或通过主机提供商开启文件编辑权限。


  3. 编辑 robots.txt

    点击 “创建 robots.txt 文件” 按钮(若已存在该文件,则直接显示文件内容),Yoast SEO 会展示生成的默认 robots.txt 内容。在这里,你可以对文件进行编辑操作,例如添加或删除特定的 “Disallow”“Allow” 指令等。修改完成后,点击保存即可。

无论是WordPress 还是Shopify 只要修改了robots.txt要第一时间到谷歌GSC后台来更新,刷新看看是不是你更新的最新版本的robots.txt
本来robots.txt就是给谷歌蜘蛛看的,所以要确保最新版的文档要展示给蜘蛛,谷歌经常有24小时缓存,你要主动去刷新。
如下图是GSC后台截图:
SEO小平陪跑课学员的线上课程有详细视频告诉你们怎么操作。加我微信直接复制 Xiao_Ping_Up了解陪跑详情

下面SEO小平把robots.txt的复杂理论详细阐述在以下文章中:

一、基础规范:从命名到缓存的底层逻辑


1. 命名与位置:爬虫识别的 “门槛”


  • 命名规则

    文件名必须严格为小写的robots.txt,大小写错误(如Robots.TXT)会导致爬虫直接忽略文件内容,进而引发抓取失控。

  • 存储位置

    文件需放置在网站根目录(如https://example.com/robots.txt),子目录存储(如/pages/robots.txt)无效。此外,不同协议(HTTP/HTTPS)、主机名或子域名(如shop.example.com)需单独配置独立的 robots.txt 文件,避免规则冲突。

2. 路径与指令的大小写敏感机制


  • 路径匹配

    DisallowAllow指令中的 URL 路径区分大小写(如/folder//Folder/视为不同规则),错误的大小写会导致规则失效。

  • 爬虫名称匹配

    谷歌对User-agent值(如Googlebot)不区分大小写,但其他搜索引擎可能敏感,建议统一使用小写规范。

3. 缓存机制:修改生效的 “时间差”


  • 谷歌通常缓存 robots.txt 内容长达 24 小时,若遇服务器错误(如 5xx 状态码),缓存时间可能更长。

  • 可通过Cache-Control响应头的max-age指令调整缓存周期,或借助 Google Search Console(GSC)请求加速刷新。

二、核心指令:精准控制抓取行为的 “工具箱”


1. User-agent:定位目标爬虫


  • 通配符规则

    User-agent: *匹配所有遵守协议的爬虫,规则优先级低于具体爬虫声明(如Googlebot)。

  • 各种爬虫细分

    针对不同功能的谷歌爬虫(如Googlebot-Image负责图片抓取),可单独配置规则,实现精细化控制。

2. Disallow 与 Allow:禁止与放行的博弈


  • 禁止抓取

    Disallow: /可阻止指定爬虫访问全站;路径支持文件(如/private.html)、目录(如/admin/)或通配符模式(如/*?sessionid=*禁止含会话 ID 的 URL)。

  • 精准放行


3. 优先级逻辑:最长匹配与冲突解决
  • 路径长度优先

    当同一 URL 匹配多条规则时,路径前缀最长的规则生效。例如:Allow: /folder/page(长度 12)优于Disallow: /folder/(长度 8)。

  • 冲突处理

    若路径长度相同(如Allow: /pageDisallow: /page),谷歌遵循 “限制性最小” 原则,优先执行Allow

4. 通配符高级应用:* 与 $ 的组合艺术


  • 匹配任意字符

    可用于禁止含特定参数的 URL(如/*?color=阻止含颜色过滤参数的页面)或文件类型(如/*.pdf禁止所有 PDF 文件)。

  • 匹配路径结尾

    精准区分目录与文件(如Allow: /search/$仅允许根目录的search页面,排除/search/results.html)。


三、策略对比:robots.txt 与其他 SEO 工具的协同


抓取/索引控制方法对比表

控制方法
主要目的
实现位置
对抓取的影响
对索引的影响
谷歌SEO适用场景
robots.txt Disallow
阻止抓取
网站根目录 robots.txt 文件
阻止爬虫访问指定URL/路径
间接影响:可能仍被索引(无描述),但内容未被读取
管理抓取预算,阻止访问后台、测试区、重复参数URL;不用于阻止索引
noindex
 Meta标签
阻止索引
HTML页面的 <head> 部分
页面必须可抓取
明确阻止页面出现在搜索结果中
阻止HTML页面(如感谢页、低质量内容页)被索引,但允许爬虫读取页面
X-Robots-Tag: noindex
阻止索引
服务器HTTP响应头
资源必须可抓取
明确阻止资源(包括非HTML文件如PDF、图片)出现在搜索结果中
阻止非HTML文件被索引;对HTML页面也有效,可用于大规模应用或无法修改HTML头部的情况
rel="canonical"
 标签
指定首选URL,处理重复内容
HTML页面的 <head> 部分或HTTP响应头
页面必须可抓取
帮助谷歌整合相似页面的信号到首选URL,减少重复内容索引问题
处理因URL参数、打印版本等产生的重复或高度相似内容,将权重集中到规范版本


1. 与 noindex 的分工


注意:若页面在 robots.txt 中被Disallow,谷歌将无法读取其noindex标签,导致索引控制失效。

2. 与 Canonical 标签的互补

  • rel="canonical"

    用于整合重复内容的权重,需确保非规范页面可被抓取(即不被 robots.txt 阻止),否则标签无效。

  • 策略选择

    参数化 URL 若需保留链接信号,优先使用canonical;若需彻底阻止抓取,再用Disallow


四、实战场景:从参数处理到资源优化


1. 参数化 URL 管理


  • 会话 ID 与跟踪参数

    通过Disallow: /*?sessionid=/*?utm_source=阻止无价值参数页面。
  • 分面导航

    结合通配符(如/*?*color=)与canonical标签,保留核心过滤组合页面,屏蔽冗余参数组合。

2. 分页内容处理

  • 推荐策略

    索引第一页,后续页面使用noindex, follow,允许抓取以传递链接权重。
  • 避免误区

    禁止通过robots.txt阻止分页 URL,否则会阻断深层内容的发现路径。

3. 资源文件抓取策略

  • 核心原则

    允许抓取 CSS、JS 等渲染必需资源,避免谷歌无法正确解析页面内容。
  • 例外情况

    仅当资源为装饰性或非必要(如第三方跟踪脚本)时,可谨慎阻止。

在更广阔的SEO图景中的定位


五、通过 robots.txt 禁止抓取某个URL,并不能保证该URL不会被索引

如果谷歌通过其他途径(如外部链接、内部链接或站点地图)发现了这个被禁止抓取的URL,它仍然可能将该URL编入索引。正如女厕所有一个侧门,有一些男人从侧门进入了女厕所。这种情况下,由于谷歌未能抓取页面内容,搜索结果中通常不会显示该页面的描述,有时可能会显示URL本身或指向该页面的链接锚文本   

3.12 厦门coupang-文章页底部图片
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
26年澳洲情人节支出将达5.5亿澳元,消费意愿下降
AMZ123获悉,近日,根据澳大利亚零售协会(ARC)和Roy Morgan的最新调查,澳大利亚情人节的消费意愿出现明显下降,越来越多消费者在成本压力下减少对非必需品的支出,但参与者的平均支出仍保持稳定。调查显示,成本上涨正在持续影响家庭的可支配支出,许多家庭对非必需开支更加谨慎。今年仅有12%的澳大利亚成年人计划庆祝情人节,约为300万人,比去年下降4个百分点。与去年相比,计划为伴侣购买礼物的人数减少约80万人,主要原因是生活成本压力持续影响可自由支配支出。尽管参与人数下降,但澳大利亚情人节支出预计达到5.5亿澳元,较去年增长2.8%,人均支出约为152澳元。
Seedance2.0刷屏全网,TikTok卖家:红利来了!
字节正式发布Seedance2.0,TikTok卖家已经用上赚钱了!
月销数十万!这10个小众产品爆单亚马逊
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1.修复眼罩预计销售额:50万美元/月销量:5000+星级评分:4.3好评数量:8,505+图源:亚马逊产品介绍:该修复眼罩主要是专为眼部抗衰老与焕亮设计,通过缓释视黄醇成分有效减少细纹、改善皮肤饱满度,并针对性缓解黑眼圈与浮肿问题。产品采用融合海藻提取物、神经酰胺及脂肪酸的复合配方,能在夜间修复阶段滋养娇嫩眼周肌肤。适用于熬夜、疲劳或重要场合前的密集护理,亦可作为礼品。品牌介绍:Grace &amp; Stella是一家成立于2016年的品牌,以“创造美好时刻”为核心理念,致力于通过日常护理提升生活品质。
Jumia 25财年营收1.9亿美元,同比增长13%
AMZ123获悉,近日,非洲电商平台Jumia发布了截至2025年12月31日的全年及第四季度财报。Jumia在2025年实现了GMV和收入增长,预计2026年有望保持强劲增长。以下为Q4财务亮点:①营收为6140万美元,同比2024年第四季度的4570万美元增长34%,按固定汇率计算增长24%。②GMV为2.795亿美元,同比2024年第四季度的2.061亿美元增长36%,按固定汇率计算增长23%。剔除南非和突尼斯市场,实物商品GMV同比增长38%。③运营亏损为1060万美元,同比2024年第四季度的1730万美元下降39%,按固定汇率计算下降22%。
血亏500万,跨境“黄金搭档”正式散伙
这两天,跨境圈又冒出一条不太体面的公告。不是封号,不是裁员,而是一场曾被寄予厚望的上市公司级合作,正式宣告失败。1月23日,浙江永强发布公告,确认与跨境大卖傲基股份中止跨境电商合作。双方通过互相转让子公司股权,彻底清空交叉持股关系。一句话概括这段合作的结局:故事很完整,结果很现实。图源网络,侵删01从制造+跨境的理想模版,到体面分手时间回到2023年11月。当时的傲基,已经完成从3C铺货向家居、家具赛道的转型;而浙江永强,作为国内户外家具龙头,正寻找新的增长出口。
暴涨94%!25年TikTok Shop全球GMV达643亿美元
AMZ123获悉,近日,据Momentum的最新报告显示,2025年,美国仍是TikTokShop最大的市场,GMV达到151亿美元,同比增长68%,高于2024年的90亿美元。尽管增速不及2024年爆发式增长,但仍显示出强劲扩张势头,反映出TikTok Shop正在从初期试验阶段向系统化运营阶段过渡。全球范围内,TikTok Shop在16个市场的总GMV达到643亿美元,同比大幅增长94%。其中,东南亚市场依然是主要增长引擎,2025年东南亚地区GMV同比增长一倍,达到456亿美元。马来西亚、印尼和泰国的增长最为突出,其中印尼市场达到131亿美元,成为TikTok Shop全球第二大市场。
新一轮物流危机来袭,大批跨境货物滞留港口!
腊月尾声,年味渐浓,状况频出的物流难题却成为了横亘在卖家面前的一头“年兽”。随着全国主要港口拥堵、陆路运费疯涨的事态持续升温,物流延误焦虑正在跨境电商行业蔓延。AMZ123了解到,春节前夕历来是跨境电商的出货高峰期——在国外不停卖、国内要放假、物流时效长、怕平台断货等多重因素的叠加影响下,大批卖家通常会抢在节前集中把货物发出。但在今年,这一出货高峰期带来的连锁效应格外汹涌。据物流人士透露,2026年2月,上海、宁波、盐田、南沙等主要港口都进入了超负荷运行状态,出现严重爆仓、收箱收紧等情况,导致大量卖家货物堆积在码头,面临甩柜率高企的风险。
亚马逊竞品分析后应该做什么?竞品分析目标确定
对于亚马逊卖家而言,竞品分析不是一次性的调研动作,而是贯穿产品运营全周期的决策依据。完成数据采集与对比后,核心问题转化为:如何基于分析结果锚定精准目标,并落地为可执行的运营动作?本文将从目标锚定与行动拆解两个维度,为卖家提供严谨的操作框架。一、锚定竞品分析的三大核心目标竞品分析的价值,在于从海量数据中提炼可落地的运营方向,需聚焦三大核心目标:量化差距,明确竞争定位通过价格、评论数量、评价等级、品类排名等基础维度,完成自身商品与竞品的量化对标,定位自身在竞争格局中的位置,识别核心优劣势,为后续流量布局与转化优化提供基础依据。
巨额年终奖!跨境公司给员工发了200万
每逢年关,跨境打工人们总是格外悲喜交集。喜的是,春节假期、年终奖的发放近在咫尺,终于即将迎来“歇一口气”的休憩时间;悲的是,同样是辛勤奋战一年,有人硕果累累,喜提巨额年终奖,亦有人一无所获,铩羽而归。根据AMZ123此前发起的一项调查,今年约有68%的跨境打工人预计自己拿不到年终奖,32%能拿到年终奖的跨境打工人中,有22%的年终奖折算月薪在1至3个月区间。在一众感慨行业年终奖缩水的讨论中,深圳一家跨境企业发放巨额奖金的消息格外显眼。AMZ123获悉,这两天,#年终奖#、#原来你们真有年终奖啊# 等话题相继登上了热搜。其中,深圳3D打印公司员工最高拿到200万元年终奖的消息被多家媒体争相报道,成为了热议焦点。
浙江永强与傲基合作宣布终止,双方亏损近500万!
AMZ123获悉,近日,据媒体报道,上市公司浙江永强与跨境电商大卖傲基股份的业务合作宣布终止。双方通过相互转让持有的合资公司股权,解除了为期两年多的交叉持股关系,最终以合资公司经营亏损近500万元的结果黯然落幕。回溯至2023年11月,双方曾以优势互补的理念签署《投资合作协议》。彼时,浙江永强希望借助傲基成熟的海外渠道与运营经验,突破品牌出海壁垒;而傲基则看中了浙江永强背后稳定、优质的供应链与产能,以解决其产品开发与供货的痛点。
小众清洁神器在TikTok逆袭,20多天卖了近百万!
距离新冠疫情这一公共卫生安全危机过去已经快2年时间,属于那段经历的回忆或许正在远去,但缘起的健康卫生意识,大部分民众保留至今。后口罩时代,民众对清洁的认知不再仅仅停留于“表面功夫”,TikTok上随处可见的卫生科普,敦促着民众深入微观层面处,在狭小缝隙间寻找清洁死角,这一市场需求被不少商机敏感型卖家捕捉,并精准变现。01全美热议的清洁“主理人”近期,TT123发现,一款主打超声波清洁的新品,冲上了TikTok美区家电大类的热销榜。
欧洲站KYC审核已升级,新增“纳税证明”成必要材料
01.欧洲KYC审核再升级各位欧洲站卖家请注意,亚马逊平台合规的“紧箍咒”正在进一步收紧。
平均1.1小时!TikTok Shop客服响应速度要求最短
AMZ123获悉,近日,eDesk的最新研究显示,随着TikTok Shop从“流量型平台”快速演变为成熟的电商渠道,消费者期望获得的TikTok卖家客服响应速度,几乎是亚马逊平台的 4 倍,这一变化正在重塑卖家的运营与服务模式。调查指出,TikTok的发现式电商的快速增长为品牌带来了新的盈利机会,但也带来了现实挑战。商品销售速度不断加快的同时,售后与客服支持能力却难以同步提升。在这一高节奏环境下,消费者对响应速度的要求明显高于传统电商平台。eDesk通过分析数千条买卖双方的沟通记录,对 TikTok Shop、亚马逊和 eBay 用户的客服响应预期进行了对比。
亚马逊英国推出银行账户支付方式
Fin123获悉,近日,亚马逊宣布,在英国站点 amazon.co.uk 正式推出全新的支付方式“Pay by Bank”。该服务允许消费者直接通过英国银行账户完成购物支付,无需使用银行卡,未来还将支持Prime会员订阅费用支付。据悉,Pay by Bank是一种无需输入或存储银行卡信息的支付方式。该服务通过在客户与其银行之间建立安全连接来完成交易。支付过程中,安全验证依托用户自身的手机银行应用程序,通过生物识别或PIN码验证完成授权。这种方式能够保护用户的财务信息,并让消费者对每一笔交易拥有直接控制权。在退款方面,Pay by Bank也提升了效率。
价值数千万元货物滞留美国仓库!跨境物流再暴雷
AMZ123获悉,近日,据媒体报道,一则关于跨境物流企业疑似暴雷的消息在卖家圈内持续发酵。据悉,涉事企业为深圳星*跨境供应链有限公司,其在美国加州、休斯顿和新泽西运营的多个海外仓目前已陷入停滞,导致大量货物滞留海外。初步估算,受影响货物总值达数千万元,其中个别卖家积压货值高达1500万元。当部分卖家前往该公司位于深圳的办公地寻求解决方案时,发现其已人去楼空,该公司的负责人及核心团队均无法取得联系。在此之前,该公司客服曾一度维持有限回应,声称每日处理约千笔订单,但卖家后续核查发现,实际仅有约30%的订单有初步物流信息,其余均无下文,最终连客服也彻底失联。
《中企出海美国季度研究报告》PDF下载
近年来,随着全球化进程的深化与中国经济实力的持续提升,越来越多的中国企业将目光投向海外市场。美国作为全球最大经济体创新高地和消费市场,始终是中企出海战略中的关键目标。从制造业到科技领域,从消费品到金融服务,中国企业的国际化步伐不断加快,既彰显了“中国智造”的全球竞争力,也面临复杂的政策环境、文化差异与市场竞争等挑战。
《跨境蓝海拉美市场洞察 - 墨西哥篇》PDF下载
墨西哥位于北美大陆南部,北邻美国,政局稳定,法律健全,是拉丁美洲地区第一贸易大国和重要的外国直接投资目的地。墨西哥拥有 1.28亿人口,是仅次于巴西的拉美第二大经济体,同时也是拉美第三大线上零售市场,无论是互联网的普及率还是使用率在拉美市场都处于佼佼者。
《东南亚出海合规实操指南手册》PDF下载
近年来,东南亚电商市场以迅猛的增长态势成为全球贸易的新蓝海,印尼马来西亚、新加坡等六国凭借庞大的人口基数、持续提升的互联网渗透率吸引着无数中国卖家前来布局。
《2025中国新能源汽车产业链出海洞察报告 - 匈牙利篇》PDF下载
中国汽车市场新能源汽车渗透率已达50%,各主机厂纷纷开启价格战,让利消费者,并承担相应的利润损失,在中国新能源汽车市场逐渐成为红海的的大背景下,海逐渐成为各主机厂主动或被动的选择。
《2024哥伦比亚电商市场概览报告》PDF下载
哥伦比亚位于南美洲西北部,是拉丁美洲第三大国家,北部是加勒比海,东部与委内瑞拉接壤,东南方是巴西,南方是秘鲁和厄瓜多尔,西部是巴拿马和太平洋。

《2026独立站卖家日历》PDF下载
2026 独立站卖家日历 2026 全年营销节奏
《2025中东北非消费者数字经济报告》PDF下载
2025年的报告不仅持续跟踪数字经济的同比增长,也更深入:我们探讨了新兴技术对下一波数字化转型的影响力,还首次将中东北非国家及地区的消费者行为偏好与全球其他市场进行对比。
《2025年终大促旺季AI消费趋势报告》PDF下载
随着人工智能 AI的爆发式增长,如 ChatGPT、Perplexity 和Llama等交互式聊天机器人正在渐渐成为大众研究和推荐的首选工具。根据 AI智能体功能的更新迭代,目前已经可以完成网购下单、预订服务、及交易支付,现已被统称为 AI智能体电商Agentic Commerce,且其采用率正呈现出滚雪球式的增长。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
AMZ123选品观察员
选品推荐及选品技巧分享。
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
AMZ123卖家导航
这个人很懒,还没有自我介绍
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
首页
跨境头条
文章详情
撞见女厕所的男人,谁在笑,谁在叫,详解 robots.txt 规则
谷歌SEO小平
2025-05-21 08:10
1750
当尖叫与奸笑撕破女厕所的平静 —— 是标识牌误导让老实人误入歧途?还是法外狂徒硬闯?

你的独立站 robots.txt 正面临和 【厕所指示牌】同样困境:爬虫大军中混杂着迷路的「误闯者」也有蓄谋已久的「偷窥狂」。

你的独立站 robots.txt 文档就好像是一个厕所的指示牌,告诉了男人们进哪一边,女人们进哪一边。但是你可能把这个标识牌写错了,导致男人们走错路跑到了女厕所。 另外,也有可能是指示牌是正确的,遇到一个根本不遵守指示牌指引的流氓故意硬闯进来的。
当谷歌,Bing ,Yandex这些正规的搜索引擎进入网站,搜索引擎的爬虫蜘蛛进入你的网站第一个访问的文档就是 robots.txt ,他们会根据robots.txt 指引的规则路线来爬取你的网站。
当黑客,或者暴力蜘蛛进入你网站,他根本不会看你的robots.txt 指引,直接开始他的猖狂行为。这种情况独立站运营是毫无办法的,除非给你造成重大损失,此时只能搜集证据,告上法庭。看下面的案例,百度都拿这种情况没办法,只能告他。

既然流氓我们只能告他,那我们该怎么防止老实人【误闯禁区】呢?robots这么重要,作为独立站运营我们该怎么编辑这个文档,怎么规定爬行规则。今天SEO小平就详细给你分析robots的全面知识。

怎么修改网站的 robots.xtx 文档


分2部分 Shopify 与 WordPress(Yoast)的路径指南


1. Shopify 平台的 robots.txt 修改流程


Shopify 为商家提供了编辑 robots.txt 文件的功能,以此对搜索引擎爬虫的抓取范围进行自主调控,具体操作步骤如下:


  1. 登录 Shopify 管理后台

    使用商家账号登录 Shopify 店铺的管理页面。

  2. 进入主题编辑界面

    点击页面中的 “在线商店” 选项,随后选择 “主题”。在主题页面中,找到正在使用的 “实时主题” 板块,点击其旁边的 “操作” 按钮,并选择 “编辑代码”。

  3. 创建 robots.txt 模板

    在代码编辑界面左侧的文件目录中,找到 “模板” 部分,点击 “添加新模板”。此时会弹出一个选项框,将 “创建新模板用于” 的选项更改为 “robots.txt”,最后点击 “创建模板”。Shopify 会自动生成一个名为 “robots.txt.liquid” 的文件,这个文件包含了店铺默认的 robots.txt 规则。

  4. 编辑 robots.txt 内容

    在生成的 “robots.txt.liquid” 文件中,你可以根据实际需求修改规则。比如,若要阻止特定搜索引擎爬虫访问某个目录,可以添加类似 “Disallow: / 特定目录名 /” 的指令;若要添加网站地图链接,可使用 “Sitemap: https:// 你的域名 /sitemap.xml” 的格式进行添加。完成修改后,点击保存,新的规则便会生效。

2. 借助 Yoast 插件修改 WordPress 的 robots.txt


Yoast SEO 插件是 WordPress 生态中一款强大的 SEO 优化工具,利用它可以便捷地对 robots.txt 文件进行修改:


  1. 安装并激活 Yoast SEO 插件

    登录 WordPress 网站的后台管理界面,点击 “插件” 菜单,选择 “添加新插件”。在搜索框中输入 “Yoast SEO”,找到该插件后点击 “安装” 按钮,安装完成后再点击 “激活”。

  2. 进入文件编辑器

    在 WordPress 后台左侧菜单中点击 “Yoast SEO”,在展开的选项中选择 “工具”,然后点击 “文件编辑器”。若 WordPress 禁用了文件编辑功能,该菜单选项可能不会出现,此时需要先在服务器层面或通过主机提供商开启文件编辑权限。


  3. 编辑 robots.txt

    点击 “创建 robots.txt 文件” 按钮(若已存在该文件,则直接显示文件内容),Yoast SEO 会展示生成的默认 robots.txt 内容。在这里,你可以对文件进行编辑操作,例如添加或删除特定的 “Disallow”“Allow” 指令等。修改完成后,点击保存即可。

无论是WordPress 还是Shopify 只要修改了robots.txt要第一时间到谷歌GSC后台来更新,刷新看看是不是你更新的最新版本的robots.txt
本来robots.txt就是给谷歌蜘蛛看的,所以要确保最新版的文档要展示给蜘蛛,谷歌经常有24小时缓存,你要主动去刷新。
如下图是GSC后台截图:
SEO小平陪跑课学员的线上课程有详细视频告诉你们怎么操作。加我微信直接复制 Xiao_Ping_Up了解陪跑详情

下面SEO小平把robots.txt的复杂理论详细阐述在以下文章中:

一、基础规范:从命名到缓存的底层逻辑


1. 命名与位置:爬虫识别的 “门槛”


  • 命名规则

    文件名必须严格为小写的robots.txt,大小写错误(如Robots.TXT)会导致爬虫直接忽略文件内容,进而引发抓取失控。

  • 存储位置

    文件需放置在网站根目录(如https://example.com/robots.txt),子目录存储(如/pages/robots.txt)无效。此外,不同协议(HTTP/HTTPS)、主机名或子域名(如shop.example.com)需单独配置独立的 robots.txt 文件,避免规则冲突。

2. 路径与指令的大小写敏感机制


  • 路径匹配

    DisallowAllow指令中的 URL 路径区分大小写(如/folder//Folder/视为不同规则),错误的大小写会导致规则失效。

  • 爬虫名称匹配

    谷歌对User-agent值(如Googlebot)不区分大小写,但其他搜索引擎可能敏感,建议统一使用小写规范。

3. 缓存机制:修改生效的 “时间差”


  • 谷歌通常缓存 robots.txt 内容长达 24 小时,若遇服务器错误(如 5xx 状态码),缓存时间可能更长。

  • 可通过Cache-Control响应头的max-age指令调整缓存周期,或借助 Google Search Console(GSC)请求加速刷新。

二、核心指令:精准控制抓取行为的 “工具箱”


1. User-agent:定位目标爬虫


  • 通配符规则

    User-agent: *匹配所有遵守协议的爬虫,规则优先级低于具体爬虫声明(如Googlebot)。

  • 各种爬虫细分

    针对不同功能的谷歌爬虫(如Googlebot-Image负责图片抓取),可单独配置规则,实现精细化控制。

2. Disallow 与 Allow:禁止与放行的博弈


  • 禁止抓取

    Disallow: /可阻止指定爬虫访问全站;路径支持文件(如/private.html)、目录(如/admin/)或通配符模式(如/*?sessionid=*禁止含会话 ID 的 URL)。

  • 精准放行


3. 优先级逻辑:最长匹配与冲突解决
  • 路径长度优先

    当同一 URL 匹配多条规则时,路径前缀最长的规则生效。例如:Allow: /folder/page(长度 12)优于Disallow: /folder/(长度 8)。

  • 冲突处理

    若路径长度相同(如Allow: /pageDisallow: /page),谷歌遵循 “限制性最小” 原则,优先执行Allow

4. 通配符高级应用:* 与 $ 的组合艺术


  • 匹配任意字符

    可用于禁止含特定参数的 URL(如/*?color=阻止含颜色过滤参数的页面)或文件类型(如/*.pdf禁止所有 PDF 文件)。

  • 匹配路径结尾

    精准区分目录与文件(如Allow: /search/$仅允许根目录的search页面,排除/search/results.html)。


三、策略对比:robots.txt 与其他 SEO 工具的协同


抓取/索引控制方法对比表

控制方法
主要目的
实现位置
对抓取的影响
对索引的影响
谷歌SEO适用场景
robots.txt Disallow
阻止抓取
网站根目录 robots.txt 文件
阻止爬虫访问指定URL/路径
间接影响:可能仍被索引(无描述),但内容未被读取
管理抓取预算,阻止访问后台、测试区、重复参数URL;不用于阻止索引
noindex
 Meta标签
阻止索引
HTML页面的 <head> 部分
页面必须可抓取
明确阻止页面出现在搜索结果中
阻止HTML页面(如感谢页、低质量内容页)被索引,但允许爬虫读取页面
X-Robots-Tag: noindex
阻止索引
服务器HTTP响应头
资源必须可抓取
明确阻止资源(包括非HTML文件如PDF、图片)出现在搜索结果中
阻止非HTML文件被索引;对HTML页面也有效,可用于大规模应用或无法修改HTML头部的情况
rel="canonical"
 标签
指定首选URL,处理重复内容
HTML页面的 <head> 部分或HTTP响应头
页面必须可抓取
帮助谷歌整合相似页面的信号到首选URL,减少重复内容索引问题
处理因URL参数、打印版本等产生的重复或高度相似内容,将权重集中到规范版本


1. 与 noindex 的分工


注意:若页面在 robots.txt 中被Disallow,谷歌将无法读取其noindex标签,导致索引控制失效。

2. 与 Canonical 标签的互补

  • rel="canonical"

    用于整合重复内容的权重,需确保非规范页面可被抓取(即不被 robots.txt 阻止),否则标签无效。

  • 策略选择

    参数化 URL 若需保留链接信号,优先使用canonical;若需彻底阻止抓取,再用Disallow


四、实战场景:从参数处理到资源优化


1. 参数化 URL 管理


  • 会话 ID 与跟踪参数

    通过Disallow: /*?sessionid=/*?utm_source=阻止无价值参数页面。
  • 分面导航

    结合通配符(如/*?*color=)与canonical标签,保留核心过滤组合页面,屏蔽冗余参数组合。

2. 分页内容处理

  • 推荐策略

    索引第一页,后续页面使用noindex, follow,允许抓取以传递链接权重。
  • 避免误区

    禁止通过robots.txt阻止分页 URL,否则会阻断深层内容的发现路径。

3. 资源文件抓取策略

  • 核心原则

    允许抓取 CSS、JS 等渲染必需资源,避免谷歌无法正确解析页面内容。
  • 例外情况

    仅当资源为装饰性或非必要(如第三方跟踪脚本)时,可谨慎阻止。

在更广阔的SEO图景中的定位


五、通过 robots.txt 禁止抓取某个URL,并不能保证该URL不会被索引

如果谷歌通过其他途径(如外部链接、内部链接或站点地图)发现了这个被禁止抓取的URL,它仍然可能将该URL编入索引。正如女厕所有一个侧门,有一些男人从侧门进入了女厕所。这种情况下,由于谷歌未能抓取页面内容,搜索结果中通常不会显示该页面的描述,有时可能会显示URL本身或指向该页面的链接锚文本   

1
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部