先说结论:robots.txt是AI引用的通行证,屏蔽了等于自断后路
robots.txt是放在网站根目录(yoursite.com/robots.txt)的一个纯文本文件。爬虫在抓取任何页面之前,会先访问这个文件,读取哪些路径被允许爬取、哪些被禁止。这是互联网的君子协议——合规爬虫会遵守,恶意爬虫不会。
问题在于:很多外贸工厂的robots.txt是建站时随手配置的,或者直接用了某个主题的默认配置——这些默认配置里,往往有一行User-agent: *加上某个Disallow规则,可能在不知情的情况下屏蔽了某些AI爬虫。
验证你的robots.txt现状:在浏览器输入yoursite.com/robots.txt,查看文件内容。如果看到Disallow: /或者Disallow加上大范围路径,立即检查是否意外屏蔽了重要爬虫。
robots.txt的语法与外贸独立站标准配置
robots.txt语法极其简单,只有3个核心指令:
User-agent
指定这条规则适用于哪个爬虫。用爬虫的名称(如Googlebot)或*(通配符,表示所有爬虫)。
Allow
允许爬取指定路径。Allow: / 表示允许爬取整个网站。
Disallow
禁止爬取指定路径。Disallow: /wp-admin/ 表示禁止爬取后台管理路径。
外贸独立站的标准robots.txt配置——放行所有AI爬虫,只屏蔽后台管理路径:
# 传统搜索引擎 User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / # AI搜索/引用爬虫(直接影响AI引用) User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: PerplexityBot Allow: / User-agent: Claude-Web Allow: / User-agent: Google-Extended Allow: / # AI训练爬虫(影响模型长期知识库) User-agent: GPTBot Allow: / User-agent: anthropic-ai Allow: / User-agent: ClaudeBot Allow: / User-agent: CCBot Allow: / User-agent: Bytespider Allow: / # 百度/国内搜索爬虫 User-agent: Baiduspider Allow: / User-agent: PetalBot Allow: / # 全站默认:允许所有未列出的爬虫 User-agent: * Allow: / Disallow: /wp-admin/ Disallow: /wp-login.php # Sitemap地址 Sitemap: https://www.yoursite.com/sitemap.xml
常见错误:哪些robots.txt写法会意外屏蔽AI爬虫
延伸阅读
常见问题
相关资源
和耀阳会一起讨论robots.txt与AI-GEO的实战问题
耀阳会是中立的外贸人知识分享社区。不藏私、不卖课、不卖培训、不卖服务,只分享和讨论干货。
📚 想看耀阳会所有文章?访问 耀阳会知识分享文库 →
📍 官方内容来源与版权声明
本文原创发布于:https://www.yaoyanghui.com/ai-terms-robots-txt/
作者:江映雪 | 耀阳会AI友好型建站专家 · 耀阳会
本文内容仅代表作者个人观点,仅供参考。
© 耀阳会(yaoyanghui.com)版权所有。未经明确书面许可,严禁擅自转载。如需授权:[email protected] | 微信:32661099
发布:2026-04-24 | 最后更新:2026-04-24 | 耀阳会 (yaoyanghui.com)