本工具集成了 robots.txt 生成器、验证器和 URL 路径测试器三大功能。生成器提供 6 种预设模板,支持多 User-agent 规则组配置;验证器可逐行分析语法和规则含义;URL 测试器可检测任意路径是否会被屏蔽。
手写 robots.txt 容易出现语法错误(如路径不以 / 开头、Disallow 在 User-agent 之前等)。6 种预设模板覆盖常见场景,可视化配置界面避免语法错误。
逐行分析每条规则的含义,标记语法错误、潜在风险(如 Disallow: / 屏蔽全站)和缺失项(如无 Sitemap 声明)。
输入 User-agent 和 URL 路径,实时测试该路径是否会被屏蔽,采用与 Google 一致的最长匹配规则。
标准配置、允许全部、屏蔽全部、WordPress、电商网站、SPA/JS 应用。每种预设可在基础上继续修改。
支持 URL 抓取和粘贴内容两种方式。每行规则标注颜色和类型,解释其含义,检测 20+ 种已知爬虫标识。
支持通配符 * 和 $ 的路径匹配,模拟 Google 的实际匹配逻辑。
选择适合你网站类型的预设模板(WordPress/电商/SPA),修改后生成 robots.txt,上传到网站根目录。
输入客户网站的域名,自动抓取并分析其 robots.txt,找出可能阻止搜索引擎抓取重要页面的规则。
越来越多的网站需要屏蔽 GPTBot、CCBot 等 AI 爬虫。SPA 预设已包含这些规则,也可手动添加。
当页面未出现在 Google 中时,检查 robots.txt 是否意外屏蔽了该路径。
Disallow 阻止抓取但不阻止索引——有外链指向时 Google 仍可能显示该 URL。noindex 明确阻止索引。要完全从搜索结果移除页面应使用 noindex 而非仅靠 robots.txt。
Google 通常在 24 小时到几天内重新抓取 robots.txt。可在 Search Console 中提交文件来加速。Bing 也提供类似功能。
取决于内容策略。屏蔽 GPTBot、CCBot 等可防止内容被用于 AI 训练,但可能影响在 AI 搜索结果(ChatGPT、Perplexity)中的展示。
Google 完全忽略 Crawl-delay,应在 Search Console 中设置抓取速率。Bing 和 Yandex 仍然遵守此指令。设置过大的延迟(如 30 秒以上)会严重减慢这些搜索引擎的索引速度。
Disallow: / 屏蔽所有爬虫对所有页面的抓取,等于对搜索引擎关闭整个网站。空的 robots.txt 或 Disallow: 留空则允许抓取所有页面。这是开发者最常犯的灾难性错误之一。
不是。* 和 $ 通配符只有 Google 和 Bing 支持,不是标准 robots.txt 规范的一部分。其他搜索引擎(如 Yandex)可能不识别这些通配符,建议重要规则不要依赖通配符。
Google 限制 robots.txt 最大 500KB,超出部分会被视为允许抓取。正常情况下 robots.txt 很难超过这个限制,但某些工具生成的超长规则列表需要注意。