robots.txt生成器/验证器

📖 使用说明

一、什么是 robots.txt？

robots.txt 是放置在网站根目录下的纯文本文件（如 https://example.com/robots.txt），用于告诉搜索引擎爬虫哪些页面可以抓取、哪些页面应该忽略。它是 Robots Exclusion Protocol（机器人排除协议）的一部分，是 SEO 技术优化的基础文件之一。

二、robots.txt 指令详解

指令	语法	说明
User-agent	`User-agent: *`	指定规则适用的爬虫。`*` 代表所有爬虫，也可指定如 `Googlebot`、`Bingbot` 等
Disallow	`Disallow: /admin/`	禁止抓取指定路径。`/` 禁止所有页面，留空则允许所有
Allow	`Allow: /admin/public/`	在 Disallow 的基础上，允许抓取特定子路径（Google/Bing 支持）
Sitemap	`Sitemap: https://...`	告知搜索引擎 sitemap 文件的位置，必须使用完整 URL
Crawl-delay	`Crawl-delay: 10`	要求爬虫在两次请求之间等待的秒数（Bing/Yandex 支持，Google 不支持）
Host	`Host: example.com`	指定网站的首选域名（仅 Yandex 支持）

三、通配符用法

            * — 匹配任意字符序列。如 Disallow: /*.pdf$ 屏蔽所有 PDF 文件

            $ — 匹配 URL 结尾。如 Disallow: /page$ 仅屏蔽 /page 但不屏蔽 /page/sub

            注意：通配符 * 和 $ 仅 Google 和 Bing 支持，不是标准 robots.txt 规范的一部分。

四、生成器使用方法

快速预设：选择预设模板（标准、WordPress、电商等），自动填充常用配置，然后按需修改。
规则组：每个 User-agent 可配置多条 Allow/Disallow 规则和 Crawl-delay。可添加多个 User-agent 规则组。
Sitemap：填写 sitemap.xml 的完整 URL。可添加多个 Sitemap 地址。
生成后可一键复制代码，上传到网站根目录即可。

五、验证器功能

URL 验证：输入域名或网址，自动抓取该站的 robots.txt 并分析。
粘贴验证：直接粘贴 robots.txt 内容进行分析。
逐行解析：每一行规则都会标注其含义、是否有语法问题、潜在的 SEO 风险。
URL 测试：验证后可测试任意 URL 路径是否会被屏蔽。

六、常见 User-agent 标识

User-agent	对应搜索引擎
`*`	所有爬虫（通配符）
`Googlebot`	Google 网页搜索
`Googlebot-Image`	Google 图片搜索
`Bingbot`	Bing 搜索
`Slurp`	Yahoo 搜索
`DuckDuckBot`	DuckDuckGo 搜索
`Baiduspider`	百度搜索
`YandexBot`	Yandex 搜索
`facebot`	Facebook 爬虫
`Twitterbot`	Twitter/X 爬虫
`GPTBot`	OpenAI GPT 爬虫
`ChatGPT-User`	ChatGPT 浏览功能
`Claude-Web`	Anthropic Claude 爬虫
`CCBot`	Common Crawl 爬虫

七、最佳实践

robots.txt 必须放在域名根目录：https://example.com/robots.txt
robots.txt 只是"建议"而非强制，恶意爬虫可能不遵守
不要用 robots.txt 隐藏敏感信息，应使用密码保护或 noindex 标签
Disallow 不等于 noindex — 被屏蔽的 URL 仍可能出现在搜索结果中（如有外链指向）
避免屏蔽 CSS/JS 文件，Google 需要渲染页面来理解内容
Sitemap 地址必须使用完整的绝对 URL（包含 https://）
修改 robots.txt 后，可在 Google Search Console 中使用"robots.txt 测试工具"验证
每个 User-agent 块之间应有空行分隔

八、常见错误

Disallow: / 用于所有爬虫 — 这会屏蔽整个网站，除非你确定这就是目的
路径不以 / 开头 — 所有路径必须以 / 开头才有效
Sitemap 使用相对路径 — Sitemap 必须使用完整的 https:// 绝对 URL
文件编码非 UTF-8 — robots.txt 应使用 UTF-8 编码
文件不在根目录 — 只有根目录的 robots.txt 才会被识别

使用教程：如何生成robots.txt文件

第1步：选择爬虫规则

设置允许或禁止Googlebot、Bingbot等搜索引擎爬虫的访问路径。

第2步：添加Disallow规则

添加需要屏蔽的目录路径，如/admin/、/private/等。

第3步：声明Sitemap地址

填入XML Sitemap的完整URL地址。

第4步：生成并下载

预览生成的robots.txt内容，下载后上传到网站根目录。

常见问题

1. robots.txt放在哪里？

必须放在网站根目录，即https://example.com/robots.txt。

2. robots.txt能阻止页面被索引吗？

不能。它只阻止抓取，不阻止索引。要阻止索引需使用noindex标签。

3. Crawl-delay有用吗？

Google忽略Crawl-delay，但Bing和Yandex会遵守。

4. 每个爬虫需要单独设置吗？

可以用User-agent: *统一设置，也可以为特定爬虫单独配置。

5. 修改robots.txt多久生效？

搜索引擎通常几小时到几天内重新读取，可在Search Console中提交加速。

robots.txt 生成器 / 验证器