robots.txt 生成器 / 验证器

生成、验证、测试 robots.txt 文件
🔧 生成器
✅ 验证器
快速预设模板
选择一个预设模板快速开始,然后按需修改
📄 标准配置 🟢 允许全部 🔴 屏蔽全部 📝 WordPress 🛒 电商网站 ⚡ SPA/JS 应用
爬虫规则配置
Sitemap 地址
某些搜索引擎(如 Yandex)支持 Host 指令
部分爬虫支持,控制抓取间隔

📖 使用说明

一、什么是 robots.txt?

robots.txt 是放置在网站根目录下的纯文本文件(如 https://example.com/robots.txt),用于告诉搜索引擎爬虫哪些页面可以抓取、哪些页面应该忽略。它是 Robots Exclusion Protocol(机器人排除协议)的一部分,是 SEO 技术优化的基础文件之一。

二、robots.txt 指令详解

指令语法说明
User-agentUser-agent: *指定规则适用的爬虫。* 代表所有爬虫,也可指定如 GooglebotBingbot
DisallowDisallow: /admin/禁止抓取指定路径。/ 禁止所有页面,留空则允许所有
AllowAllow: /admin/public/在 Disallow 的基础上,允许抓取特定子路径(Google/Bing 支持)
SitemapSitemap: https://...告知搜索引擎 sitemap 文件的位置,必须使用完整 URL
Crawl-delayCrawl-delay: 10要求爬虫在两次请求之间等待的秒数(Bing/Yandex 支持,Google 不支持)
HostHost: example.com指定网站的首选域名(仅 Yandex 支持)

三、通配符用法

* — 匹配任意字符序列。如 Disallow: /*.pdf$ 屏蔽所有 PDF 文件
$ — 匹配 URL 结尾。如 Disallow: /page$ 仅屏蔽 /page 但不屏蔽 /page/sub
注意:通配符 *$ 仅 Google 和 Bing 支持,不是标准 robots.txt 规范的一部分。

四、生成器使用方法

五、验证器功能

六、常见 User-agent 标识

User-agent对应搜索引擎
*所有爬虫(通配符)
GooglebotGoogle 网页搜索
Googlebot-ImageGoogle 图片搜索
BingbotBing 搜索
SlurpYahoo 搜索
DuckDuckBotDuckDuckGo 搜索
Baiduspider百度搜索
YandexBotYandex 搜索
facebotFacebook 爬虫
TwitterbotTwitter/X 爬虫
GPTBotOpenAI GPT 爬虫
ChatGPT-UserChatGPT 浏览功能
Claude-WebAnthropic Claude 爬虫
CCBotCommon Crawl 爬虫

七、最佳实践

八、常见错误

使用教程:如何生成robots.txt文件

第1步:选择爬虫规则

设置允许或禁止Googlebot、Bingbot等搜索引擎爬虫的访问路径。

第2步:添加Disallow规则

添加需要屏蔽的目录路径,如/admin/、/private/等。

第3步:声明Sitemap地址

填入XML Sitemap的完整URL地址。

第4步:生成并下载

预览生成的robots.txt内容,下载后上传到网站根目录。

常见问题

1. robots.txt放在哪里?

必须放在网站根目录,即https://example.com/robots.txt。

2. robots.txt能阻止页面被索引吗?

不能。它只阻止抓取,不阻止索引。要阻止索引需使用noindex标签。

3. Crawl-delay有用吗?

Google忽略Crawl-delay,但Bing和Yandex会遵守。

4. 每个爬虫需要单独设置吗?

可以用User-agent: *统一设置,也可以为特定爬虫单独配置。

5. 修改robots.txt多久生效?

搜索引擎通常几小时到几天内重新读取,可在Search Console中提交加速。