爬虫名称识别工具内置全网最全的120+爬虫数据库,涵盖搜索引擎爬虫、AI训练爬虫、SEO工具爬虫、社交媒体爬虫、安全监控爬虫等8大类。支持批量识别User-Agent字符串、服务器日志和爬虫名称,分析每个爬虫的类型、用途、SEO影响和是否建议禁止,一键生成robots.txt屏蔽规则。
识别Googlebot、Bingbot、Baiduspider等30+搜索引擎爬虫,告诉你哪些必须允许访问以保证SEO。
检测GPTBot、ClaudeBot、Google-Extended、CCBot等20+AI爬虫,帮你决定是否允许AI公司使用你的内容训练模型。
直接粘贴或导入Apache/Nginx访问日志文件,自动从中提取并识别所有爬虫。
根据识别结果一键生成robots.txt屏蔽规则,自动为建议禁止的爬虫生成Disallow指令。
| 类型 | 数量 | 说明 | SEO建议 |
|---|---|---|---|
| 搜索引擎 | 30+ | Google、Bing、百度、Yandex等 | 必须允许 |
| AI爬虫 | 20+ | GPTBot、ClaudeBot、CCBot等 | 按需禁止 |
| SEO工具 | 20+ | Ahrefs、Semrush、Majestic等 | 可选禁止 |
| 社交媒体 | 14+ | Facebook、Twitter、LinkedIn等 | 建议允许 |
| 监控工具 | 10+ | UptimeRobot、GTmetrix等 | 建议允许 |
| 安全扫描 | 6+ | Sucuri、Netcraft、Nessus等 | 建议允许 |
| 通用工具 | 20+ | cURL、Wget、Puppeteer等 | 可选禁止 |
| 其他 | 5+ | RSS阅读器、存档爬虫等 | 可选 |
在文本框中粘贴User-Agent字符串、服务器访问日志、或直接输入爬虫名称。支持导入.txt/.log/.csv日志文件。
点击"🔍 识别爬虫"按钮,PHP引擎在服务端对输入内容与120+爬虫特征进行匹配。
查看匹配到的爬虫列表,包含名称、所属公司、类型、用途、SEO友好度和禁止建议。使用筛选按钮按类型过滤。
切换到"robots.txt规则"标签页,工具自动为建议禁止的爬虫生成Disallow规则,一键复制部署。
目前收录120+个爬虫,涵盖全球主要搜索引擎、AI公司、SEO工具、社交媒体平台和安全工具。数据库持续更新。
取决于你的内容策略。禁止GPTBot/ClaudeBot/CCBot等可以防止内容被用于AI训练,但不影响搜索引擎索引。如果你希望保护原创内容价值,可以选择禁止。
禁止Googlebot会导致网页从Google搜索结果中消失。除非有特殊需求,永远不要禁止主要搜索引擎爬虫。
SEO工具爬虫(如AhrefsBot、SemrushBot)不影响搜索排名。禁止它们意味着竞品无法在这些工具中分析你的网站,但你自己也无法使用这些工具。
建议允许。facebookexternalhit、Twitterbot等爬虫用于生成链接分享预览,禁止它们会导致分享到社交媒体时没有标题、图片和描述。
查看服务器访问日志(Apache: access.log,Nginx: access.log),搜索包含"bot"或"spider"的行,复制粘贴到本工具即可识别。
不会。输入内容仅在服务器端即时匹配后丢弃,不存储任何数据。