# robots.txt for zhangwenbao.com · 保哥笔记 # 定位:SEO/GEO 笔记 · 中文 + 北美独立站 # 更新:2026-06-04(替代 2026-06-03 版,新增 .md 镜像与 sitemap-ai-agent.xml) # 设计原则: # 1. 默认 *(所有爬虫,含 Google/Bing/Baidu/AI)共用同一禁区表,避免具名段绕过陷阱 # 2. 低价值爬虫(占带宽不带流量)单独段 Disallow: / # 3. AI 爬虫(GPT/Claude/Perplexity 等)不单独写段 → 默认走 * 段(允许全站+禁敏感目录) # ============================================================ # 默认规则(对所有爬虫生效) # ============================================================ User-agent: * # 后台 Disallow: /admin/ # 开发/审计/重写临时脚本:catch-all 禁止一切下划线前缀路径(站内无合法 /_ 公开 URL,覆盖现有+未来所有 _* 脚本) Disallow: /_ Disallow: /_audit Disallow: /_il Disallow: /_rw Disallow: /_seo Disallow: /_text Disallow: /_indexnow Disallow: /_purge Disallow: /_dump Disallow: /_inspect Disallow: /_diag Disallow: /_anchor Disallow: /_candidates Disallow: /_articles Disallow: /_fix Disallow: /_grep Disallow: /tmp/ Disallow: /backups/ # 备份/压缩/数据库文件(含带时间戳后缀如 .bak.YYYYMMDD / .bak-xxx) Disallow: /*.tgz$ Disallow: /*.tar$ Disallow: /*.tar.gz$ Disallow: /*.gz$ Disallow: /*.bak$ Disallow: /*.bak.* Disallow: /*.bak-* Disallow: /*.sql$ Disallow: /*.zip$ Disallow: /*.7z$ Disallow: /*.old$ Disallow: /*.log$ Disallow: /*.orig$ Disallow: /*~$ # Typecho 系统接口与无价值页面 Disallow: /action/ Disallow: /search/ Disallow: /feed/ Disallow: /*/feed Disallow: /*?query-page= Disallow: /*/comment-page- Disallow: /*?replyTo= Disallow: /clean_cache Disallow: /*?preview= # 工具站后端(仅展示页面被索引,PHP 处理器与数据无需索引) Disallow: /tools/api/ Disallow: /tools/content/ # 显式允许 LLM 友好资源(覆盖任何潜在禁区匹配) Allow: /llms.txt Allow: /llms-full.txt Allow: /llms.md Allow: /llms-full.md Allow: /llms/ Allow: /rss.xml Allow: /sitemap.xml Allow: /sitemap-posts.xml Allow: /sitemap-pages.xml Allow: /sitemap-categories.xml Allow: /sitemap-tags.xml Allow: /sitemap-tools.xml Allow: /sitemap-gallery.xml Allow: /sitemap-ai-agent.xml Allow: /zhangwenbao.xsl # ============================================================ # 低价值/吃带宽爬虫(单独段 → 完全禁止) # 依据:日志显示这些爬虫占用大量请求但不带搜索流量 # ============================================================ # Majestic(外链分析,无搜索价值) User-agent: MJ12bot Disallow: / # 注:AhrefsBot / SemrushBot 保留允许 —— 保哥用 Ahrefs/Semrush 看自己站内部数据 # Serpstat User-agent: serpstatbot Disallow: / # Linkup User-agent: LinkupBot Disallow: / # DataForSEO User-agent: DataForSeoBot Disallow: / # Moz User-agent: DotBot Disallow: / User-agent: rogerbot Disallow: / # 华为浏览器(国内搜索市场份额低,受众不在它的搜索池) User-agent: PetalBot Disallow: / # Yandex(俄语市场,与受众无关) User-agent: YandexBot Disallow: / # Meta AI 训练专用(区别于 facebookexternalhit 社交分享) User-agent: meta-externalagent Disallow: / User-agent: Meta-ExternalAgent Disallow: / # 其他低价值扫描器 User-agent: SeznamBot Disallow: / User-agent: BLEXBot Disallow: / # ============================================================ # Sitemap(仅列主索引 — sitemapindex 已含全部 7 个子分卷: # posts / pages / categories / tags / tools / gallery / ai-agent) # ============================================================ Sitemap: https://zhangwenbao.com/sitemap.xml