Sitemap 网址提取器可以从任意 XML Sitemap 文件中批量提取所有 URL 地址,自动识别 6 种 Sitemap 格式(标准、图片、视频、新闻、多语言、Sitemap Index),提供域名统计、路径分析、重复检测,支持搜索过滤和一键复制导出。
SEO 审计的第一步往往是获取网站的完整 URL 列表。相比用爬虫工具(Screaming Frog 等)耗时抓取,直接从 Sitemap 中提取是最快的方式。本工具几秒钟即可提取成千上万条 URL。
Sitemap 中的 URL 应该与网站实际页面一致。提取后可以对比 Sitemap 中的 URL 和实际页面,发现遗漏的重要页面(未被收录在 Sitemap 中)或过时的死链(页面已删除但仍在 Sitemap 中)。
通过提取竞争对手的 Sitemap URL 列表,你可以快速了解他们的网站规模、内容结构(有哪些目录和栏目)、URL 命名规范等,为自己的内容策略提供参考。
大型网站通常使用 Sitemap Index 管理多个子 Sitemap 文件。本工具可以识别 Sitemap Index 并列出所有子文件,方便你逐一查看或选择性提取。
提取的 URL 可以一键复制为纯文本列表,直接粘贴到 Screaming Frog、Ahrefs、SEMrush 等 SEO 工具中进行深入分析。
| 格式 | 识别标志 | 额外提取信息 |
|---|---|---|
| 标准 Sitemap | <urlset> | loc, lastmod, changefreq, priority |
| 图片 Sitemap | image: 命名空间 | image:loc(图片 URL) |
| 视频 Sitemap | video: 命名空间 | video:title(视频标题) |
| 新闻 Sitemap | news: 命名空间 | news:title(新闻标题) |
| 多语言 Sitemap | xhtml:link hreflang | hreflang 语言和对应 URL |
| Sitemap Index | <sitemapindex> | 子 Sitemap 地址和 lastmod |
提取后自动统计 URL 总数、域名分布(发现跨域 URL)、一级路径分布(了解内容结构)、文件扩展名分布、重复 URL 数量,以及图片/视频/hreflang 标注总数。
当 Sitemap 包含大量 URL 时,可以在搜索框中输入关键词快速过滤。例如输入 /blog/ 可以只显示博客相关的 URL。
支持复制全部 URL(纯文本)或复制过滤后的 URL 列表。每条 URL 也可单独复制。
提取 Sitemap 中的全部 URL,与 Google Search Console 的索引数据对比,找出已索引但不在 Sitemap 中的页面,或在 Sitemap 中但未被索引的页面。
利用路径分布统计,快速了解网站各栏目的内容数量(如 /blog/ 有多少文章、/products/ 有多少产品),为内容规划提供数据基础。
在域名迁移或网站重构后,对比新旧 Sitemap 的 URL 列表,确保所有页面都有对应的 301 重定向,没有遗漏。
输入竞争对手的 sitemap.xml 地址,瞬间了解他们的网站规模和内容结构分布,评估竞争强度。
提取 URL 列表后,配合链接检测工具批量检查每个 URL 的 HTTP 状态码,找出返回 404 的死链。
可能的原因:Sitemap 不完整(有些页面未被收录)、使用了 Sitemap Index(需要分别提取每个子文件)、Sitemap 过期未更新、或者 CMS 的 Sitemap 插件配置过滤了部分页面类型。
Sitemap Index 是一个"索引文件",它本身不包含页面 URL,而是列出多个子 Sitemap 文件的地址。本工具会自动识别 Sitemap Index 并列出所有子文件,你可以点击任意子文件继续提取其中的 URL。
一般来说,Sitemap 应该只包含同一域名下的 URL。如果发现跨域 URL,可能是配置错误,也可能是子域名或 CDN 域名的正常引用。本工具的域名分布统计可以帮你快速发现这种情况。
通过 URL 提取模式,服务器通常会自动解压 gzip 内容。如果是下载到本地的 .gz 文件,需要先解压为 .xml 文件再粘贴内容。
常见位置:/sitemap.xml、/sitemap_index.xml、/sitemap/。也可以检查该网站的 robots.txt 文件,通常会声明 Sitemap 位置。WordPress 默认的 Sitemap 地址是 /wp-sitemap.xml。
Sitemap 中出现重复 URL 虽然不会直接导致 SEO 问题(搜索引擎会去重),但说明 Sitemap 生成存在 bug。工具会自动检测并显示重复数量。建议修复 Sitemap 生成逻辑,移除重复项。
出于浏览器性能考虑,页面列表最多显示 5,000 条 URL。复制功能会包含所有提取到的 URL。如果 Sitemap 超过 5,000 条,建议使用 Sitemap Index 分文件提取。