Sitemap 网址提取器

从 XML Sitemap 中批量提取所有 URL
支持标准 Sitemap、图片、视频、新闻、多语言和 Sitemap Index 格式

📖 Sitemap 网址提取器使用说明

Sitemap 网址提取器可以从任意 XML Sitemap 文件中批量提取所有 URL 地址,自动识别 6 种 Sitemap 格式(标准、图片、视频、新闻、多语言、Sitemap Index),提供域名统计、路径分析、重复检测,支持搜索过滤和一键复制导出。

一、Sitemap 网址提取器能帮 SEO 人员做什么?

1.1 快速获取网站完整 URL 列表

SEO 审计的第一步往往是获取网站的完整 URL 列表。相比用爬虫工具(Screaming Frog 等)耗时抓取,直接从 Sitemap 中提取是最快的方式。本工具几秒钟即可提取成千上万条 URL。

1.2 审计 Sitemap 完整性

Sitemap 中的 URL 应该与网站实际页面一致。提取后可以对比 Sitemap 中的 URL 和实际页面,发现遗漏的重要页面(未被收录在 Sitemap 中)或过时的死链(页面已删除但仍在 Sitemap 中)。

1.3 分析竞品网站结构

通过提取竞争对手的 Sitemap URL 列表,你可以快速了解他们的网站规模、内容结构(有哪些目录和栏目)、URL 命名规范等,为自己的内容策略提供参考。

1.4 Sitemap Index 递归查看

大型网站通常使用 Sitemap Index 管理多个子 Sitemap 文件。本工具可以识别 Sitemap Index 并列出所有子文件,方便你逐一查看或选择性提取。

1.5 导出 URL 用于其他工具

提取的 URL 可以一键复制为纯文本列表,直接粘贴到 Screaming Frog、Ahrefs、SEMrush 等 SEO 工具中进行深入分析。

二、功能详解

2.1 6 种 Sitemap 格式识别

格式识别标志额外提取信息
标准 Sitemap<urlset>loc, lastmod, changefreq, priority
图片 Sitemapimage: 命名空间image:loc(图片 URL)
视频 Sitemapvideo: 命名空间video:title(视频标题)
新闻 Sitemapnews: 命名空间news:title(新闻标题)
多语言 Sitemapxhtml:link hreflanghreflang 语言和对应 URL
Sitemap Index<sitemapindex>子 Sitemap 地址和 lastmod

2.2 统计与分析

提取后自动统计 URL 总数、域名分布(发现跨域 URL)、一级路径分布(了解内容结构)、文件扩展名分布、重复 URL 数量,以及图片/视频/hreflang 标注总数。

2.3 搜索过滤

当 Sitemap 包含大量 URL 时,可以在搜索框中输入关键词快速过滤。例如输入 /blog/ 可以只显示博客相关的 URL。

2.4 一键复制导出

支持复制全部 URL(纯文本)或复制过滤后的 URL 列表。每条 URL 也可单独复制。

三、Sitemap 网址提取器的使用场景

3.1 网站 SEO 审计

提取 Sitemap 中的全部 URL,与 Google Search Console 的索引数据对比,找出已索引但不在 Sitemap 中的页面,或在 Sitemap 中但未被索引的页面。

3.2 内容清点和分类

利用路径分布统计,快速了解网站各栏目的内容数量(如 /blog/ 有多少文章、/products/ 有多少产品),为内容规划提供数据基础。

3.3 网站迁移验证

在域名迁移或网站重构后,对比新旧 Sitemap 的 URL 列表,确保所有页面都有对应的 301 重定向,没有遗漏。

3.4 竞品网站规模评估

输入竞争对手的 sitemap.xml 地址,瞬间了解他们的网站规模和内容结构分布,评估竞争强度。

3.5 死链批量排查

提取 URL 列表后,配合链接检测工具批量检查每个 URL 的 HTTP 状态码,找出返回 404 的死链。

四、Sitemap 最佳实践

五、常见问题

5.1 为什么提取的 URL 数量和预期不一致?

可能的原因:Sitemap 不完整(有些页面未被收录)、使用了 Sitemap Index(需要分别提取每个子文件)、Sitemap 过期未更新、或者 CMS 的 Sitemap 插件配置过滤了部分页面类型。

5.2 Sitemap Index 和普通 Sitemap 有什么区别?

Sitemap Index 是一个"索引文件",它本身不包含页面 URL,而是列出多个子 Sitemap 文件的地址。本工具会自动识别 Sitemap Index 并列出所有子文件,你可以点击任意子文件继续提取其中的 URL。

5.3 提取到的 URL 中有跨域的链接正常吗?

一般来说,Sitemap 应该只包含同一域名下的 URL。如果发现跨域 URL,可能是配置错误,也可能是子域名或 CDN 域名的正常引用。本工具的域名分布统计可以帮你快速发现这种情况。

5.4 gzip 压缩的 Sitemap(.xml.gz)能提取吗?

通过 URL 提取模式,服务器通常会自动解压 gzip 内容。如果是下载到本地的 .gz 文件,需要先解压为 .xml 文件再粘贴内容。

5.5 如何找到一个网站的 Sitemap 地址?

常见位置:/sitemap.xml/sitemap_index.xml/sitemap/。也可以检查该网站的 robots.txt 文件,通常会声明 Sitemap 位置。WordPress 默认的 Sitemap 地址是 /wp-sitemap.xml

5.6 提取的 URL 有重复怎么办?

Sitemap 中出现重复 URL 虽然不会直接导致 SEO 问题(搜索引擎会去重),但说明 Sitemap 生成存在 bug。工具会自动检测并显示重复数量。建议修复 Sitemap 生成逻辑,移除重复项。

5.7 提取结果最多显示多少条?

出于浏览器性能考虑,页面列表最多显示 5,000 条 URL。复制功能会包含所有提取到的 URL。如果 Sitemap 超过 5,000 条,建议使用 Sitemap Index 分文件提取。