本工具根据 Google 官方发布的 Googlebot 抓取规则,检测任意网页的 HTML 源代码大小是否在 2MB 限制以内。支持通过 URL 在线抓取(使用 Googlebot UA)和粘贴源代码两种方式,自动分析页面组成并提供优化建议。
📌 官方来源:Google 搜索中心 — Googlebot 文档(2026-02-06 更新)明确指出:Googlebot 仅抓取受支持文件类型中的前 2MB 内容。
当页面 HTML 大小超过 2MB 时,Googlebot 会在 2MB 处截断抓取。这意味着所有排在 2MB 之后的内容,无论多么重要,Google 都无法看到。这并非降低优先级,而是彻底忽略。
如果页面头部包含大量内联 CSS 和 JavaScript,实际的正文内容可能被挤到 2MB 之后的位置,导致 Google 索引的页面几乎没有正文文字,严重影响排名。
许多网站将 JSON-LD 结构化数据放在页面底部 </body> 之前。如果页面过大,这些 Schema 标记会被完全忽略,导致富媒体搜索结果(Rich Snippets)不会在搜索结果中展示。
位于页面底部的内部链接(如页脚导航、相关文章推荐)如果落在 2MB 之外,Googlebot 将无法发现这些链接,影响网站内部的链接传递和新页面的发现效率。
将完整的 CSS 框架(如 Tailwind 全量包)或 JavaScript 库直接写在 HTML 的 <style> 和 <script> 标签中,而不是通过外部文件引用,是页面膨胀的首要原因。
React/Next.js/Nuxt 等框架的 SSR 模式会将初始状态数据序列化为 JSON 嵌入 HTML 中。如果数据量大(如长列表、完整 API 响应),页面大小会急剧增长。
电商网站的分类页面如果一次性渲染数百个产品(含图片、价格、描述),HTML 代码量会非常庞大。建议使用分页或懒加载。
某些开发工具和 CMS 插件会在 HTML 中插入大段的调试注释或版本标记,这些对用户不可见但占用抓取配额。
将图片以 Base64 编码直接嵌入 HTML 中(而非使用外部图片链接),单张图片就可能占用数百 KB,极易超出限制。
工具使用 Googlebot 的官方 User-Agent 字符串请求目标 URL,并通过 Accept-Encoding: identity 头部要求服务器返回未经压缩的原始内容,以测量真实的未压缩大小(这与 Googlebot 的实际行为一致)。
工具自动检测响应是 HTML 还是 PDF。HTML 文件适用 2MB 限制,PDF 文件适用 64MB 限制,自动应用对应阈值进行检测。
对 HTML 页面自动拆解分析各部分占用的字节数:纯 HTML 内容、内联 CSS、内联 JavaScript、HTML 注释和 JSON-LD 结构化数据,以直观的进度条和占比展示。
自动检测并显示所有 HTTP 重定向(301、302 等),展示从原始 URL 到最终 URL 的完整跳转路径,帮助发现不必要的重定向。
在输入框中输入要检测的网页URL,或粘贴HTML源码。工具支持检测页面的总传输大小和各资源类型的占比。
点击检测按钮,工具会分析HTML大小、资源引用数量、页面结构等信息。
查看页面总大小、HTML大小、图片/CSS/JS等资源数量和建议优化项。
按照优化建议压缩图片、精简HTML、合并CSS/JS文件,降低搜索引擎抓取成本。
指未压缩的原始大小。虽然服务器通常通过 gzip/brotli 压缩传输,但 Googlebot 处理的是解压后的原始内容,限制基于解压后的字节数。本工具测量的就是这个未压缩大小。
不是。前 2MB 的内容仍然会被索引和处理,只是 2MB 之后的部分会被忽略。如果关键内容在前 2MB 以内,页面仍然可以正常排名。
只有直接写在 HTML 中的内联代码计入。通过 <link> 或 <script src> 引用的外部文件不计入 HTML 文件大小。这也是为什么将代码迁移到外部文件是最有效的优化手段。
页面大小只是技术 SEO 的一个因素。排名还取决于内容质量、外链、用户体验、Core Web Vitals 等多种因素。但确保页面大小在限制内是基本前提。
PDF 文件的限制是 64MB,远大于 HTML 的 2MB。工具会自动检测内容类型并应用正确的限制值。
当检测结果为"未通过"时,工具会标注出 2MB 截断位置,并用红色高亮显示超出限制的部分,帮助你直观了解被截断的内容。
URL 模式下服务器仅抓取目标页面内容用于大小计算,不会存储。粘贴源代码模式完全在浏览器端运算,不经过服务器。