2MB 是压缩前还是压缩后？

指未压缩的原始大小。Googlebot 处理的是解压后的内容。

超过 2MB 完全不被索引吗？

前 2MB 内容仍会被索引，只是之后的部分被忽略。

外部 CSS/JS 文件计入吗？

不计入。只有 HTML 中的内联代码计入，外部文件独立抓取。

PDF 的限制是多少？

PDF 文件限制为 64MB，远大于 HTML 的 2MB。

怎么看哪些部分超出？

未通过时工具用红色高亮标注 2MB 截断位置之后的内容。

怎样有效缩减大小？

将内联 CSS/JS 迁移到外部文件是最有效手段，还可移除注释和 Base64 图片。

URL 模式仅抓取用于计算不存储。粘贴模式完全在浏览器端处理。

Googlebot抓取大小检测器

📖 Googlebot 抓取大小检测器使用说明

本工具根据 Google 官方发布的 Googlebot 抓取规则，检测任意网页的 HTML 源代码大小是否在 2MB 限制以内。支持通过 URL 在线抓取（使用 Googlebot UA）和粘贴源代码两种方式，自动分析页面组成并提供优化建议。

📌 官方来源：Google 搜索中心 — Googlebot 文档（2026-02-06 更新）明确指出：Googlebot 仅抓取受支持文件类型中的前 2MB 内容。

一、页面大小为什么对 SEO 至关重要？

1.1 超出限制的内容对 Google 完全不可见

当页面 HTML 大小超过 2MB 时，Googlebot 会在 2MB 处截断抓取。这意味着所有排在 2MB 之后的内容，无论多么重要，Google 都无法看到。这并非降低优先级，而是彻底忽略。

1.2 正文内容可能无法被索引

如果页面头部包含大量内联 CSS 和 JavaScript，实际的正文内容可能被挤到 2MB 之后的位置，导致 Google 索引的页面几乎没有正文文字，严重影响排名。

1.3 结构化数据可能被截断

许多网站将 JSON-LD 结构化数据放在页面底部 </body> 之前。如果页面过大，这些 Schema 标记会被完全忽略，导致富媒体搜索结果（Rich Snippets）不会在搜索结果中展示。

1.4 页脚链接和导航被遗漏

位于页面底部的内部链接（如页脚导航、相关文章推荐）如果落在 2MB 之外，Googlebot 将无法发现这些链接，影响网站内部的链接传递和新页面的发现效率。

二、哪些因素容易导致页面过大？

2.1 大量内联 CSS 和 JavaScript

将完整的 CSS 框架（如 Tailwind 全量包）或 JavaScript 库直接写在 HTML 的 <style> 和 <script> 标签中，而不是通过外部文件引用，是页面膨胀的首要原因。

2.2 服务端渲染（SSR）注入的大量数据

React/Next.js/Nuxt 等框架的 SSR 模式会将初始状态数据序列化为 JSON 嵌入 HTML 中。如果数据量大（如长列表、完整 API 响应），页面大小会急剧增长。

2.3 超长产品列表

电商网站的分类页面如果一次性渲染数百个产品（含图片、价格、描述），HTML 代码量会非常庞大。建议使用分页或懒加载。

2.4 构建工具注入的注释

某些开发工具和 CMS 插件会在 HTML 中插入大段的调试注释或版本标记，这些对用户不可见但占用抓取配额。

2.5 内嵌的 Base64 数据

将图片以 Base64 编码直接嵌入 HTML 中（而非使用外部图片链接），单张图片就可能占用数百 KB，极易超出限制。

三、本工具的工作原理

3.1 模拟 Googlebot 抓取

工具使用 Googlebot 的官方 User-Agent 字符串请求目标 URL，并通过 Accept-Encoding: identity 头部要求服务器返回未经压缩的原始内容，以测量真实的未压缩大小（这与 Googlebot 的实际行为一致）。

3.2 内容类型自动识别

工具自动检测响应是 HTML 还是 PDF。HTML 文件适用 2MB 限制，PDF 文件适用 64MB 限制，自动应用对应阈值进行检测。

3.3 页面组成深度分析

对 HTML 页面自动拆解分析各部分占用的字节数：纯 HTML 内容、内联 CSS、内联 JavaScript、HTML 注释和 JSON-LD 结构化数据，以直观的进度条和占比展示。

3.4 重定向链完整追踪

自动检测并显示所有 HTTP 重定向（301、302 等），展示从原始 URL 到最终 URL 的完整跳转路径，帮助发现不必要的重定向。

四、如何有效缩减页面大小

将内联 CSS/JS 迁移到外部文件：最有效的优化手段。Googlebot 不计算外部资源的大小，只统计 HTML 文件本身
移除 HTML 注释和多余空白：生产环境应去除调试注释和多余的换行缩进
用外部链接替代 Base64 图片：将 data:image 替换为常规的 <img src> 引用
精简 SSR 注入的数据：只注入首屏渲染必需的数据，其余通过客户端 API 异步加载
对长列表实施分页：每页控制在 50-100 个条目以内
将 JSON-LD 放在 <head> 中：确保结构化数据在页面头部被 Googlebot 先行读取
使用 CSS/JS 压缩工具：如果必须内联，至少确保代码经过最小化处理

五、使用教程：如何检测网页抓取大小

第1步：输入网页URL

在输入框中输入要检测的网页URL，或粘贴HTML源码。工具支持检测页面的总传输大小和各资源类型的占比。

第2步：开始检测

点击检测按钮，工具会分析HTML大小、资源引用数量、页面结构等信息。

第3步：查看分析结果

查看页面总大小、HTML大小、图片/CSS/JS等资源数量和建议优化项。

第4步：根据建议优化

按照优化建议压缩图片、精简HTML、合并CSS/JS文件，降低搜索引擎抓取成本。

六、常见问题

5.1 2MB 是指压缩后还是压缩前的大小？

指未压缩的原始大小。虽然服务器通常通过 gzip/brotli 压缩传输，但 Googlebot 处理的是解压后的原始内容，限制基于解压后的字节数。本工具测量的就是这个未压缩大小。

5.2 超过 2MB 的页面完全不会被索引吗？

不是。前 2MB 的内容仍然会被索引和处理，只是 2MB 之后的部分会被忽略。如果关键内容在前 2MB 以内，页面仍然可以正常排名。

5.3 CSS 和 JavaScript 文件也计入 2MB 吗？

只有直接写在 HTML 中的内联代码计入。通过 <link> 或 <script src> 引用的外部文件不计入 HTML 文件大小。这也是为什么将代码迁移到外部文件是最有效的优化手段。

5.4 页面大小正常但排名不好怎么办？

页面大小只是技术 SEO 的一个因素。排名还取决于内容质量、外链、用户体验、Core Web Vitals 等多种因素。但确保页面大小在限制内是基本前提。

5.5 PDF 的大小限制是多少？

PDF 文件的限制是 64MB，远大于 HTML 的 2MB。工具会自动检测内容类型并应用正确的限制值。

5.6 怎么查看页面哪些部分超出了？

当检测结果为"未通过"时，工具会标注出 2MB 截断位置，并用红色高亮显示超出限制的部分，帮助你直观了解被截断的内容。

5.7 数据安全吗？

URL 模式下服务器仅抓取目标页面内容用于大小计算，不会存储。粘贴源代码模式完全在浏览器端运算，不经过服务器。