TF-IDF 分析工具

评估关键词在内容中的重要性
📄 输入文档

输入至少 2 篇英文文档进行对比。TF-IDF 通过跨文档比较来发现每篇文档中真正重要的关键词。可用于分析自己的页面与竞品页面之间的关键词差异。

📖 TF-IDF 分析器使用说明

TF-IDF 分析器使用词频-逆文档频率算法对比多篇文档中关键词的重要性权重,帮助你发现每篇内容的核心特征词和文档间的共有关键词,为内容差异化优化提供数据支撑。

一、TF-IDF 分析器能帮 SEO 人员做什么?

1.1 发现内容的核心特征词

TF-IDF 权重高的词汇代表该文档的独特主题信号。当你想了解一篇文章真正在讲什么、哪些词让它区别于其他文章时,TF-IDF 比简单的词频统计更有洞察力。

1.2 内容差异化分析

将你的文章和竞品的文章一起分析,可以看到各自的特征词差异。如果竞品覆盖了某些你没有的高 TF-IDF 词汇,这可能就是你内容的主题空白。

1.3 避免内容同质化

当你的多篇文章 TF-IDF 高权重词高度重合时,说明内容存在同质化问题,可能导致站内关键词蚕食(Keyword Cannibalization)。

二、功能详解

2.1 多文档对比

支持 2-7 篇文档同时对比,每篇文档可自定义标签名。IDF 公式采用 ln(N/df)+1 平滑算法。

2.2 三种视图

提供逐文档 TF-IDF 排名、高 IDF 独有词、多文档共有词三种视图,全方位分析关键词分布。

2.3 文档统计

每篇文档独立显示总词数、唯一词数、字符数和词汇多样性百分比,帮助评估内容丰富度。

三、TF-IDF 分析器的使用场景

3.1 内容主题聚焦度分析

将同一主题下的多篇文章放在一起分析,找出每篇文章的独特角度和共同覆盖的核心关键词,确保每篇文章都有明确的主题定位。

3.2 竞品内容对标

将你的文章和搜索排名前 3 的竞品文章一起分析,发现竞品覆盖了哪些你遗漏的关键主题词,指导内容补充方向。

3.3 关键词蚕食诊断

将你网站上针对同一关键词的多个页面放在一起分析,如果 TF-IDF 高权重词高度重合,说明存在蚕食风险,需要合并或差异化内容。

3.4 内容更新优先级排序

对比新旧版本的文章,看 TF-IDF 分布的变化,评估内容更新是否真的增强了主题相关性。

四、TF-IDF 最佳实践

五、常见问题

5.1 TF-IDF 和关键词密度有什么区别?

关键词密度只考虑单个文档中的词频,TF-IDF 同时考虑了词在多篇文档中的稀有程度。高频但每篇都有的词(如 the)TF-IDF 值很低,只有特定文档中频率高且其他文档中罕见的词才会获得高权重。

5.2 需要多少篇文档才能做 TF-IDF 分析?

至少 2 篇。推荐 3-5 篇同主题文档对比效果最好,可以是你的文章 vs 竞品文章,或同一主题下的多篇文章互相对比。文档越多,IDF 值越有统计意义。

5.3 如何利用 TF-IDF 结果优化内容?

高 TF-IDF 独有词代表该文档的差异化优势,应保留和强化;多文档共有的高 TF-IDF 词是核心必备词,缺少则需补充;如果与竞品高度重合则需差异化。

5.4 什么是关键词蚕食?TF-IDF 能发现吗?

关键词蚕食是指同一网站多个页面争夺同一关键词的排名,导致权重分散。将这些页面放在一起做 TF-IDF 分析,如果高权重词高度重合,说明蚕食风险很高,需要合并或差异化。

5.5 IDF 公式中的 +1 平滑是什么意思?

本工具使用 ln(N/df)+1 公式,其中 +1 是为了防止出现在所有文档中的词 IDF 值为 0。这样即使是共有词也能保留一定的 TF-IDF 权重,分析结果更合理。

5.6 为什么同一个词在不同文档中 TF-IDF 值不同?

因为 TF(词频)部分是文档特定的——同一个词在 A 文档出现 10 次、B 文档出现 2 次,TF 不同,所以最终的 TF-IDF 值也不同。IDF 部分则对所有文档相同。