输入至少 2 篇英文文档进行对比。TF-IDF 通过跨文档比较来发现每篇文档中真正重要的关键词。可用于分析自己的页面与竞品页面之间的关键词差异。
TF-IDF(Term Frequency–Inverse Document Frequency)是一种统计方法,用于评估一个词在一组文档中对某篇文档的重要程度。它是信息检索和文本挖掘中最经典的权重算法之一,也被广泛用于 SEO 内容分析。
核心思想:一个词在某篇文档中出现频率越高(TF 高),同时在其他文档中出现越少(IDF 高),则该词对这篇文档越重要。
例如:"optimization" 在文档 A 中出现 8 次(共 200 词),TF = 8/200 = 0.04。如果共有 5 篇文档,其中 2 篇包含该词,IDF = ln(5/2)+1 ≈ 1.916。则 TF-IDF = 0.04 × 1.916 ≈ 0.0767。
| 指标 | 说明 |
|---|---|
| TF(词频) | 该词在当前文档中的出现频率,值越高说明该词在文档中出现越频繁 |
| IDF(逆文档频率) | 衡量该词的稀缺性。只在少数文档中出现的词 IDF 更高,所有文档都有的词 IDF = 1 |
| TF-IDF | 综合得分。高分词汇 = 在当前文档中频繁出现 + 在其他文档中较少出现 = 对该文档最具特色和重要性 |
| DF(文档频率) | 该词出现在几篇文档中,等于文档总数时表示所有文档共有 |
本工具内置了 200+ 英文停用词列表,自动过滤冠词、代词、介词、连词、助动词等功能性词汇,让分析结果聚焦于有实际语义价值的内容关键词。
粘贴文章内容,可以同时输入多篇文档进行对比分析。
工具计算每个词的TF(词频)和IDF(逆文档频率)值。
查看关键词的TF-IDF权重排名,识别文档的核心主题词。
根据分析结果调整文章中重要关键词的使用频率和分布。
TF(词频)×IDF(逆文档频率),衡量一个词对文档的重要程度。
帮助识别文章的核心主题词,确保重要关键词有足够的权重。
IDF = log(总文档数/包含该词的文档数),越少文档包含的词IDF越高。
单篇也可以计算TF值,但IDF需要多篇文档对比才有意义。
高TF-IDF的词是文章的特色词,确保这些词在标题和正文中出现。