余弦相似度(Cosine Similarity)是衡量两段文本在语义层面相似程度的数学方法。它不是比较相同的词数量,而是把文本转化为高维TF-IDF向量,测量两个向量的夹角——夹角越小语义越近(值趋近1),夹角越大语义越远(值趋近0)。在AI驱动的搜索时代,Google和LLM用余弦相似度判断页面与查询的「语义距离」。本工具基于PHP服务端的TF-IDF向量化+余弦相似度算法,帮你量化内容与目标的语义匹配度。
相似度 = (A·B) / (|A| × |B|) —— A·B为点积,|A||B|为模长
| 余弦相似度 | 含义 | SEO启示 |
|---|---|---|
| 0.8 - 1.0 | 高度语义相关 | 理想的页面-查询匹配。>0.95需警惕内容重复 |
| 0.5 - 0.79 | 中等相关 | 有优化空间,检查缺失的语义术语 |
| 0.2 - 0.49 | 低相关 | 内容方向可能偏离目标查询 |
| 0 - 0.19 | 几乎无关 | 内容与查询无语义关联 |
将你的页面内容放入A,目标关键词或搜索查询放入B,测量两者的余弦相似度。如果低于0.5,说明页面语义偏离查询意图,需要补充相关术语。Google不再只数关键词出现次数——它在计算整个页面与查询的语义向量距离。
将你的页面放入A,排名TOP1竞品内容放入B。工具会列出「仅B独有的术语」——这些就是你缺失的语义信号。把这些术语自然融入你的内容,能直接提升余弦相似度。
对比两个页面内容,余弦相似度>0.95说明高度重复,Google可能只索引其中一个。用于检测同站点内不同URL之间的Cannibalization(关键词互搏)问题。
电商产品标题vs分类页核心查询的余弦相似度,直接影响分类页排名。对比「XR-500」和「男士防水登山靴XR-500」两种命名方式与目标查询的相似度差异。
将你的内容vs AI可能生成的回答进行对比。研究显示被AI引用的页面与AI回答文本余弦相似度显著更高。将FAQ回答优化为与AI回答风格接近的Answer-First格式。
在批量模式中,输入目标查询,然后分别粘贴排名1-10的竞品内容。工具会按余弦相似度排序——你可以看到Google认为哪些内容与查询最「语义接近」。
对比两个页面的内容相似度,决定它们之间是否应该互相链接。相似度0.3-0.7的页面最适合互链——太低没有关联,太高可能内容重复。
对比产品页/分类页/博客文章在同一主题上的用词是否一致。如果「登山靴」页面和「徒步鞋」页面余弦相似度过低,说明全站术语不一致,削弱语义凝聚力。
两文本对比(AB对比)或批量竞品对比(一对多)。
A放你的页面内容,B放目标查询/竞品/AI回答。批量模式输入基准查询+多段竞品文本。
PHP服务端将文本TF-IDF向量化并计算余弦相似度。
余弦相似度分数+Jaccard系数+共有/独有术语+TF权重TOP词。
查看「仅B独有术语」——这些是你需要补充的语义信号。
将缺失术语融入内容后重新计算,追踪余弦相似度提升。
TF-IDF衡量词在文档中的重要性(基于词频),余弦相似度衡量两段文本的整体语义相似程度。本工具先用TF-IDF将文本向量化,再计算向量间的余弦相似度。两者是互补关系:TF-IDF帮你发现重要术语,余弦相似度帮你评估整体语义覆盖度。
不一定。排名是「相关性×权威性×体验」的综合结果。余弦相似度解决的是相关性问题,但还受DR/外链/Core Web Vitals/E-E-A-T等因素影响。一个高相似度但低权威的页面可能排在低相似度但高权威的页面后面。
本工具使用TF-IDF向量化(基于词频统计),Google和LLM使用的是深度学习Embedding模型(如BERT/GPT)。TF-IDF无法理解同义词(「登山靴」和「徒步鞋」会被视为不同词),但它能快速、免费地给出有参考价值的相似度估算。
页面vs查询:0.3-0.6通常就不错(因为查询很短)。页面vs竞品:0.4-0.8是有竞争力的范围。页面vs页面:>0.95需要警惕内容重复。
这些是竞品有而你没有的语义信号。不是机械地堆砌这些词,而是理解它们代表的子话题,用自然语言在你的内容中覆盖这些话题。
Jaccard系数 = 共有词数 / 总词数(并集)。它衡量的是词汇重叠率,与余弦相似度互补——余弦看权重分布,Jaccard看词汇覆盖面。
可以。工具自动将中文按字+双字切分,英文按单词切分,两种语言的token统一进入TF-IDF向量空间计算。
建议不超过10个。每个文本会独立与基准查询计算余弦相似度,结果按相似度降序排列。
研究显示AI搜索引擎引用的页面与AI回答文本余弦相似度更高。用本工具对比你的内容与AI可能生成的回答,优化内容使其更「语义接近」AI的引用偏好。
①用竞品分析找出缺失术语 ②在H2/H3子标题中覆盖相关子话题 ③产品页用行业标准术语而非自创词 ④确保全站同一主题的核心术语一致 ⑤让用户评论为页面添加自然语义信号。