内容语义相似度分析器

余弦相似度 · TF-IDF向量 · 语义覆盖度 · 竞品对比 · 术语差距分析
📄 文本A(你的页面内容)
🎯 文本B(目标查询/竞品内容)

📖 内容语义相似度分析器使用说明

余弦相似度(Cosine Similarity)是衡量两段文本在语义层面相似程度的数学方法。它不是比较相同的词数量,而是把文本转化为高维TF-IDF向量,测量两个向量的夹角——夹角越小语义越近(值趋近1),夹角越大语义越远(值趋近0)。在AI驱动的搜索时代,Google和LLM用余弦相似度判断页面与查询的「语义距离」。本工具基于PHP服务端的TF-IDF向量化+余弦相似度算法,帮你量化内容与目标的语义匹配度。

一、余弦相似度SEO对照表

相似度 = (A·B) / (|A| × |B|) —— A·B为点积,|A||B|为模长
余弦相似度含义SEO启示
0.8 - 1.0高度语义相关理想的页面-查询匹配。>0.95需警惕内容重复
0.5 - 0.79中等相关有优化空间,检查缺失的语义术语
0.2 - 0.49低相关内容方向可能偏离目标查询
0 - 0.19几乎无关内容与查询无语义关联

二、使用场景

2.1 页面vs目标查询语义匹配

将你的页面内容放入A,目标关键词或搜索查询放入B,测量两者的余弦相似度。如果低于0.5,说明页面语义偏离查询意图,需要补充相关术语。Google不再只数关键词出现次数——它在计算整个页面与查询的语义向量距离。

2.2 竞品语义差距分析

将你的页面放入A,排名TOP1竞品内容放入B。工具会列出「仅B独有的术语」——这些就是你缺失的语义信号。把这些术语自然融入你的内容,能直接提升余弦相似度。

2.3 内容重复检测

对比两个页面内容,余弦相似度>0.95说明高度重复,Google可能只索引其中一个。用于检测同站点内不同URL之间的Cannibalization(关键词互搏)问题。

2.4 产品命名语义优化

电商产品标题vs分类页核心查询的余弦相似度,直接影响分类页排名。对比「XR-500」和「男士防水登山靴XR-500」两种命名方式与目标查询的相似度差异。

2.5 AI引用内容优化

将你的内容vs AI可能生成的回答进行对比。研究显示被AI引用的页面与AI回答文本余弦相似度显著更高。将FAQ回答优化为与AI回答风格接近的Answer-First格式。

2.6 批量竞品排名分析

在批量模式中,输入目标查询,然后分别粘贴排名1-10的竞品内容。工具会按余弦相似度排序——你可以看到Google认为哪些内容与查询最「语义接近」。

2.7 内部链接语义关联

对比两个页面的内容相似度,决定它们之间是否应该互相链接。相似度0.3-0.7的页面最适合互链——太低没有关联,太高可能内容重复。

2.8 跨页面术语一致性审计

对比产品页/分类页/博客文章在同一主题上的用词是否一致。如果「登山靴」页面和「徒步鞋」页面余弦相似度过低,说明全站术语不一致,削弱语义凝聚力。

三、使用教程

第1步:选择模式

两文本对比(AB对比)或批量竞品对比(一对多)。

第2步:输入内容

A放你的页面内容,B放目标查询/竞品/AI回答。批量模式输入基准查询+多段竞品文本。

第3步:计算相似度

PHP服务端将文本TF-IDF向量化并计算余弦相似度。

第4步:查看结果

余弦相似度分数+Jaccard系数+共有/独有术语+TF权重TOP词。

第5步:分析术语差距

查看「仅B独有术语」——这些是你需要补充的语义信号。

第6步:优化并重测

将缺失术语融入内容后重新计算,追踪余弦相似度提升。

四、常见问题

4.1 余弦相似度和TF-IDF有什么区别?

TF-IDF衡量词在文档中的重要性(基于词频),余弦相似度衡量两段文本的整体语义相似程度。本工具先用TF-IDF将文本向量化,再计算向量间的余弦相似度。两者是互补关系:TF-IDF帮你发现重要术语,余弦相似度帮你评估整体语义覆盖度。

4.2 余弦相似度高就一定排名好吗?

不一定。排名是「相关性×权威性×体验」的综合结果。余弦相似度解决的是相关性问题,但还受DR/外链/Core Web Vitals/E-E-A-T等因素影响。一个高相似度但低权威的页面可能排在低相似度但高权威的页面后面。

4.3 这个工具和真正的Embedding模型有什么区别?

本工具使用TF-IDF向量化(基于词频统计),Google和LLM使用的是深度学习Embedding模型(如BERT/GPT)。TF-IDF无法理解同义词(「登山靴」和「徒步鞋」会被视为不同词),但它能快速、免费地给出有参考价值的相似度估算。

4.4 相似度多少算好?

页面vs查询:0.3-0.6通常就不错(因为查询很短)。页面vs竞品:0.4-0.8是有竞争力的范围。页面vs页面:>0.95需要警惕内容重复。

4.5 「仅B独有术语」怎么用?

这些是竞品有而你没有的语义信号。不是机械地堆砌这些词,而是理解它们代表的子话题,用自然语言在你的内容中覆盖这些话题。

4.6 Jaccard系数是什么?

Jaccard系数 = 共有词数 / 总词数(并集)。它衡量的是词汇重叠率,与余弦相似度互补——余弦看权重分布,Jaccard看词汇覆盖面。

4.7 中英文混合内容能分析吗?

可以。工具自动将中文按字+双字切分,英文按单词切分,两种语言的token统一进入TF-IDF向量空间计算。

4.8 批量模式能对比多少个文本?

建议不超过10个。每个文本会独立与基准查询计算余弦相似度,结果按相似度降序排列。

4.9 对AI搜索(GEO)有什么帮助?

研究显示AI搜索引擎引用的页面与AI回答文本余弦相似度更高。用本工具对比你的内容与AI可能生成的回答,优化内容使其更「语义接近」AI的引用偏好。

4.10 怎么系统性地提升余弦相似度?

①用竞品分析找出缺失术语 ②在H2/H3子标题中覆盖相关子话题 ③产品页用行业标准术语而非自创词 ④确保全站同一主题的核心术语一致 ⑤让用户评论为页面添加自然语义信号。