英文关键词词频怎么分析?从密度神话到N-gram固定短语的完整拆解

张文保 25 分钟阅读 4,823 阅读
本文目录
  1. 关键词密度这个老话题,到底还有没有意义?
  2. 工具到底在算什么?从分词到密度的完整链路
  3. 第一步:分词,用正则切出单词
  4. 第二步:扔掉停用词,留下有信息量的词
  5. 第三步:统计频次、密度和位置
  6. N-gram才是重点:为什么要看固定短语而不只是单词?
  7. 什么是N-gram?
  8. 位置间隙约束:N-gram怎么保证短语是「真连着的」?
  9. 手算演示:一段文字的词频和bigram怎么数出来?
  10. 这些数据到底怎么指导写作和优化?
  11. 怎么用这个工具拆解一个竞品页面?五步实操
  12. 除了词频和短语,工具还顺手告诉你哪些文本信号?
  13. 一个真实案例:N-gram怎么帮一个外贸站补全了内容缺口?
  14. 三个工具怎么串起来?选词、拆词频、补缺口
  15. 用N-gram分析最容易踩的三个坑
  16. 中文为什么不能直接用?给中文场景的替代信号
  17. 常见问题解答
  18. 关键词密度到底应该做到多少?
  19. 为什么要看N-gram,光看单词频率不行吗?
  20. 位置间隙约束是干什么用的?
  21. 这个工具能分析中文内容吗?
  22. 停用词为什么要剔除?会不会丢信息?
  23. 分析竞品时,丢几篇文章比较合适?
  24. 权威参考资料
TL;DR:词频与N-gram分析器把一段英文文本拆成单词和2到6个词的固定短语,统计每个词、每个短语出现了多少次、密度多少、分布在哪。它的核心不是「关键词密度2%还是3%」这种老黄历,而是N-gram——通过位置间隙约束(bigram间隔50字符内、trigram100内,逐级放宽到sixgram的260)筛出那些真正连在一起、反复出现的有意义短语。这能帮你看清一篇高排名文章到底在围绕哪些核心词和固定搭配铺内容。本文拆开分词、停用词、密度、N-gram的真实算法,并诚实说明它为什么只适合英文。

很多人对「关键词分析」的理解还停留在十几年前:数一数目标词出现了几次,密度卡在2%到3%就算优化到位。这套打法早就过时了,今天的搜索引擎理解的是语义和短语,不是孤立的词频百分比。

这个工具想让你看清的,是一篇内容真正的「词汇骨架」——哪些单词是高频核心,哪些2到6个词的固定短语在反复出现,它们分布在文章的什么位置。当你把一篇排在Google首页的英文文章丢进去,看到的不是「目标词出现18次」这种贫瘠信息,而是这篇文章围绕主题织起来的整张语义网络。下面保哥把工具背后的真实算法逐层拆开。

关键词密度这个老话题,到底还有没有意义?

先把最容易误导人的概念聊清楚。「关键词密度」指的是某个词出现次数占总词数的百分比,公式很简单:密度 = 该词出现次数 / 正文总词数 × 100%。工具确实会算这个数,但你必须理解它的真实地位。

密度本身没有一个「最优值」。所谓「密度要做到2%到3%」纯属都市传说,Google从来没有公布过、也不存在这样一个阈值。保哥在别再问关键词密度2%还是3%了那篇里用5个要素拆过这个神话——真正重要的不是密度数字,而是关键词出现得是否自然。

密度真正有用的场景只有一个:当它异常的时候。密度过低(比如0.1%),说明你压根没把目标词写进内容,搜索引擎抓不到主题信号;密度异常高(比如5%以上),则可能触发关键词堆砌的判罚。Google的反垃圾政策明确把「在页面里塞满关键词、让文字读起来不自然」列为操纵排名的作弊手段,Google反垃圾政策中的关键词堆砌条款把这种行为和隐藏文本、桥页并列。所以密度数字的正确用法不是「往2%凑」,而是「确保它落在一个自然区间,别太低也别异常高」。

工具到底在算什么?从分词到密度的完整链路

密度只是最表层的产出。要理解工具的全貌,得跟着它处理文本的流程走一遍。

第一步:分词,用正则切出单词

工具用一个正则表达式从文本里抠出所有英文单词:/[a-zA-Z](?:[a-zA-Z'-]*[a-zA-Z])?/。翻译成人话——一个单词必须以字母开头、以字母结尾,中间允许字母、撇号(don't的那个)和连字符(well-known的那个)。匹配出来的词统一转成小写,并且过滤掉长度小于2的碎片。这一步决定了后面所有统计的颗粒度。

第二步:扔掉停用词,留下有信息量的词

分出来的词不能直接统计,因为the、is、and、of这类词出现频率最高,但它们不携带任何主题信息。工具内置了一份200多个英文停用词的清单,涵盖冠词、代词、助动词、介词、连词,还有get、make、take这类高频但空洞的动词,统计前一律剔除。停用词过滤是信息检索的标准操作——斯坦福那本经典教材专门有一节讲为什么要丢掉这些高频低信息量的词,斯坦福《信息检索导论》的停用词章节把停用表的设计逻辑讲得很系统。剔除停用词后,剩下的才是真正能反映内容主题的实词。

第三步:统计频次、密度和位置

对每个保留下来的词,工具记录三样东西:出现次数(count)、密度(count除以总词数)、以及它在文中每一次出现的字符位置(positions,最多记60个)。位置信息很关键,它能告诉你一个词是均匀铺满全文,还是扎堆在某一段——前者是健康的主题覆盖,后者可能是局部堆砌。工具还会顺手算出总句子数(用正则/[.!?]+[\s\n]/切句号、问号、感叹号)和平均词长,给你一个文本复杂度的粗略画像。

N-gram才是重点:为什么要看固定短语而不只是单词?

如果工具只能数单词频率,那它和十年前的密度工具没区别。真正让它有价值的是N-gram分析——这也是整个工具技术含量最高的部分。

什么是N-gram?

N-gram就是文本里连续N个词组成的片段。1-gram是单个词,2-gram(bigram)是两个连着的词,比如「content marketing」,3-gram(trigram)是三个,比如「search engine optimization」,以此类推到6-gram。

为什么短语比单个词重要?因为「marketing」这个词太泛了,但「content marketing strategy」「email marketing automation」是完全不同的两个话题。N-gram能捕捉到单词无法表达的语义组合。这套用连续词片段建模语言的思路,是自然语言处理的基本功,Jurafsky与Martin的N-gram语言模型章节是公认的权威入门,工具的N-gram提取本质就是这套理论的工程化简化版。

位置间隙约束:N-gram怎么保证短语是「真连着的」?

这里有个精妙的设计。如果只是机械地把任意连续N个词拼起来,会产生大量噪声——比如一句话结尾的词和下一句开头的词,它们在词序列上相邻,但语义上毫不相干。工具用「位置间隙约束」解决这个问题:只有当一个N-gram里第一个词和最后一个词的字符距离不超过某个阈值时,这个短语才被计入。阈值随N递增逐级放宽:

短语长度最大间隙(字符)含义
2-gram(bigram)50两个词必须挨得很近
3-gram(trigram)100三个词的合理跨度
4-gram150四个词
5-gram200五个词
6-gram260六个词的最大允许跨度

举个例子,bigram的间隙阈值是50字符。假设两个实词之间隔着一个被剔除的停用词,它们的字符距离可能是15、20,妥妥在阈值内,这个bigram成立;但如果两个词中间隔了半句话、字符距离超过50,工具就判定它们不构成一个有意义的短语,直接跳过。这个约束保证了提取出来的N-gram都是「真正连在一起表达一个意思」的短语,而不是跨越句子边界的伪组合。阈值随N放宽,是因为词越多、合理的物理跨度自然越大。

每个N-gram同样记录次数、密度和首词位置,最后按出现频次降序排列,取靠前的若干个。你看到的就是这篇文章里最高频的固定搭配排行榜。

手算演示:一段文字的词频和bigram怎么数出来?

抽象的算法讲完,保哥用一句话带你走一遍。假设输入文本是:「Content marketing helps your content marketing strategy grow.」

分词与停用词过滤:原始单词是content、marketing、helps、your、content、marketing、strategy、grow。其中your是停用词剔除,helps、grow也属于高频空洞动词被过滤。剩下的实词是:content、marketing、content、marketing、strategy。总实词数5个。

单词频次与密度:content出现2次,密度2÷5=40%;marketing出现2次,密度40%;strategy出现1次,密度20%。注意这里密度高是因为示例太短,真实长文里这些数字会小得多。

Bigram提取:相邻实词两两组合,「content marketing」出现了2次(句首一次、句中一次),它们的字符距离都在50以内,成立且计2次;「marketing content」出现1次(第一个marketing接第二个content),「marketing strategy」出现1次。按频次排,「content marketing」以2次登顶——这正确地告诉你,这段文字的核心短语就是它,而不是孤立的content或marketing。

同理,如果文本里「content marketing strategy」这三个词连续出现多次,trigram榜上它就会冒头,告诉你这篇内容的核心其实是「策略」层面,而不只是泛泛的「营销」。短语越长、越具体,承载的主题信息就越精确——这也是为什么工具要一直算到6-gram,而不是数完bigram就收工。长短语虽然频次低,但每一个都是一条精准的语义线索。

这就是N-gram的威力:它从一堆单词里自动浮现出「content marketing」这个真正承载主题的短语,而单纯的单词频率会让你误以为content和marketing是两个独立的重点。位置间隙约束在这里默默把关——上面这个例子里两次「content marketing」的字符距离都在50以内,所以都算数;要是它们被一整段无关文字隔开,工具就不会把它们当成同一个高频短语来统计,避免给你制造虚假的「核心短语」假象。

这些数据到底怎么指导写作和优化?

看懂了工具产出什么,关键是怎么用。保哥在实战里主要把它用在这几个地方。

逆向拆解高排名竞品。把排在目标词首页前几名的英文页面正文逐个丢进工具,看它们共同的高频单词和N-gram。如果5个竞品的bigram榜里都有「last longer」「heavy duty」这类短语,而你的页面一个都没覆盖,那就是明确的内容缺口信号——这些是Google认为和主题强相关的搭配,你不能漏。

检查自己内容的主题聚焦度。把你写好的草稿丢进去,如果高频N-gram和你的目标主题对得上,说明内容聚焦;如果排在前面的短语全是些无关的搭配,说明你写跑题了,文字密度耗在了不该耗的地方。

发现自然的长尾变体。4-gram、5-gram这些长短语,往往就是现成的长尾关键词或者H2小标题的灵感来源。竞品反复用「how to clean a」这种4-gram,背后可能对应一批长尾搜索需求。

识别关键词堆砌风险。如果某个单词的密度异常高、而且位置全扎堆在某几段,那就是堆砌的危险信号,趁早改掉,别等被算法盯上。

给AI搜索准备「可被引用」的内容。这一点越来越重要。AI搜索引擎在决定引用哪段内容时,很看重内容和查询的语义贴合度。用N-gram拆清楚一个主题的核心短语网络,再确保你的内容自然地覆盖了这些语义点,等于是在帮AI更容易地判定「这篇内容确实在回答这个问题」,从而提高被引用的概率。词频和短语分析,在GEO时代不仅没过时,反而多了一层新用途。

怎么用这个工具拆解一个竞品页面?五步实操

落到具体操作,标准流程是这样的:

第一步,拿到竞品正文。打开排名靠前的英文页面,复制正文部分;如果嫌麻烦,工具支持直接粘贴整段HTML,它会自动剥掉标签、提取可见文本,还能顺手解析出title和meta描述。

第二步,运行分析。粘贴后提交,服务端会完成分词、停用词过滤、密度计算和1到6gram的全部提取。

第三步,先看单词高频榜。扫一眼实词频率排行,三秒钟确认这篇内容到底在讲什么主题——这是个快速的「跑题检测」。

第四步,重点看N-gram短语榜。bigram和trigram是精华,它们暴露了竞品真正在反复强化的语义搭配。多拆几个竞品,取它们短语榜的交集,那就是这个主题的「必备词汇表」。

第五步,对照补缺口。把竞品的高频短语清单和你自己的内容比对,缺哪些补哪些——但记住是自然地融入,不是机械地塞进去。

🔤 工具直达:英文关键词词频与N-gram分析器
粘贴英文文本或HTML,自动分词、过滤停用词、计算密度,并提取1到6词的高频短语排行。本文讲的位置间隙约束算法,都在它的服务端真实运行。

除了词频和短语,工具还顺手告诉你哪些文本信号?

很多人用这工具只盯着词频榜,其实它在分词过程中还顺带产出几个容易被忽略、但很有用的文本画像指标。

句子总数与平均句长。工具用正则切句号、问号、感叹号统计句子数,再除以总词数得到平均句长。这个数能粗略反映可读性——平均句长动辄25词以上的英文内容,读起来会很费劲,对面向大众的页面是减分项。如果你发现竞品的内容句子普遍短、节奏明快,那也是你该学的写法。

平均词长与词长分布。工具统计每个词的字符长度并分桶,算出平均词长。词长偏高,往往意味着大量专业术语、长单词,内容偏学术;词长适中、短词多,内容更口语化、更易读。这是判断一篇内容「到底写给谁看」的隐形信号。

每个词的位置分布。前面提过,工具会记录每个词最多60个出现位置。把这个信息可视化,你能看出一个核心词是均匀铺满全文(健康的主题覆盖),还是扎堆在某一两段(局部堆砌的危险信号)。均匀分布意味着整篇内容都在围绕主题展开,这正是搜索引擎喜欢的「主题一致性」。

需要提醒的是,词频统计回答的是「哪些词出现得多」,但「出现得多」不完全等于「重要」。要衡量一个词对这篇内容的真正权重,还得考虑它在整个语料库里是否常见——一个所有文章都高频的词,区分度其实很低。这正是TF-IDF要解决的问题,保哥在TF-IDF分析器使用教程那篇里讲了怎么用逆文档频率给词频「加权打折」,和本文的纯频率统计正好互补:词频告诉你「用了多少」,TF-IDF告诉你「这个用法有多独特」。

一个真实案例:N-gram怎么帮一个外贸站补全了内容缺口?

保哥之前带过一个做宠物智能用品的外贸独立站,主推一款自动喂食器,目标词是「automatic pet feeder」。他们自己写的产品长文有2000多词,关键词也铺了,但卡在第二页死活上不去。

我们把Google首页前6名的英文页面正文逐个丢进词频与N-gram分析器,把每篇的bigram和trigram榜拉出来取交集,结果很说明问题。这6篇竞品的高频短语榜里,反复出现「portion control」「stainless steel bowl」「app controlled」「power outage backup」「dishwasher safe」这些2到3词的固定搭配——而客户那篇长文,五个里只覆盖了「app controlled」一个。

剩下那几个短语对应的,其实是用户买自动喂食器时最关心的几个真实顾虑:能不能定量、碗好不好清洗、断电了怎么办。客户的文章字数不少,但全在讲品牌故事和泛泛的卖点,恰恰漏掉了这些买家最在意、Google也认定为强相关的语义点。

诊断清楚后,补救很直接:围绕缺失的那几个短语各补一个小节,老老实实讲清楚分量控制怎么设、不锈钢碗能不能进洗碗机、断电后有没有电池兜底。改完两个月,这个词从第14名爬到了第6名。这个案例里,N-gram分析的价值不在于教你堆词,而在于它像一台X光机,把「竞品共同覆盖、而你恰好缺失」的语义缺口照得清清楚楚——这种缺口靠人眼读六篇英文长文,是很难系统性发现的。

三个工具怎么串起来?选词、拆词频、补缺口

词频分析器在保哥的工具流水线里处于中间一环。它前面是选词,后面是补缺口,三个工具各管一段,连起来才是完整的内容优化闭环。

上游——选词。动手分析词频之前,你得先知道要攻哪个目标词。这一步用关键词机会得分模型从几百个候选里筛出机会最高的TOP20,定下方向。没有明确的目标词,拆词频就是无的放矢。

本环——拆词频。目标词定了,用词频与N-gram分析器把排名靠前的竞品页面拆开,搞清楚这个主题真正该覆盖的核心词和固定短语,画出语义网络的地图。

下游——补缺口。知道了该覆盖哪些词,再用竞品内容差距分析器把你的整个页面和竞品做27维度对比,看除了词汇之外,结构、Schema、FAQ、数据点上还差什么。

选词解决「做不做」,词频解决「怎么铺」,缺口解决「还差啥」。词频分析器卡在中间,承上启下——它把上游选定的抽象目标词,翻译成下游可以逐项补齐的具体词汇清单。这一环不做,你就只能凭感觉堆关键词,做了,你的内容才有了精确的语义坐标。

用N-gram分析最容易踩的三个坑

这工具好用,但保哥见过太多人用错方向,反而被数据带偏。三个最常见的坑,提前给你提个醒。

第一个坑:把竞品的高频短语当成「必须照抄的填空题」。N-gram告诉你竞品覆盖了哪些语义,但不等于你要把这些短语原封不动塞进文章。Google能识别同义和近义表达,「stainless steel bowl」和「metal feeding tray」在它眼里是相关的。正确做法是理解这些短语背后代表的是哪个用户关注点,然后用你自己的话把这个点讲透,而不是机械地复读关键词。照抄短语只会让内容读起来像拼凑的,反而触发低质量信号。

第二个坑:只看频次最高的几个,忽略中频的长尾短语。很多人扫一眼bigram榜前三名就走了,但真正的机会往往藏在4-gram、5-gram这些中频长短语里。「how to clean automatic feeder」这种5-gram,频次可能不高,但它精准对应了一个具体的长尾搜索意图,做成一个H3小标题或一段FAQ,就能吃到一批长尾流量。头部短语大家都覆盖了,差异化恰恰在长尾。

第三个坑:拿单篇竞品的数据就下结论。单篇文章的词频,掺杂了这个作者的个人写作习惯和措辞偏好,噪声很大。某个短语在一篇里高频,可能只是这位作者爱用这个说法。一定要多取几篇(前面说的5到8篇)求交集,被多篇竞品共同高频使用的短语,才是这个主题真正的「行业共识词汇」,单篇的高频词参考价值有限。

说到底,N-gram分析器是一台诊断仪器,不是一台自动写作机。它负责把竞品的语义骨架和你的内容缺口照清楚,但怎么补、用什么措辞补、补到什么深度,仍然是你这个内容操盘手的判断。工具给数据,你给判断,两者缺一不可。

中文为什么不能直接用?给中文场景的替代信号

必须诚实地说:这个工具是为英文设计的,中文内容直接丢进去会得到一堆没意义的结果。原因是底层的分词逻辑。

英文天然用空格分词,「content marketing strategy」一眼就能切成三个词。但中文是连续书写的,「内容营销策略」这六个字,机器不知道该切成「内容/营销/策略」还是「内/容营/销策略」。工具用的那个[a-zA-Z]正则只认英文字母,遇到中文字符直接跳过,所以中文文本进去,分词环节就废了,后面的密度、N-gram全是空的。停用词表也是纯英文的,对中文同样无效。

那做中文SEO就用不上这套思路了吗?方法论通用,只是要换实现。中文的等价分析需要专门的中文分词器(比如jieba、HanLP这类),先把句子切成词,再统计词频和「词组共现」——中文里的「N-gram」对应的是切词后的二元、三元词组搭配。

这里还有个中文特有的坑:中文分词本身就有歧义,「自动喂食器」可以切成「自动/喂食器」也可以切成「自动/喂食/器」,不同分词器、不同词典切出来的结果不一样,会直接影响后面的词频统计。所以做中文词频分析时,选一个词库够新、对你所在行业术语覆盖好的分词器很重要,必要时还得自己往词典里补充行业专名,否则「跨境电商」「独立站」这类复合词会被切碎,统计就失真了。

如果你手头没有中文分词工具,一个朴素但有效的替代信号是:直接在竞品页面里搜索你的目标词,数一数它和哪些修饰词、限定词高频地一起出现,手动整理出一份中文的「核心短语表」。逻辑和工具完全一样,只是把自动分词换成了人工观察。量虽然小,但对单个目标词的精细打磨,人工观察反而更准。

所以这个工具最适合的,是做英文站、外贸独立站、面向海外市场内容的同行。如果你的战场在英文世界,它能帮你把竞品的词汇骨架拆得明明白白;如果你做中文内容,请把它当成一个理解N-gram原理的教具,再用中文分词工具去落地同样的方法。把局限说在前头,才不至于让你拿错工具白忙一场。

常见问题解答

关键词密度到底应该做到多少?

没有标准答案,别再追求2%或3%这种神话数字。密度只在异常时才有意义:过低(0.1%以下)说明你没把目标词写进内容,过高(5%以上)有堆砌风险。正确做法是让关键词自然地出现在标题、首段和正文里,落在一个读起来不别扭的区间就行,把精力放在内容质量而不是凑密度上。

为什么要看N-gram,光看单词频率不行吗?

因为单词太泛、丢失语义。「marketing」这个词可以属于无数话题,但「content marketing」「email marketing」是完全不同的方向。N-gram能捕捉单词组合成的固定短语,这些短语才真正承载主题。看竞品的bigram、trigram榜,比看单词频率更能告诉你一篇内容到底围绕什么在写。

位置间隙约束是干什么用的?

它用来过滤掉跨句子的伪短语。如果机械地把连续N个词拼起来,一句话结尾的词和下句开头的词会被错误地组成短语。工具规定一个N-gram里首尾词的字符距离不能超过阈值(bigram50、trigram100,逐级放宽到sixgram260),超过就跳过,确保提取出的都是真正连在一起表达一个意思的短语。

这个工具能分析中文内容吗?

不能直接用。工具的分词正则只认英文字母,中文是连续书写没有空格,机器无法用同样方式切词,所以中文文本进去会得到空结果。中文需要用专门的分词器(jieba、HanLP)先切词再统计。没有工具时,可以手动观察竞品页面里目标词和哪些修饰词高频共现,整理出中文核心短语表,方法论是一样的。

停用词为什么要剔除?会不会丢信息?

停用词是the、is、and这类出现频率极高但不携带主题信息的词。统计前剔除它们,是为了让真正反映内容主题的实词浮上来,否则频率榜前几名永远是这些空洞的虚词。这是信息检索的标准做法,不会丢失有价值的信息,反而让信号更清晰。当然在分析某些特定短语时停用词有意义,但对词频统计来说剔除利大于弊。

分析竞品时,丢几篇文章比较合适?

建议取目标词排名前5到8篇的英文页面,分别分析后取它们N-gram榜的交集。单篇可能有作者的个人用词偏好,但多篇共同的高频短语,才是Google认为和这个主题强相关的「行业共识词汇」。交集里的短语,就是你内容必须覆盖的核心搭配清单。

权威参考资料

FAQPage + Article AI 引用友好版

TL;DR · 60–80 字摘要 · 适用 ChatGPT / Perplexity / Gemini / 文心 引用

还在纠结关键词密度做到2%还是3%?那是早就该扔掉的老黄历。真正能看清一篇高排名内容词汇骨架的,是把文本拆成2到6词固定短语的N-gram分析。本文讲清它怎么用位置距离筛掉跨句伪短语,以及为什么只适合英文。

关键实体 · Key Entities

  • 关键词密度
  • 页面SEO
  • 关键词词频
  • N-gram分析

引用元数据 · Citation Metadata

title:       英文关键词词频怎么分析?从密度神话到N-gram固定短语的完整拆解
author:      张文保 (Paul Zhang) — PatPat SEO 经理
url:         https://zhangwenbao.com/keyword-analyzer-ngram-density-content-structure-guide.html
published:   2026-01-27
modified:    2026-01-27
source-type: First-hand expert commentary
language:    zh-CN
license:     CC BY-NC-SA 4.0 (要求保留原文链接与作者归属)
分享到
标签
版权声明

本文标题:《英文关键词词频怎么分析?从密度神话到N-gram固定短语的完整拆解》

本文链接:https://zhangwenbao.com/keyword-analyzer-ngram-density-content-structure-guide.html

版权声明:本文原创,转载请注明出处和链接。许可协议: CC BY-NC-SA 4.0

继续阅读
发表评论
分享到微信 或在下方手动填写
支持 Ctrl + Enter 提交