模拟和真实一致吗？

趋势一致但有差异，论文在Perplexity验证了相关性。

为什么5次采样？

LLM有随机性，5次取平均降低方差。

竞品内容哪里获取？

搜索查询词复制排名前5页面内容。

不加竞品能测吗？

可以但不推荐，至少2-3个竞品。

和评分器什么区别？

评分器单人体检，模拟平台竞技场模拟。

每次结果不同正常吗？

正常，含概率采样模拟LLM随机性。

WordCount×35%+PositionAdj×35%+Impression×30%。

GEO-bench模拟测试平台

📖 GEO-bench模拟测试平台使用说明

本工具将Princeton大学GEO论文(KDD 2024)的核心评估框架产品化——模拟生成式引擎的完整RAG（Retrieval-Augmented Generation）流程：检索Top结果→用LLM生成带引用回答→计算可见性指标。论文采用5次采样取平均的方法确保结果稳定性，本工具完全复现此方法。

一、3项可见性指标（论文Section 3）

Visibility = WordCount + Position-Adjusted + Subjective Impression

指标	公式	含义
Word Count	你的引用词数 / 回答总词数 × 100	你的内容在AI回答中占多少篇幅
Position-Adjusted	Σ words × e^{-pos/\|S\|}	位置加权——越靠前的引用权重越高
Subjective Impression	7维度综合评分	内容质量的主观感知得分

二、使用场景

2.1 内容发布前引用率预测

发布前将你的内容和排名前5的竞品内容一起输入，模拟AI引擎是否会引用你的内容、引用多少、在什么位置。低引用率说明需要先优化再发布。

2.2 A/B版本对比测试

将内容的两个版本分别运行模拟，对比引用率和可见性指标变化。例如：版本A（原文）vs 版本B（添加了引用来源和统计数据），量化GEO优化的效果。

2.3 竞品引用优势分析

输入同一查询下你和竞品的内容，查看检索排名和引用率差异。理解为什么竞品被引用而你没有——是语义相关性不够？还是缺少权威信号？

2.4 GEO优化前后效果验证

用GEO一键优化器优化内容后，在这里重新运行模拟，对比优化前后的3项指标变化，量化优化效果。

2.5 关键词/查询覆盖测试

同一内容用不同查询词运行模拟，发现内容对哪些查询引用率高、哪些低，指导内容覆盖策略。

2.6 行业竞争格局评估

输入行业核心查询+5家竞品内容，查看各家的引用概率排名，了解在AI搜索中的竞争格局。

2.7 FAQ回答质量验证

将每条FAQ回答单独作为「你的内容」，用对应的问题作为查询词运行模拟，验证FAQ回答是否足够好以被AI引用。

2.8 内容更新效果追踪

每次内容更新后运行一次模拟，建立引用率趋势追踪。观察哪些优化动作带来了最大的引用率提升。

三、使用教程

第1步：输入查询词

输入用户可能在AI搜索引擎中提出的问题。

第2步：粘贴你的内容

粘贴要测试的页面内容。

第3步：添加竞品内容

粘贴2-5个竞品的内容（模拟搜索结果Top5）。可用「加载示例」快速体验。

第4步：运行模拟

PHP服务端执行5次RAG采样，计算3项可见性指标。

第5步：查看结果

GEO可见性总分+3项指标+检索排名+5次模拟引用详情+优化建议。

第6步：优化并重测

按建议优化内容后重新运行，追踪指标提升。

四、常见问题

4.1 模拟结果和真实AI引用一致吗？

模拟基于TF-IDF语义匹配+概率采样，与真实LLM有差异但趋势一致。论文在Perplexity.ai上验证了模拟与真实环境的相关性。结果用作优化方向参考而非精确预测。

4.2 为什么要运行5次采样？

论文方法论要求：LLM生成有随机性，单次结果不稳定。5次采样取平均可显著降低方差，得到更可靠的可见性评估。

4.3 竞品内容从哪里获取？

搜索目标查询词，复制排名前5的页面内容粘贴进来。或用Ahrefs/Semrush查看该查询的排名页面内容。不需要完整HTML，粘贴主要文本内容即可。

4.4 Position-Adjusted是什么意思？

用指数衰减函数e^{-pos/|S|}加权引用位置。在AI回答开头被引用比在结尾被引用价值更高——因为用户更关注前面的内容。

4.5 Word Count指标低怎么办？

说明你的内容在AI回答中占比小。增加内容深度和独特信息量，让AI有更多值得引用的段落。

4.6 引用率0%正常吗？

如果竞品内容与查询的相关性远高于你，引用率为0是可能的。需要大幅提升内容与查询的语义匹配度。

4.7 可以不加竞品直接测试吗？

可以但不推荐。没有竞品作为对照，引用率会虚高（100%），无法反映真实竞争环境。至少添加2-3个竞品。

4.8 这个工具和GEO评分器有什么区别？

评分器分析单个内容的GEO优化程度。模拟平台模拟完整的竞争环境——你的内容+竞品一起参与AI引擎的检索和生成过程。前者是「单人体检」，后者是「竞技场模拟」。

4.9 每次模拟结果不一样正常吗？

正常。模拟包含概率采样（模拟LLM的随机性），每次结果会有小幅波动。这正是论文要求5次采样取平均的原因。多次运行的平均趋势更有参考价值。

4.10 GEO可见性总分怎么计算？

WordCount × 35% + Position-Adjusted × 35% + Subjective Impression × 30%。三项指标分别衡量引用篇幅、引用位置和内容质量。