GEO-bench模拟测试平台

RAG流程模拟 · 5次采样 · 3项可见性指标 · 引用位置分析 · A/B测试
🎯 查询词
模拟生成式引擎检索此查询时,你的内容是否会被引用
📄 你的内容
内容标识(用于结果展示)
🏆 竞品内容(模拟搜索结果Top 5)

📖 GEO-bench模拟测试平台使用说明

本工具将Princeton大学GEO论文(KDD 2024)的核心评估框架产品化——模拟生成式引擎的完整RAG(Retrieval-Augmented Generation)流程:检索Top结果→用LLM生成带引用回答→计算可见性指标。论文采用5次采样取平均的方法确保结果稳定性,本工具完全复现此方法。

一、3项可见性指标(论文Section 3)

Visibility = WordCount + Position-Adjusted + Subjective Impression
指标公式含义
Word Count你的引用词数 / 回答总词数 × 100你的内容在AI回答中占多少篇幅
Position-AdjustedΣ words × e^{-pos/|S|}位置加权——越靠前的引用权重越高
Subjective Impression7维度综合评分内容质量的主观感知得分

二、使用场景

2.1 内容发布前引用率预测

发布前将你的内容和排名前5的竞品内容一起输入,模拟AI引擎是否会引用你的内容、引用多少、在什么位置。低引用率说明需要先优化再发布。

2.2 A/B版本对比测试

将内容的两个版本分别运行模拟,对比引用率和可见性指标变化。例如:版本A(原文)vs 版本B(添加了引用来源和统计数据),量化GEO优化的效果。

2.3 竞品引用优势分析

输入同一查询下你和竞品的内容,查看检索排名和引用率差异。理解为什么竞品被引用而你没有——是语义相关性不够?还是缺少权威信号?

2.4 GEO优化前后效果验证

用GEO一键优化器优化内容后,在这里重新运行模拟,对比优化前后的3项指标变化,量化优化效果。

2.5 关键词/查询覆盖测试

同一内容用不同查询词运行模拟,发现内容对哪些查询引用率高、哪些低,指导内容覆盖策略。

2.6 行业竞争格局评估

输入行业核心查询+5家竞品内容,查看各家的引用概率排名,了解在AI搜索中的竞争格局。

2.7 FAQ回答质量验证

将每条FAQ回答单独作为「你的内容」,用对应的问题作为查询词运行模拟,验证FAQ回答是否足够好以被AI引用。

2.8 内容更新效果追踪

每次内容更新后运行一次模拟,建立引用率趋势追踪。观察哪些优化动作带来了最大的引用率提升。

三、使用教程

第1步:输入查询词

输入用户可能在AI搜索引擎中提出的问题。

第2步:粘贴你的内容

粘贴要测试的页面内容。

第3步:添加竞品内容

粘贴2-5个竞品的内容(模拟搜索结果Top5)。可用「加载示例」快速体验。

第4步:运行模拟

PHP服务端执行5次RAG采样,计算3项可见性指标。

第5步:查看结果

GEO可见性总分+3项指标+检索排名+5次模拟引用详情+优化建议。

第6步:优化并重测

按建议优化内容后重新运行,追踪指标提升。

四、常见问题

4.1 模拟结果和真实AI引用一致吗?

模拟基于TF-IDF语义匹配+概率采样,与真实LLM有差异但趋势一致。论文在Perplexity.ai上验证了模拟与真实环境的相关性。结果用作优化方向参考而非精确预测。

4.2 为什么要运行5次采样?

论文方法论要求:LLM生成有随机性,单次结果不稳定。5次采样取平均可显著降低方差,得到更可靠的可见性评估。

4.3 竞品内容从哪里获取?

搜索目标查询词,复制排名前5的页面内容粘贴进来。或用Ahrefs/Semrush查看该查询的排名页面内容。不需要完整HTML,粘贴主要文本内容即可。

4.4 Position-Adjusted是什么意思?

用指数衰减函数e^{-pos/|S|}加权引用位置。在AI回答开头被引用比在结尾被引用价值更高——因为用户更关注前面的内容。

4.5 Word Count指标低怎么办?

说明你的内容在AI回答中占比小。增加内容深度和独特信息量,让AI有更多值得引用的段落。

4.6 引用率0%正常吗?

如果竞品内容与查询的相关性远高于你,引用率为0是可能的。需要大幅提升内容与查询的语义匹配度。

4.7 可以不加竞品直接测试吗?

可以但不推荐。没有竞品作为对照,引用率会虚高(100%),无法反映真实竞争环境。至少添加2-3个竞品。

4.8 这个工具和GEO评分器有什么区别?

评分器分析单个内容的GEO优化程度。模拟平台模拟完整的竞争环境——你的内容+竞品一起参与AI引擎的检索和生成过程。前者是「单人体检」,后者是「竞技场模拟」。

4.9 每次模拟结果不一样正常吗?

正常。模拟包含概率采样(模拟LLM的随机性),每次结果会有小幅波动。这正是论文要求5次采样取平均的原因。多次运行的平均趋势更有参考价值。

4.10 GEO可见性总分怎么计算?

WordCount × 35% + Position-Adjusted × 35% + Subjective Impression × 30%。三项指标分别衡量引用篇幅、引用位置和内容质量。