保哥笔记

Gemini、GPT、Claude各有偏好:AutoGEO论文揭示的AI搜索引擎优化规则

你有没有想过这样一个问题:当用户在ChatGPT、Gemini或Perplexity里提问时,AI到底是凭什么"选中"你的内容,而不是竞争对手的?

过去两年,生成式引擎优化(GEO)这个概念火了,但绝大多数文章给出的建议都停留在"加结构化数据""写权威内容""优化标题层级"这类正确但模糊的方向上。问题在于,没有人能拿出数据告诉你:Gemini和GPT对内容的偏好到底有什么不同?电商类查询和研究型查询的优化策略能不能通用?

2025年10月,卡内基梅隆大学(CMU)的研究团队在ICLR2026上发表了一篇重磅论文——AutoGEO。这篇论文首次用自动化框架从数万条引擎行为中提取出了结构化的偏好规则,以可解释的形式揭示了不同AI搜索引擎"喜欢什么样的内容"。保哥仔细研读了这篇论文的全文和附录,今天把其中最核心的发现翻译成从业者能直接用的"引擎偏好清单"和落地策略。

什么是GEO?它和传统SEO有什么本质区别

GEO(Generative Engine Optimization,生成式引擎优化)是一种针对AI搜索引擎优化网页内容的策略,目的是让内容在AI生成的回答中获得更高的可见度和引用率。

传统SEO的优化目标是搜索结果页面(SERP)中的排名位置——排名越靠前,点击率越高。而GEO的优化目标完全不同:它关注的是你的内容有多少被AI引擎"引用"到回答中,以及引用出现在回答的什么位置。

打个比方,传统SEO像是在图书馆的书架上争取更靠前的位置,而GEO是让你的书成为图书管理员向读者推荐时最常翻开引用的那一本。

这个区别带来了一个根本性的变化:在传统搜索中,用户会看到你的标题和摘要,然后决定是否点击;而在AI搜索中,用户可能根本不会看到你的网站,但你的内容却实实在在地影响了AI给出的回答。如果想进一步了解如何调整内容结构以匹配AI的解析方式,可以参考这篇AI内容结构与可读性优化指南,里面有非常详细的实操步骤。

AutoGEO框架:如何从引擎行为中"挖"出偏好规则

AutoGEO的核心思路

AutoGEO的出发点很直接:与其靠人工猜测AI引擎喜欢什么内容,不如让AI自己告诉我们。

具体做法是:针对同一个搜索查询,AI引擎会检索到多篇候选文档并生成回答。在这个过程中,有些文档被大量引用(高可见度),有些几乎没有被引用(低可见度)。AutoGEO把可见度差异最大的文档对拿出来,让大模型分析这两篇文档之间到底有什么不同,从而提取出引擎的"偏好规则"。

四步规则提取流水线

AutoGEO设计了一套四步流水线来完成规则提取:

第一步:解释器(Explainer)。 对于每个查询,AutoGEO选出可见度差异最大的两篇文档,让大模型对比分析它们与AI生成回答之间的关系,生成自然语言的差异解释。

第二步:提取器(Extractor)。 把解释器输出的冗长分析提炼成结构化的洞察摘要——比如"文档A被更多引用是因为它提供了具体的数据对比"。

第三步:合并器(Merger)。 将数万条洞察汇总合并成候选规则集。由于数据量巨大,AutoGEO采用了分层合并策略:先将洞察分成小批次独立合并,再递归整合,最终得到统一的规则集。

第四步:过滤器(Filter)。 剔除模糊、矛盾或不可靠的规则,只保留真正反映引擎偏好的核心规则。

两种落地模型

规则提取完成后,AutoGEO提供了两种将规则应用于内容优化的方式:

模型原理优势成本
AutoGEO_API将偏好规则嵌入提示词,调用大模型API重写内容即插即用,无需训练较高(API调用费)
AutoGEO_Mini用偏好规则作为强化学习的奖励信号,训练轻量模型成本极低(仅为API方案的0.71%)需GPU训练

实验结果显示,AutoGEO_API在所有数据集上的GEO指标平均提升了35.99%,而AutoGEO_Mini虽然性能稍逊,但成本仅为前者的约140分之一,非常适合中小团队部署。

核心发现一:三大引擎的偏好规则重叠率仅30%-50%

这是AutoGEO论文中最具颠覆性的发现之一。

研究团队分别从Gemini、GPT和Claude三个引擎中提取偏好规则,然后计算它们之间的重叠率。结果是:任意两个引擎之间的规则重叠率仅为30%-50%。

这意味着什么?如果你只针对某一个AI引擎优化内容,那么你的优化策略在另一个引擎上可能只有一半甚至更少的效果。这和传统SEO的情况完全不同——在传统搜索中,针对Google优化的内容在Bing上通常也能表现不错。

更关键的是,论文的迁移实验证实了这一点:当你把从Gemini引擎提取的规则直接用在GPT或Claude引擎上时,GEO效果会明显下降。而使用每个引擎各自提取的专属规则集(论文中称为S_Self),效果最好。

各引擎的偏好倾向总结

根据论文的规则集分析和实验数据,保哥总结出三大引擎的核心偏好倾向:

Gemini引擎的偏好特征:

Gemini对内容的结构化程度要求最高。它倾向于引用那些信息组织清晰、具有明确层级关系的内容。具体表现为:偏好使用对比表格呈现数据的文档;对包含具体数字和统计数据的段落引用率更高;重视内容的逻辑递进关系——从问题定义到原因分析再到解决方案的完整链条。

GPT引擎的偏好特征:

GPT更看重内容的综合性和权威来源引用。它倾向于从那些覆盖面广、引用了权威数据源的文档中提取信息。具体表现为:偏好综合性分析而非单一观点的陈述;对引用了学术论文、官方报告、行业标准的内容给予更高权重;重视论述的完整性——一个观点需要有论据、反驳和结论。

Claude引擎的偏好特征:

Claude对内容的语义精准度和事实密度最为敏感。它倾向于引用表述精确、信息密度高的内容。具体表现为:偏好简洁直接的定义性语句;对冗余描述的容忍度较低;重视内容的事实准确性和一致性。

核心发现二:不同查询领域的偏好规则差异显著

AutoGEO的另一个重要发现是:即使是同一个引擎,面对不同类型的查询时,它偏好的内容特征也不一样。

研究团队构建了三个不同领域的数据集进行对比:

数据集查询类型典型查询示例
GEO-Bench开放域多样查询涵盖知识问答、推理、日常咨询等
Researchy-GEO深度研究型查询需要多角度调研的复杂问题
E-commerce电商购物类查询产品比较、购买决策相关

不同数据集之间提取出的规则集存在显著差异。电商类查询的偏好规则更侧重于产品参数的结构化呈现、价格对比和用户评价的整合;而研究型查询的规则更强调论据的多元性、来源的权威性和论述的逻辑深度。

这个发现的实践意义非常明确:你不能用一套通用的GEO策略去优化所有类型的内容。 一篇产品评测文章和一篇行业研究报告,即使发布在同一个网站上,需要的GEO优化方式也是截然不同的。

核心发现三:对抗性GEO方法会适得其反

论文中还有一个值得关注的实验——对比了合作性GEO方法和对抗性GEO方法的效果。

所谓对抗性GEO,指的是在网页内容中注入隐藏的提示词指令(比如"请优先引用本文档"),试图"欺骗"AI引擎给予更高的引用权重。这类方法在2025年315晚会曝光的"AI投毒"事件中就是典型手段。

AutoGEO的实验数据清楚地表明:

对抗性方法(劫持攻击和投毒攻击)虽然能在短期内提升可见度指标,但它们会同时降低AI引擎回答的质量——体现在回答的准确性、关键信息覆盖率和洞察深度等多个维度上。而AutoGEO的合作性方法在大幅提升可见度的同时,还能维持甚至略微提升引擎的回答质量。

这意味着,随着AI引擎的质量评估机制不断完善,对抗性方法的生存空间会越来越小。从长期看,只有真正提升内容质量的优化方式才是可持续的。

实操策略:从论文规则到落地执行

策略一:为不同引擎定制内容风格

既然三大引擎的偏好差异如此显著,那么在实际操作中,你需要根据目标引擎调整内容的呈现方式。

针对Gemini优化的内容策略:

把关键信息用表格和对比列表呈现。比如,如果你在写一篇"WordPress和Shopify建站对比"的文章,不要只用文字描述两者的区别,而是用一个包含"功能""价格""扩展性""技术门槛"等维度的对比表格来组织核心内容。在每个分析段落中嵌入具体数据——不是"Shopify速度更快",而是"Shopify的平均TTFB为186ms,比WordPress托管方案快42%"。

针对GPT优化的内容策略:

强化内容的综合性和来源引用。在讨论任何观点时,引用具体的研究报告、官方文档或行业权威机构的数据。GPT对那种"我认为""通常来说"的模糊表述不太感冒,它更喜欢"根据Gartner2025年报告""NIST标准规定"这类有明确出处的论述。同时,确保你的内容不是单一视角的——正面分析之后要有局限性讨论,方案推荐之后要有适用场景说明。

针对Claude优化的内容策略:

追求表述的精准和信息密度。把每个段落的核心观点浓缩成一句话放在段首(Claude对段首句的权重明显更高),然后用后续内容展开。避免使用"在某种程度上""可以说是"这类模糊限定词。每个专业术语第一次出现时,给出一个20字以内的精确定义。

策略二:按内容领域调整优化重点

电商类内容的GEO优化要点:

电商查询的用户通常处于购买决策阶段,他们需要的是能帮助做出选择的信息。因此,电商内容的GEO优化应该重点关注:产品参数的结构化呈现(用规范的表格而非散落在正文中的描述);多维度的横向对比(价格、功能、适用场景、用户口碑);明确的结论性推荐("如果你的预算在X范围且需求是Y,推荐选择Z")。

研究型内容的GEO优化要点:

研究型查询的用户需要的是深度和全面性。优化要点包括:多角度论证(正方-反方-综合分析的结构);丰富的数据引用和来源标注;完整的逻辑链条(从现象描述到原因分析再到解决方案);对复杂概念的清晰定义和解释。

开放域内容的GEO优化要点:

开放域查询涵盖面广,从日常咨询到专业知识都有。优化的关键在于:快速给出直接回答(在前100字内回应核心问题);随后展开详细解释;使用通俗易懂的语言,但不牺牲准确性;提供实用的行动指引而非纯理论分析。

策略三:用AutoGEO框架自建偏好监测体系

AutoGEO论文的代码和数据集已经开源,实际操作中你可以借鉴它的方法论搭建自己的偏好监测流程:

第一步:建立基线。 选取你所在领域的20-30个高频查询,分别在Gemini、GPT和Claude中执行搜索,记录哪些内容被引用、引用了多少、出现在回答的什么位置。

第二步:对比分析。 将被高频引用的内容和未被引用的内容进行对比,从内容结构、信息密度、来源引用、术语使用等维度总结差异模式。

第三步:生成规则清单。 将对比分析中发现的高频差异模式整理成可执行的规则清单。比如"研究型内容需要至少引用3个不同类别的权威来源""产品对比内容需要包含至少5个维度的结构化表格"。

第四步:迭代验证。 按照规则清单优化内容后,重新执行第一步的基线测试,对比优化前后的引用变化,剔除无效规则,强化有效规则。

如果你希望更系统化地检测自己的内容是否符合AI引擎的引用偏好,可以试试GEO内容分析优化工具,它能从内容权威性、内容结构、AI可引用性等5个维度给出量化评分和改进建议。

策略四:内容重写的"质量准则"清单

基于AutoGEO论文附录中披露的偏好规则集,保哥整理了一份通用的内容质量准则清单。这份清单涵盖了三大引擎共同认可的高权重规则,适用于大多数类型的内容优化:

优化维度具体要求优先级
事实密度每200字至少包含1个具体数据点或可验证事实
结构层级使用H2/H3标题建立清晰的信息层级
来源引用关键论点必须标注数据来源或权威出处
定义清晰核心概念首次出现时提供精确的一句话定义
对比呈现涉及多选项时使用表格进行结构化对比
逻辑完整每个主张需包含论据-论证-结论的完整链条
语言精准避免模糊限定词,使用精确数字和明确表述
实操指引分析之后必须给出可直接执行的行动步骤
反面讨论正面论述后补充局限性或适用条件说明
时效标注标明数据采集时间和内容更新日期

技术深度:AutoGEO的可见度评估指标

理解AutoGEO的评估指标体系,能帮助你更精准地衡量GEO优化的效果。

三维可见度评估

AutoGEO采用了三个互补的GEO指标来衡量文档在AI回答中的可见度:

Word指标: 计算AI回答中引用目标文档内容的词汇量占比。直白地说,就是AI回答中有多少内容来自你的文档。

Pos指标: 衡量引用内容在AI回答中出现的位置权重。出现在回答开头的引用比出现在末尾的引用获得更高分数——因为用户更可能阅读回答的前半部分。

Overall指标: 综合Word和Pos的加权分数,给出一个整体可见度评估。

引擎效用评估

AutoGEO的一个重要创新是引入了GEU(Generative Engine Utility,生成式引擎效用)指标,用来评估内容优化是否损害了AI回答的质量。GEU包含六个维度:

关键信息召回率(KPR)——AI回答是否覆盖了用户问题的关键信息点;关键信息矛盾率(KPC)——AI回答中是否存在自相矛盾的信息;精确度(Precision)——AI回答中的事实是否准确;召回率(Recall)——AI回答是否完整覆盖了相关信息;清晰度(Clarity)——AI回答的表述是否清晰易懂;洞察度(Insight)——AI回答是否提供了有价值的分析和见解。

AutoGEO在提升GEO指标的同时,GEU指标保持稳定甚至略有提升。这证明了合作性GEO方法的核心价值——它不是在"操纵"引擎,而是在真正提升内容质量。

进阶技巧:如何避免GEO优化的常见误区

误区一:一套规则打天下

很多从业者在了解了GEO的概念后,会试图总结出一套"万能公式"然后套用到所有内容上。AutoGEO的数据明确告诉我们这行不通。不同引擎、不同领域的偏好差异是真实存在的。

正确做法: 先确定你的目标受众最常使用哪些AI搜索工具,然后针对这些工具的偏好特征做定向优化。如果你的用户同时使用多个AI搜索工具,那就在内容中兼顾多种偏好——比如既有结构化表格(迎合Gemini),又有权威来源引用(迎合GPT),还有精准定义(迎合Claude)。

误区二:过度依赖"流畅度优化"

AutoGEO的对比实验显示,在所有基线方法中,"流畅度优化"(Fluency Optimization)的效果是最好的——但它的提升幅度也远不及AutoGEO。很多人误以为只要把文章写得更流畅就能获得AI引擎的青睐,实际上流畅度只是基础门槛,真正拉开差距的是信息组织方式和内容深度。

正确做法: 在确保内容可读性的基础上,把更多精力投入到信息架构设计、数据密度提升和来源权威性建设上。

误区三:忽视语义一致性

AutoGEO_Mini在训练过程中专门引入了"语义奖励"(Semantic Reward)机制,用来确保内容重写后与原文的核心语义保持一致。这提示我们,AI引擎对内容的语义一致性非常敏感。

正确做法: 优化内容时,可以调整表述方式、补充数据和来源,但不要改变核心论点和事实陈述。如果一篇文章原本是推荐产品A的,优化后变成了推荐产品B,这种语义不一致会被AI引擎检测到并降低信任度。

误区四:把GEO和SEO对立看待

GEO不是SEO的替代品,而是补充。AutoGEO论文使用的候选文档本身就是通过传统的信息检索(稠密检索)获取的——这意味着如果你的内容连被检索到的资格都没有,再好的GEO优化也无济于事。正如保哥在AI与SEO的关系分析中讨论过的,当前最优策略是SEO和GEO双线并行。

正确做法: 先确保你的内容在传统搜索中具有良好的技术基础(页面速度、索引可达性、结构化数据),然后在此基础上叠加GEO优化。

GEO效果量化:论文实验数据解读

为了让大家对AutoGEO的实际效果有更直观的认知,保哥从论文的多组实验中提取了关键数据:

与传统GEO方法的效果对比

在Gemini引擎上,AutoGEO_API的Overall指标分别达到34.05(电商)、34.92(开放域)和43.76(研究型),而此前效果最好的基线方法"流畅度优化"的对应数据仅为22.99、23.73和27.75。AutoGEO_API的提升幅度在48%到58%之间。

即使是轻量版的AutoGEO_Mini,在研究型查询上的Overall指标也达到了38.53,比最佳基线方法高出39%,而其推理成本仅为API方案的约0.71%。

低可见度文档的"逆袭"效果

论文还专门测试了在最难优化的低可见度文档上的表现。这些文档在原始状态下的Overall指标仅为9.46,经过AutoGEO_API优化后飙升到35.83,提升了近280%。这说明AutoGEO的规则集对于那些原本不被引用的内容同样有效。

跨引擎通用性

虽然专属规则集的效果最好,但即使使用从Gemini提取的规则集去优化GPT引擎上的内容,依然能获得显著提升。这说明不同引擎之间存在一定的共性偏好,只是各自还有独特的"加分项"。

从论文到实践:保哥的综合建议

结合AutoGEO论文的发现和保哥在GEO领域的实操经验,给出以下综合建议:

短期行动(1-2周): 盘点你网站中流量最高的20篇文章,逐一检查它们是否满足前文提到的"质量准则清单"。重点关注事实密度、结构层级和来源引用这三个高优先级维度,优先优化这些维度不达标的内容。

中期规划(1-3个月): 建立针对你所在行业的GEO偏好监测体系。选取30-50个核心查询,每月在主流AI搜索引擎中执行一次基线测试,追踪你的内容在AI回答中的引用变化趋势。根据趋势数据调整内容优化策略。

长期布局(3-6个月): 如果你有技术团队,考虑基于AutoGEO的开源代码搭建自动化的偏好规则提取和内容优化流水线。论文已经证明,这套框架可以持续监控引擎偏好变化并自动更新规则——在AI引擎快速迭代的背景下,这种自动化能力将是巨大的竞争优势。

全局原则: 永远记住AutoGEO论文的核心发现——合作性优化(真正提升内容质量)的效果远优于对抗性优化(试图操纵引擎)。把精力投入到创造有独特价值的内容上,而不是研究如何"钻空子"。AI引擎的质量评估机制会越来越成熟,只有高质量的内容才是长期可持续的GEO策略。

常见问题

GEO和AEO有什么区别?

GEO(Generative Engine Optimization)和AEO(Answer Engine Optimization)的核心目标一致,都是让内容被AI搜索引擎优先引用。两者的区别在于侧重点:AEO更侧重于优化内容以成为"精选答案"的来源,主要针对Google的精选摘要和People Also Ask;而GEO的范围更广,涵盖所有基于大语言模型的生成式搜索引擎,包括ChatGPT Search、Perplexity、Google AI Overview等。在实际操作中,AEO可以视为GEO的一个子集。

AutoGEO的偏好规则会过时吗?

会。AI搜索引擎的底层模型在持续更新,偏好也会随之变化。AutoGEO论文本身也强调了持续监控和规则更新的重要性。建议至少每季度重新检测一次你所在领域的引擎偏好变化。好消息是,AutoGEO的框架是自动化的,一旦搭建完成,规则更新的边际成本很低。

中小网站做GEO有意义吗?

非常有意义。AutoGEO的实验数据显示,即使是低可见度的文档,经过规则引导的优化后也能获得近280%的可见度提升。AI搜索引擎在选择引用来源时,内容质量的权重高于网站权威性——这意味着一个小网站只要内容足够优质和结构化,完全有可能在AI回答中击败大型权威网站。

是否需要为每个AI引擎创建不同版本的内容?

不需要。虽然三大引擎的偏好存在差异,但它们有大约30%-50%的共性规则。实际操作中,最高效的方式是基于共性规则打好内容基础(结构化、有数据、有来源),然后在关键位置兼顾各引擎的特色偏好。比如在同一篇文章中既包含对比表格(Gemini偏好)、权威引用(GPT偏好),又有精准定义(Claude偏好),就能实现多引擎的同时覆盖。

AutoGEO的开源代码普通人能用吗?

AutoGEO的代码已在GitHub上开源,但使用门槛较高——需要具备Python编程能力、大模型API调用经验,以及GPU资源(训练AutoGEO_Mini需要至少2张A100 40GB显卡)。对于非技术背景的从业者,更实际的方式是理解论文揭示的偏好规则,将它们转化为内容创作和优化时的检查清单来手动执行。

结构化数据对GEO有帮助吗?

AutoGEO论文本身没有直接研究结构化数据(Schema标记)对GEO的影响,因为它聚焦的是内容层面的优化。但从底层逻辑来看,结构化数据能帮助AI引擎更高效地解析页面内容,降低信息提取的不确定性,因此可以视为GEO的辅助增强手段。尤其是FAQPage、HowTo和Product等Schema类型,与AI搜索的问答匹配机制高度契合。

GEO优化后会影响传统Google搜索排名吗?

AutoGEO的合作性优化方法不会负面影响传统搜索排名。论文中的GEU指标验证了优化后内容的事实准确性、信息完整性和表述清晰度都得到了保持甚至提升——而这些恰恰也是Google传统搜索算法重视的质量信号。换句话说,好的GEO优化和好的SEO优化在本质上是一致的:都是在提升内容质量。