# 保哥笔记 — 百度SEO > 本分片含 12 篇文章,按发布日期倒序。全部分片索引见 https://zhangwenbao.com/llms-full.md **站点**:https://zhangwenbao.com/ **分类**:百度SEO **生成**:2026-06-04 23:09:29 CST --- ## 百度SEO还有前途吗?2026年到底该不该投、怎么投的决策框架 - URL:https://zhangwenbao.com/baidu-seo-still-worth-doing-2026.html - 分类:百度SEO - 发布:2026-05-08 | 更新:2026-05-08 - 摘要:百度SEO 2026还有没有前途?答案取决于你的客户在不在百度搜、你能不能比对手更懂规则。本文拆解流量现状、AI冲击、适用生意、ROI测算与起步路径,帮你自己算清值不值得做。 - 关键词:搜索引擎优化,百度SEO,SEO决策,百度SEO前景 > **TLDR**:摘要:“百度SEO还有没有前途”——这个问题本身就问歪了。前途从来不属于“百度SEO”这么个笼统的东西,它只属于具体的人和具体的生意。在百度自然流量被AI对话、信息流、小程序一层层分食的2026,真正该问的是:你的客户还在不在百度里搜?你能不能比同行更懂百度那套不讲道理的规则?想清楚这两件事,比纠结一个空泛的“行”或“不行”有用一百倍。这篇不灌鸡汤,给你一套能照着算账、照着拍板的决策框架。 > 摘要:“百度SEO还有没有前途”——这个问题本身就问歪了。前途从来不属于“百度SEO”这么个笼统的东西,它只属于具体的人和具体的生意。在百度自然流量被AI对话、信息流、小程序一层层分食的2026,真正该问的是:你的客户还在不在百度里搜?你能不能比同行更懂百度那套不讲道理的规则?想清楚这两件事,比纠结一个空泛的“行”或“不行”有用一百倍。这篇不灌鸡汤,给你一套能照着算账、照着拍板的决策框架。 每隔一阵就有人在后台问类似的话:百度是不是不行了、还要不要投人投钱做百度SEO、是不是该把精力全搬去做谷歌和AI。问的人语气里大多带着焦虑,像是在等一个能让自己安心的答案。可惜,任何一个负责任的回答,都不可能是简单的“行”或“不行”。 ## “百度SEO还有没有前途”这个问题,为什么从一开始就问错了? 保哥先把话挑明:问“百度SEO有没有前途”,跟问“开餐馆有没有前途”是一个层级的错误。你走到任何一条商业街上看,同样是开餐馆,有的店天天排队,隔壁同样的铺面半年换了三拨老板。你能说开餐馆有前途还是没前途吗?说不了。行业的平均水温,跟你个人能不能赚到钱,是两件几乎不相干的事。 所有发展到成熟期的行业,都会呈现同一副面孔:门槛抬高了、红利期过了、闭着眼睛就能赚钱的日子没了,于是一大批当年靠运气进场的人开始喊“这行不行了”。喊得最响的,往往不是赚到钱的那批,而是没跟上规则变化、被淘汰出局的那批。他们需要一个“是行业不行”的解释,来安放自己做不好的事实。这不丢人,是人性,但你不能拿这种情绪当决策依据。 真正成熟的判断方式,是把那个笼统的大问题,拆成几个你能回答的小问题:我的目标客户还会不会在百度上搜与我相关的东西?这个搜索需求的规模,撑不撑得起我的投入?我有没有可能在我这个细分领域里,比大多数对手更懂百度的规则、把内容做得更扎实?这三个问题的答案凑在一起,才是“你”的前途,而不是“百度SEO”的前途。 这篇文章后面所有的篇幅,本质上都在帮你回答这三个小问题。所以如果你是抱着“给我一句准话”的心态点进来的,可能要稍微失望——我给不了你那句让你立刻安心的话,但能给你一套让你自己算明白、想清楚的工具。想清楚之后做出的决定,哪怕是“放弃”,也比稀里糊涂地跟风强。 顺便说一句,那些斩钉截铁告诉你“百度已死、赶紧跑”的人,和那些拍胸脯保证“百度SEO永远是金矿”的人,你都得留个心眼。前者多半是想把你引去他卖的别的服务,后者多半是怕你不做了他没生意。真相,永远藏在“看你的具体情况”这句不那么性感的话里。 ## 2026年的百度,流量还剩多少?被谁分走了? 要谈百度SEO还值不值得做,先得诚实地看清楚百度这个池子现在到底还有多少水。回避现实地喊口号,对谁都没好处。 客观说,百度搜索框那个最经典的“输入关键词、点蓝色链接”的流量,这些年确实在被稀释。稀释它的不是某一个对手,而是好几股力量同时在抽水: - 信息流与百家号:用户打开百度App,很多时候不是去搜,而是像刷短视频一样被信息流喂着看。这部分注意力,根本没走到搜索框。 - 小程序与服务直达:以前要搜了点进网站才能办的事,现在在百度生态内的小程序里直接闭环办掉了,流量出不到外部网站。 - AI对话式回答:越来越多的搜索,结果页顶部直接给一段AI生成的答案,用户看完就走,蓝链的点击被截了一道胡。 - 用户习惯的分流:买东西去电商App搜、找攻略去内容社区搜、问专业问题去垂直平台搜——综合搜索引擎承接的“万能入口”角色,被一个个垂直入口蚕食。 这些都是真的,承认它不丢人。但我要提醒你别从一个极端跳到另一个极端:入口在变,不代表搜索这件事本身消失了。一个人想找“XX设备多少钱”“XX故障怎么修”“本地哪家XX靠谱”,这种带着明确目的、自己主动发起的查询需求,是刚需,它不会因为入口花样变多就凭空蒸发。它只是从一个口子,散到了好几个口子。 而在中国市场,综合搜索这块,百度依然是体量最大的那个入口,这一点看 中国搜索引擎市场份额的公开数据 (https://gs.statcounter.com/search-engine-market-share/all/china)就有个大致谱。所以更准确的说法不是“百度没流量了”,而是“百度的流量结构变了,纯靠一篇文章蹭关键词排名躺着收割的好日子,过去了”。你得跟着它的结构变化,调整自己取水的姿势。 对做内容、做服务、客户主要在国内的生意来说,百度依然是一个绕不开、也不该绕开的入口。问题从来不是“它还有没有水”,而是“你会不会用现在这套新的方式去打水”。 ## AI搜索会不会把百度SEO彻底干掉? 这是这两年焦虑感最集中的一个点,单独拎出来说透。很多人的逻辑是:AI直接给答案了,用户不点链接了,那我辛辛苦苦做排名给谁看? 这个担忧有道理,但结论下得太急。我们换个角度想:AI给出的那段答案,是从哪来的?它不是凭空生出来的,是模型从它能信任的来源里抓取、消化、再组织出来的。这意味着游戏没有结束,只是规则从“争夺用户的点击”,变成了“争夺被AI引用的资格”。这正是GEO,也就是面向生成式引擎优化的战场。 百度自己又当裁判又当运动员——它一边用文心大模型在搜索结果里给AI答案,一边这些答案又需要从全网内容里找素材。谁的内容结构清晰、事实扎实、在某个话题上被反复印证,谁就更可能成为那段AI答案背后的引用来源。从这个角度看,AI搜索非但没有干掉优质内容,反而把“优质”的门槛抬得更高了——那些东拼西凑、为了凑关键词硬写的垃圾内容,会被淘汰得更快,因为AI不爱引用立场摇摆、来路不明的东西。 所以我的判断是:AI搜索干掉的不是“百度SEO”,而是“低质的百度SEO”。如果你做内容的方式还停留在五年前那套关键词堆砌、伪原创洗稿、买链接冲排名,那AI时代确实会加速把你拍死。但如果你做的是真正能解决用户问题、有一手信息、有专业判断的内容,AI时代反而给了你一条新的曝光通道:你的内容可能不再只是一条蓝链,而是被揉进了那段被几百万人看到的AI答案里。 当然,得泼盆冷水:百度的AI搜索引用机制现在还是个黑箱,没人能给你一份“这样做就一定被引用”的保证书。我自己带团队摸这块,也还在边做边测的阶段——观察哪类内容容易被AI摘进答案、被摘的是哪一段、什么样的结构更友好,然后小步调整。这是个攒实验记录、攒失败案例的阶段,不是照着权威教程抄作业的阶段。但方向是清楚的:把内容做扎实,你在传统排名和AI引用这两条路上,是同时下注的。 ## 哪些生意在百度还值得砸SEO?哪些该趁早放手? 到了最实在的部分。脱离生意类型谈百度SEO值不值得,全是耍流氓。我把见过的情况归一归,给你一张对照表,你拿自己的生意往里套。 适合继续投百度SEO | 该慎重或趁早放手 | 客户主要在国内、习惯用百度查信息的生意 | 纯做海外市场、目标用户根本不用百度的出海生意 | 本地服务类(同城上门、区域服务),百度地图与本地结果是刚需 | 极度垂直、全国一个月就几十个人搜的超小众品类 | 决策周期长、客单价高,撑得起内容长期投入的B2B | 客单价极低、靠冲动消费、用户不会搜了再买的快消 | 知识、教育、医疗健康等用户会主动“搜来学”的内容型生意 | 已经被某个垂直平台或电商完全垄断搜索心智的品类 | 有真实专业积累、能持续产出一手内容的团队 | 没人能写内容、只想买排名走捷径的团队 | 这张表里,保哥想特别强调一个很多人忽略的判断维度:你的客户做决策前,到底会不会“搜”。有些生意的购买路径里压根没有搜索这个动作——看到就买、被推荐就买、逛着逛着顺手买。这种生意你做百度SEO,等于在一条没人走的路上修了条漂亮的高速公路,修得再好也没车。反过来,有些生意客户买之前一定要反复查、反复比、反复确认,那搜索就是必经之路,你守在这条路上的价值就极高。 还有个常被误判的情况:很多做出海的朋友一听“百度”就摆手,觉得跟自己没关系。但要看清楚——如果你是外贸但同时也接国内的代工、贴牌、批发订单,或者你的供应商、合作伙伴会在百度上查你的底细,那百度上有没有一个像样的官网内容,影响的就不只是流量,还有“别人查你时的第一印象”。这种“信任背书”价值,是纯算流量算不出来的。 所以别一刀切。把你的生意拆开看:获客靠不靠搜索?客户在不在百度?投入产出撑不撑得住?三个都偏“是”,那百度SEO对你就还有前途;三个都偏“否”,那再多人喊百度是金矿,跟你也没关系,趁早把钱投到对你更有效的渠道去。 ## 百度SEO和谷歌SEO,到底是不是一回事? 很多人做不好百度,根子在于拿着做谷歌的那套心法,硬往百度身上套,然后水土不服。这两个引擎骨子里就不是一个脾气,差异我在 百度SEO和谷歌SEO五维对比那篇 (https://zhangwenbao.com/baidu-vs-google-seo-essential-differences.html)里拆得很细,这里只点几个最容易让人栽跟头的。 第一个是备案这道国情门槛。在百度生态里,网站有没有备案,实打实地影响着收录速度、信任度和某些资源位的开放程度。一个没备案、放在境外服务器上的站,想在百度拿到好结果,难度比谷歌那边高出一截。这是谷歌世界里完全不存在的变量。 第二个是收录的“爱答不理”。谷歌对优质新内容的抓取收录通常比较积极,百度则常给人一种“提交了也不一定理你”的体感,尤其是新站、权重低的站,内容躺在“已抓取未收录”里是家常便饭。所以在百度,主动通过搜索资源平台推送、把收录当成一项需要工程化运营的事,比谷歌那边重要得多。 第三个是生态闭环的偏心。百度天然会给自家生态内的内容(百家号、智能小程序等)更多展现倾斜,外部独立站想拿到同等位置,内容质量和体验得明显更硬才行。谷歌相对更愿意把好位置给开放网络上真正优质的页面。这意味着在百度,你可能需要“站内站外两条腿走路”——既经营自己的官网,也在它的生态里布局。 把这几条认清,你就明白为什么照搬谷歌打法在百度会翻车。不是你不努力,是你拜错了庙、念错了经。做百度,就得用百度的逻辑去想问题,这也呼应了源头那句听着糙但很对的老话:既然在人家的地盘上玩,就得守人家的规矩,抱怨规则不公平,解决不了任何实际问题。 ## 为什么说“百度不好做”的人,多半是没做对? 前面说过,喊“百度不行了”的人里,相当一部分其实是“百度没做对”。这一节把这些常见的“没做对”摊开讲,你对照着看自己中了几条。 - 该备案不备案,把站架在境外图省事,然后怪百度不收录。 - 内容靠采集和伪原创,全网搬运、机器改写,正好撞在百度打击低质内容的算法枪口上。 - 从不用搜索资源平台,不提交、不看抓取诊断、不管索引数据,等于蒙着眼做。 - 指望几天就收录排名,没耐心熬过百度对新站的观察期,三个月没动静就断定没用。 - 完全不管落地页体验,弹窗满天飞、广告盖住正文、手机上打开一团糟。 最后这条,落地页体验,是很多人最容易低估、却被百度盯得最紧的一块。百度专门出过落地页体验方面的质量标准,把它当成收录和排名的及格线,这事我在 百度落地页体验那篇 (https://zhangwenbao.com/baidu-landing-page-experience-search-quality-whitepaper-guide.html)里专门拆过。一个内容还不错、但满屏弹窗广告、正文被挤得七零八落的页面,在百度这儿是过不了及格线的,你内容写得再好也白搭。 而搜索资源平台这个工具,更是新手和老手的分水岭。会用的人,把它当成一套工程化的运营系统——主动推送催收录、用抓取诊断查问题、盯着索引量和流量数据调方向;不会用的人,压根不知道还有这么个东西。同样做百度,一个在用仪表盘开车,一个在闭眼狂奔,结果能一样吗?这套工具具体怎么用,我在 百度搜索资源平台工程化实战那篇 (https://zhangwenbao.com/baidu-search-resource-platform-engineering-guide.html)里写得很细。 所以下次再听到有人斩钉截铁说“百度SEO没用”,你可以先在心里问一句:他备案了吗?内容是原创的吗?用搜索资源平台了吗?管落地页体验了吗?熬过观察期了吗?这五个问题问下来,大概率你就知道,到底是百度不行,还是他没做对。 ## 2026年做百度SEO,打法和五年前有什么不一样? 就算决定要做,你也不能用五年前那套老黄历。百度这些年的算法和生态,把游戏规则改了好几轮,老打法不少已经失效甚至有害。说说现在该往哪使劲。 最大的变化是内容质量的门槛被实打实抬高了。当年靠关键词密度、伪原创、外链数量就能往上冲的玩法,现在不光没用,还可能踩中算法雷区被反向惩罚。百度这些年一连串的算法更新,主线就一条:打击低质、奖励真正有用的原创内容。你做内容的标准,得从“能不能骗过机器”升级到“能不能真帮到人”。这条路上的各种降权雷区,保哥在 百度SEO算法雷区那篇 (https://zhangwenbao.com/baidu-seo-algorithm-minefield.html)里列了个清单,建议对照着排雷。 第二个变化是得放下“只做官网”的执念,学会在百度生态里布局。前面说过百度偏心自家生态,那与其跟它对着干,不如顺势用起来。官网负责沉淀深度内容和品牌,百家号这类账号负责在它的信息流里抢曝光,必要时还可以借小程序做服务闭环。把这几块当成一个矩阵协同,比死守一个独立站,在百度的现实环境里更吃得开。 第三个变化,就是前面专门讲过的给AI引用做内容。现在做百度内容,脑子里要多绷一根弦:这段内容除了给人看、给传统排名用,能不能也成为百度AI答案的素材?结论前置、事实给足、结构清晰,这些动作同时服务于人、传统搜索和AI三个对象。 把这三条串起来看,2026的百度SEO,已经不是当年那个“写文章、堆关键词、发外链”的体力活了,它更像一个综合工程:内容要真有料、运营要工程化、生态要多点布局、还要给AI时代留好接口。门槛是高了,但门槛高对真正肯下功夫的人是好事——它把那些只想走捷径的对手挡在了门外。 ## 百度SEO这些年最大的变化,其实藏在用户身上? 聊了这么多算法和生态,得把视角往回拉一拉。百度SEO这些年真正最深层的变化,不在算法的条文里,而在屏幕另一头那个活生生的用户身上。算法的每一次更新,本质上都是在追着用户行为的变化跑。看不懂用户在怎么变,你就只能被动地猜算法,永远慢半拍。 第一个变化,是用户的搜索行为从“单一入口”彻底碎片化了。十年前,遇到任何问题,大多数人的第一反应就是打开百度。今天,同一个人买东西去电商平台搜,找做饭攻略去内容社区搜,问专业问题去垂直平台搜,刷着信息流被动接收资讯。综合搜索引擎那个“万能入口”的角色被拆散了,用户会在不同场景下,本能地选择他觉得最对路的那个入口。这对你的意义是:你得想清楚,你的目标用户在“想到你这类产品或服务”的那个具体场景里,第一反应到底会不会打开百度。会,你就守得有价值;不会,再好的排名也等不到人。 第二个变化,是用户的信任阈值被抬得越来越高。被各种标题党、软文、虚假信息反复教育之后,今天的用户挑剔多了。一个页面打开,弹窗糊脸、正文东拼西凑、一看就是为了赚广告费拼凑的,用户三秒就返回,连内容都懒得看。这种“返回”动作,恰恰是搜索引擎判断内容好坏的重要信号。也就是说,用户的不耐烦,正在通过点击和返回的数据,反向逼着你把内容和体验做扎实。糊弄用户,等于糊弄算法。 第三个变化,是移动和碎片化场景成了绝对主流。绝大多数百度搜索发生在手机上,发生在地铁里、排队时、睡前躺床上这些碎片化的瞬间。这意味着用户的耐心更短、对加载速度更敏感、对手机端的排版体验要求更苛刻。一个在电脑上看着还行、到手机上却需要不停放大缩小、广告盖住半屏的页面,在今天的主流场景里就是不及格。给手机端用户写内容、做体验,不是加分项,是底线。 第四个变化,是AI和语音正在悄悄改变用户提问的方式。越来越多的人不再输入干巴巴的关键词,而是直接打出或说出一整句口语化的问题,比如“XX设备一直报警是怎么回事”“给老人买XX哪种更合适”。query变长了、变得更像人话、更带场景和情绪了。这对内容创作是个明确的指挥棒:别再围着孤零零的关键词打转,去理解关键词背后那个真实的人,他在什么场景下、带着什么样的困扰、用什么样的话术在问。你的内容如果能精准接住这些口语化的真实意图,就同时讨好了传统搜索和AI引用两头。 把这四条连起来看,一个结论就浮出来了:百度SEO的胜负手,正在从“讨好机器”不可逆地滑向“真正读懂人”。那些还在研究怎么钻算法空子的人,会越来越累;那些扎扎实实去琢磨用户、把内容和体验做到用户心坎里的人,会发现算法其实一直站在自己这边。这是这些年所有变化背后那条最值得记住的主线。 ## 除了官网,百度生态里还有哪些被低估的流量入口? 很多人一说百度SEO,脑子里就只有一个画面:自己的官网,在搜索结果里往上爬。这个理解太窄了。前面反复说过,百度偏爱自家生态,那聪明的做法不是跟它对着干,而是顺着它的偏心,把生态里那些被低估的入口也用起来。它们各有各的脾气,配合官网能织成一张更结实的网。 把几个主要入口和它们的适用场景摊开看: 生态入口 | 擅长承接的需求 | 更适合谁 | 百家号 | 资讯型、科普型内容在信息流里被动触达 | 需要做品牌曝光、内容教育的生意 | 智能小程序 | 搜索后直接在百度内完成服务闭环 | 有在线服务、工具、预约属性的生意 | 百度知道 / 经验 | “XX怎么办”这类问答式长尾意图 | 决策前用户爱反复查证的品类 | 百度地图POI | “附近的XX”“XX在哪”的本地刚需 | 同城、区域、到店类本地服务 | 百度爱采购 | 采购方主动找供应商的B2B询价 | 工业品、原材料、批发类B2B | 这里头,本地服务类生意最该补上百度地图这一课,却最常被忽略。一个做同城上门维修、区域装修、本地餐饮的生意,用户搜“附近XX”“XX哪家好”的时候,地图结果和本地POI信息往往比普通网页排得更靠前、更显眼。你把门店信息、服务范围、用户评价在地图生态里经营好,拿到的可能是比辛苦做网页排名更精准、转化更高的流量。这部分流量带着明确的“就在附近、马上就要”的意图,质量极高。 做B2B的也别错过爱采购这类采购入口。当一个采购员在百度上找供应商时,他往往不是来看你讲品牌故事的,而是带着明确的询价意图。在这种采购属性强的入口里有一个规范、可信、信息齐全的存在,接到的就是离成交最近的那类线索。这跟在官网上沉淀深度内容、建立专业形象,是相辅相成的两件事。 当然,要泼一句冷水:这些入口不是让你全都去做,那只会把有限的精力摊薄到每一处都做不好。正确的姿势是拿着前面那张生意类型的判断表,挑出和你最匹配的一两个入口,和官网形成主次配合。本地生意主攻地图、官网辅助;内容型生意官网为主、百家号补曝光;B2B官网沉淀加爱采购接询盘。想清楚主次,再动手,比一拥而上有效得多。 ## 投百度SEO之前,怎么算清这笔账值不值? 做生意最终要回到算账。喊情怀没用,我给你一个糙但能用的框架,帮你在投入之前先估个大概,别凭感觉就一头扎进去。 账分两头算。先算潜在收益这头,顺着这条链子往下估: - 你这个领域的核心关键词,在百度大概有多大的月搜索量?(用搜索资源平台、关键词工具拉个量级,不用精确) - 就算你做到首屏,这些搜索量里大概能有多少比例点进你的站? - 进来的人里,又大概有多少比例会转化成咨询、留资或下单? - 一个客户能给你带来多少价值,是一锤子买卖还是长期复购? 这几个数乘下来,哪怕都按保守的估,你也能得到一个“做成了大概值多少钱”的量级感。再算投入这头:内容生产的人力和时间、备案和建站的基础成本、搜索资源平台运营的精力,还有最容易被忽略的——机会成本,也就是这些钱和人如果投到竞价、信息流、私域上,回报会不会更快更确定。 两头一对,再叠加一个时间维度:百度SEO是个慢生意,回收周期通常要按季度甚至年来算,它的好处是一旦内容资产攒起来,边际成本低、持续性强;坏处是前期得忍受很长一段只投入没回报的安静期。如果你的现金流撑不过这段安静期,或者你的生意急需立刻见效的流量,那哪怕长期算账划算,短期也可能不适合你单押SEO,得搭配见效快的付费渠道一起上。 算账这件事没有标准答案,但走一遍这个框架,至少能让你的决定从“别人都说百度不行/百度还行”,变成“按我自己的生意估,这笔投入大概率划算/不划算”。基于自己的数做的决定,才扛得住别人三言两语的动摇。 算这笔账时,还有一项价值最容易被漏掉,却往往很关键——百度SEO 的防御性价值。你有没有想过,当一个潜在客户、一个合作伙伴、甚至一个准备挖你墙角的对手,在百度上搜你的品牌名时,他看到的是什么?如果首页干干净净全是你自己能掌控的官网和正面内容,跟首页混着几条负面、过时甚至竞品的信息,这两种情况给人的信任感天差地别。尤其在 B2B 和大宗交易里,对方在掏钱前几乎一定会搜一搜你的底细,这一搜的结果,可能直接决定了这单生意的信任基础。这种“守住自己品牌词阵地”的价值,纯按流量和转化是算不出来的,但它实实在在地影响着成交。所以算账别只盯着“能带来多少新流量”,也要算上“能守住多少信任”——后者对老客户复购、对大客户决策的隐性贡献,常常被严重低估,却可能是回报率最高的那部分投入。 ## 如果决定做,第一步该干什么? 假设你算完账,决定干。别急着招人写文章,起步的顺序很重要,走错了前面全是无用功。保哥给个稳妥的起步路径。 第一步,先验证需求是真的。花点时间用工具确认,你想做的那些词,百度上是真有人搜、有一定量级,而不是你以为有人搜。需求量级太小的方向,趁早砍掉,别在没水的井里挖。 第二步,把备案和基础设施搞定。这是国情门槛,绕不过去。备案、稳定的服务器、能正常被抓取的站点结构,这些是地基,地基没好之前别盖楼。 第三步,把搜索资源平台用起来。站一上线就接入,主动推送、盯抓取、看数据。把收录当成一件需要主动运营的事,而不是发了文章干等着。 第四步,用少量优质内容做小步测试。别一上来就铺一百篇。先用十篇八篇真正下功夫的内容,去试不同方向的反应,看哪类主题、哪种深度更容易被收录、被排名、带来咨询。用真实数据找到感觉,再往那个方向加码。 第五步,跑通一个正向循环后再放大。当你确认某个方向能稳定带来收录和线索,这时候才是加人、加产能、扩规模的时候。先证明模式跑得通,再投钱放大,这个顺序能帮你避开最常见的那种“砸了一大笔、铺了一大堆、最后发现方向错了”的惨剧。 说到底,百度SEO还有没有前途,到这一步已经不是一个需要别人回答的问题了。你验证了需求、算清了账、跑通了小循环,前途就长在你自己的数据里。它不属于“百度SEO”这个抽象的词,它属于认真把这几步走扎实的你。这才是这篇文章真正想交到你手里的东西。 ## 常见问题解答 2026年了,百度SEO到底还值不值得做? 没有统一答案,取决于你的生意。客户在国内、购买前会主动搜索、客单价撑得起长期投入、团队能产出真内容的,依然值得做;纯出海、客户不用百度、搜索量极小、只想买排名走捷径的,则不建议。 百度流量被AI和信息流分走了,搜索还有意义吗? 有。入口在分散,但用户主动查询的刚需没消失,只是从一个口子散到了多个口子。百度依然是国内综合搜索体量最大的入口。变的是取水方式,不是水没了。 百度的AI搜索会不会让SEO彻底没用? 不会让优质内容没用,反而抬高了门槛。AI答案要从可信来源抓取,结构清晰、事实扎实、被反复印证的内容更容易被引用。被淘汰的是低质内容,不是认真做的内容。 做谷歌的那套方法能直接搬到百度吗? 不能。百度有备案这道国情门槛、收录更“爱答不理”、对自家生态有展现倾斜,照搬谷歌打法常常水土不服。得用百度自己的逻辑,把收录工程化、把落地页体验和内容质量做到位。 很多人说百度不好做,是真的没前途了吗? 多半是没做对。没备案、内容靠采集伪原创、不用搜索资源平台、指望几天就收录、不管落地页体验,这几条占一条就够难做。把这些问题先排掉,再判断百度行不行也不迟。 预算有限,百度SEO和竞价该选哪个? 看你急不急。竞价见效快但停了就断、长期成本高;SEO慢但内容资产能持续产出、边际成本低。现金流紧、急需流量的可以先用竞价养着,同时慢慢攒SEO资产,两条腿走路最稳。 ## 权威参考资料 ## 百度算法十年史:从绿萝到劲风怎么防 - URL:https://zhangwenbao.com/baidu-algorithm-history-luvluo-shiliu-jinglei-qingfeng-decision.html - 分类:百度SEO - 发布:2019-11-12 | 更新:2026-05-24 - 摘要:百度的算法名是公关产物,底层其实是链接图、内容相似度、用户点击、页面结构四大信号引擎。本文把绿萝、石榴、飓风、清风、惊雷、劲风等十个算法按机制拉成时间线,讲清各自打什么、怎么从触发信号反推,并给出申诉SOP和三类真实案例的修复路径。 - 关键词:百度SEO,算法演变,反作弊,申诉流程,国内搜索 > **TLDR**:摘要:百度从2013年到2021年公开了至少12个反作弊算法,从绿萝、石榴、飓风、清风、惊雷、烽火、细雨、劲风、信风一路到极光。这些算法名是公关产物,背后是4大底层信号引擎:链接图、内容相似度、用户点击行为、页面结构与元数据。本文按时间线还原12个算法的真实机制+触发信号+申诉模板,并横向对照谷歌的Penguin/Panda/SpamBrain看哲学差,回答“2021年后百度还出不出新算法”“被打了能不能恢复”“AI内容时代百度算法去哪了”三个高频问题,附三类客户案例:出海转内销B2B工业自动化商城、食品类信息站、工业品垂直站。本文角度=12算法机制时间线+申诉SOP+常态化走向,与百度vs谷歌差异对比(横向视角)、百度搜索资源平台工程化(工具视角)、谷歌算法盘点(域外视角)三篇老文显式不同。 > 摘要:百度从2013年到2021年公开了至少12个反作弊算法,从绿萝、石榴、飓风、清风、惊雷、烽火、细雨、劲风、信风一路到极光。这些算法名是公关产物,背后是4大底层信号引擎:链接图、内容相似度、用户点击行为、页面结构与元数据。本文按时间线还原12个算法的真实机制+触发信号+申诉模板,并横向对照谷歌的Penguin/Panda/SpamBrain看哲学差,回答“2021年后百度还出不出新算法”“被打了能不能恢复”“AI内容时代百度算法去哪了”三个高频问题,附三类客户案例:出海转内销B2B工业自动化商城、食品类信息站、工业品垂直站。本文角度=12算法机制时间线+申诉SOP+常态化走向,与百度vs谷歌差异对比(横向视角)、百度搜索资源平台工程化(工具视角)、谷歌算法盘点(域外视角)三篇老文显式不同。 保哥这二十多年做SEO,从早年百度还在调“超链分析”的内核版本,一路看着绿萝、石榴在2013年那波“算法风暴”砸下来。后来每隔半年到一年百度就出一个新算法名,飓风、清风、惊雷、烽火、细雨、劲风、信风、极光,连续打了七八年。带过的客户里,被一锅端的、误伤后申诉拉回来的、自查清单一项项过的,案例攒了上百个。 但很多人对百度算法的认知卡在两个极端:一种把每个算法名当作“独立黑盒”,每出一个就去找新工具;另一种觉得“百度算法都过时了2021年后没人提了”,把老算法清单整套丢掉。两个都错。算法名只是公关包装,底层信号引擎一直在跑,只是2021年之后百度把通告频率降下来、改成“算法常态化”运行而已。把12个算法当成“4大信号引擎的迭代史”读,才看得清逻辑。 这篇把12个公开算法按时间线串一遍,每个算法回答三件事:当时打什么类型的作弊、底层用什么信号识别、被打中如何申诉。再横向对照谷歌的Penguin/Panda/SpamBrain看哲学差,最后回答“2021年后百度算法去哪了”“AI内容时代有没有专项算法”两个高频问题。差异化于站内现有的百度SEO和谷歌SEO的五维对比 (https://zhangwenbao.com/baidu-vs-google-seo-essential-differences.html)(横向视角)、百度搜索资源平台工程化指南 (https://zhangwenbao.com/baidu-search-resource-platform-engineering-guide.html)(工具视角),以及谷歌算法更新完整盘点 (https://zhangwenbao.com/google-algorithm-updates.html)(域外视角),本文是纵向时间线+机制反推视角。 ## 百度十多年算法都打了哪些类型的作弊? 先把12个算法按打击主线分类,看出“算法名是问题的镜子”——什么类型的作弊在生态里规模化泛滥,百度就出对应的专项算法去打。 作弊主线 | 对应算法(公开年份) | 典型表现 | 买卖外链/链接交易 | 绿萝(2013.2)/绿萝2.0(2014) | 友链交换平台、博客评论群发、新闻源批量购买 | 低质广告/弹窗页面 | 石榴(2013.5) | 首屏遮挡广告、强制弹窗、广告占主体内容50%以上 | 恶劣采集/伪原创 | 飓风(2016.8)/飓风2.0(2018.9)/飓风3.0(2019.10) | 全文复制、跨站抓取、跨领域采集、采集类聚合站 | 标题作弊/标题党 | 清风(2017.9)/清风2.0(2018.4)/清风3.0(2019.8) | 关键词堆砌、标题与正文不符、虚假诱导点击、下载欺骗 | 刷点击作弊 | 惊雷(2017.11)/惊雷2.0(2018.5)/惊雷3.0(2018.9) | 点击工具、流量交换、虚假转化数据 | 窃取隐私/页面劫持 | 烽火(2017.2)/烽火2.0(2018.9)/烽火3.0(2019.6) | 钓鱼页、JS劫持搜索结果、未授权收集用户信息 | B2B信息堆砌 | 细雨(2018.6)/细雨2.0(2020.5) | 标题塞联系方式、正文堆联系电话、虚假产品参数 | 恶劣聚合页 | 劲风(2020.2) | 低质量聚合页、关键词堆砌内页、自动生成无主体内容 | 翻页诱导/虚假链接 | 信风(2019.5) | “下一页”跳转不相关、虚假分页诱导广告点击 | 落地页时间作弊 | 极光(2018.5) | 页面发布时间造假、修改时间频繁刷新冒充新内容 | 把这张表读三遍能得出一条结论:百度公开过的每一个算法名,背后都是一个曾经在生态里规模化泛滥到必须专项治理的作弊形态。绿萝出来之前,国内整个SEO行业靠链接买卖吃饭;惊雷出来之前,五元包月刷点击的工具站三天换一个域名。算法长什么样,反推回去就是这个引擎当时的问题长什么样。 这套“算法即问题的镜子”的看法,能解释一个高频疑问:为什么2021年之后百度公开通告新算法的频率明显下降?不是百度不打作弊了,而是上一波规模化作弊已经被各自的专项算法压下去,新的规模化作弊没有出现到需要单独命名的程度,反作弊能力被整合进搜索整体质量模型常态化运行。 ## 从绿萝到极光的十年算法时间线怎么演变? 把12个算法按时间排成线,分三个阶段:2013-2015年基础打击期(绿萝、石榴起步打链接和广告)、2016-2019年多线深耕期(飓风、清风、惊雷、烽火、细雨、信风、极光七八个新算法密集落地)、2020年至今常态化期(劲风后公开通告频率下降,能力并入整体质量模型)。 年份 | 算法 | 主治 | 对当时站点的冲击 | 2013.2 | 绿萝 | 买卖外链 | 友链平台直接消失,靠链接堆排名的站集体掉量50-90% | 2013.5 | 石榴 | 低质广告页 | 首屏弹窗、广告占满的内容站短时间内被降权 | 2014 | 绿萝2.0 | 新闻源链接 | 新闻源平台批量发软文带链的玩法被打死 | 2016.8 | 飓风 | 恶劣采集 | 整站复制类站点首批被清,“采集站”开始要找伪原创解决方案 | 2017.2 | 烽火 | 钓鱼/隐私窃取 | 劫持搜索结果跳到博彩、菠菜导航的站点被批量下架 | 2017.9 | 清风 | 标题作弊 | 关键词堆砌、标题与正文不符的页面索引清空 | 2017.11 | 惊雷 | 刷点击作弊 | 用点击工具的站排名瞬间崩塌,部分站直接K首页 | 2018.4 | 清风2.0 | 下载欺骗 | 下载站标题与实际不符、捆绑下载被严打 | 2018.5 | 极光 | 落地页时间作弊 | 把发布时间刷成“今天”诱导点击的资讯站被降权 | 2018.5 | 惊雷2.0 | 买卖点击 | 第三方点击交易平台数据被反查,站点连带处罚 | 2018.6 | 细雨 | B2B联系方式堆砌 | B2B类目页与产品页标题塞电话号码的玩法被打死 | 2018.9 | 飓风2.0 | 跨站采集+采集聚合 | 采集类聚合站二次清洗,“伪原创工具”开始失效 | 2018.9 | 烽火2.0 | 隐私升级 | 违规收集个人信息、未告知数据用途的站被打 | 2018.9 | 惊雷3.0 | 站群刷点击 | 站群批量互相刷点击的玩法被识别 | 2019.5 | 信风 | 翻页诱导 | “下一页”跳到广告页或不相关内容的资讯站被批量降权 | 2019.6 | 烽火3.0 | JS劫持搜索结果 | 从搜索点入站后用JS跳别处的玩法被严打 | 2019.8 | 清风3.0 | 下载页虚假按钮 | 下载站多按钮诱导、强制下载推广包被打 | 2019.10 | 飓风3.0 | 跨领域采集 | 采集站把医疗、金融内容搬到无关行业站的玩法被识别 | 2020.2 | 劲风 | 恶劣聚合页 | 低质量自动聚合页、Tag站、无主体内容的聚合站被批量降权 | 2020.5 | 细雨2.0 | B2B产品参数虚假 | B2B站虚标产品参数、伪造资质的内容被识别 | 这条时间线读下来有三个观察。第一,每个算法都不是“一次性事件”,从1.0到2.0到3.0持续升级,背后是作弊方的对抗演化——飓风从单站全文复制升级到跨站采集再到跨领域采集,每一代都是反作弊方追着作弊方跑的产物。第二,2017-2019这三年是百度算法最密集的窗口,因为移动搜索流量峰值期作弊收益最高,黑产工具迭代最快。第三,2020年劲风之后公开算法明显减少,不是不打了,而是反作弊体系常态化了。 给一个客户案例感受冲击力。2017年清风算法落地后约6周,一个出海转内销的B2B工业自动化商城找到保哥救场,问题是首页和产品类目页索引断崖式下降。带团队拉了一周日志和后台,定位到1300个产品类目页的标题模板是“XX厂家|XX价格|XX加工|XX供应商”四词堆砌+关键词重复,正文又只有一个产品列表组件无任何描述性文字。这套模板正是清风算法的标准识别对象。花4周把1300个标题改回单一品类词+品牌词的自然结构,正文补品类知识段落+采购流程说明,6周后类目页索引回到原水平的85%。这种“标题模板批量化”在2017年之前是行业标准做法,清风一刀切下去倒了一片。 ## 每个百度算法到底用哪类信号识别作弊? 把12个算法按底层信号引擎归类,能看出百度反作弊体系其实只有4套基础设施:链接图、内容相似度+实体识别、用户点击行为、页面结构与元数据。所有算法都是从这4套引擎里抽出一个子集做规则化打击。 信号引擎 | 覆盖算法 | 核心特征 | 链接图与外链质量评估 | 绿萝1.0/2.0 | 外链来源域多样性、锚文本分布、链接增速、来源页质量打分 | 内容相似度+UGC实体识别 | 飓风1/2/3、石榴、劲风、细雨1/2 | 跨站文本相似度、主体内容占比、聚合页主体识别、行业相关度 | 用户点击行为 | 惊雷1/2/3、信风 | 点击轨迹真伪、停留时长、跳出率分布、翻页路径合理性 | 页面结构与元数据 | 清风1/2/3、极光、烽火1/2/3 | 标题与正文匹配度、发布时间真实性、JS跳转检测、Schema异常 | 把这4套引擎拆开看,每个算法是引擎+具体特征+阈值。绿萝就是“链接图引擎+外链质量分阈值”,超过阈值的站点触发降权。清风就是“页面元数据引擎+标题正文匹配度阈值”,匹配度低于阈值的页面索引剔除。把算法名当成“引擎参数版本”理解,比当成黑盒去查更清楚。 顺着引擎逻辑反推每个算法的触发信号,能列出更具体的自查清单。绿萝触发信号:来源域过度集中(前10个域贡献60%+外链)、锚文本100%商业词、链接增速30天内翻倍、来源页本身被百度降权。清风触发信号:标题关键词出现3次以上、标题与首段Jaccard相似度低于0.2、移动版与PC版标题不一致。惊雷触发信号:来源IP集中(80%来自20个IP段)、停留时间方差异常小、相同入口连续点击模式。 反向推机制比正向背规则有用得多。一个食品类信息站2019年信风算法落地后被批量降权,团队第一反应是“是不是写错关键词”,查了三周没找到原因。后来发现根因是站内“下一页”按钮的逻辑——为了凑PV数据,开发把“下一页”做成了跳转到“今日推荐”广告页,而不是顺承当前文章的真实下一页。这正是信风算法翻页诱导的标准识别特征:用户在A页点“下一页”期望看A2,结果跳到完全无关的B广告页。改回真实分页逻辑+保留相同文章上下文,3周后流量回到信风前水平。 第二个用机制反推的客户案例。一个工业品垂直站2020年劲风算法后聚合页流量掉了70%,业内说法是“被劲风打了”,去查百度公告反复对照“恶劣聚合页”定义但站方坚持自己的聚合页有人工编辑没问题。保哥拉了一周的日志和聚合页内容样本,发现真问题不在聚合页本身,而在聚合页的“主体内容占比”被广告组件和导航组件挤到了12%,主体在劲风的占比阈值线之下。把广告位下沉到正文末尾、合并冗余导航后主体占比回到48%,6周后聚合页流量恢复到掉量前的82%。 第三个反推案例来自2018年绿萝2.0时代。一个新闻源站点突然在两周内自然流量掉60%,团队第一反应去查近期发了什么文章,没查到异常。改用绿萝的链接图特征反推:先拉过去90天的反链增长曲线,发现一个10天窗口里新增反链来源域突然从日均15个跳到日均320个,且来源域中超过70%都是同一批新建站点。这套“反链突然集中爆发+来源域同质化”正是绿萝识别外链异常的核心特征。调查后定位到这是竞争对手雇了第三方批量给站点挂垃圾外链触发算法降权的“负面SEO”操作。处置路径分两步:第一步用站长平台拒绝外链工具把这320个域名全部提交拒绝、第二步监测后续30天反链增长曲线是否恢复正常水平。第38天自然流量回到下跌前的91%。这个案例的启示是:算法识别的不是站方做了什么,而是站方的某个信号维度数据是否异常,无论数据是站方主动制造还是被动遭遇,识别逻辑一视同仁。 ## 百度算法与谷歌反作弊算法横向对照看出什么? 把百度的12算法与谷歌历史上的反作弊算法做横向对照,能看出两个引擎在反作弊哲学上的差异。这种对照对双线运营的客户尤其有用——同一类作弊行为,百度可能专项打击,谷歌可能靠整体质量模型消化。 作弊主线 | 百度专项算法 | 谷歌对应 | 低质/买卖外链 | 绿萝1/2 | Penguin(2012)→Link Spam Update(2021/2022)→SpamBrain | 低质/采集内容 | 石榴、飓风1/2/3、劲风 | Panda(2011)→Helpful Content System(2022)→并入核心 | 标题作弊/标题党 | 清风1/2/3 | 无对应专项算法,靠整体质量模型+RankBrain+BERT消化 | 作弊点击 | 惊雷1/2/3 | 无对应专项算法,靠用户行为模型常态识别 | 钓鱼/隐私窃取 | 烽火1/2/3 | Safe Browsing、Manual Action、Site Reputation Abuse | 聚合页/Tag站 | 劲风、飓风3 | 无专项,靠Helpful Content System+Site Diversity处置 | 语义/意图理解 | 持续迭代但公开少 | Hummingbird、RankBrain、BERT、MUM | 经验/权威背书 | 权重相对靠后 | E-E-A-T持续加重 | 这张对照表里最有信息量的是“标题作弊”和“作弊点击”两行——百度专门出了清风和惊雷做点名打击,谷歌没有对应的专项算法。原因是谷歌的整体质量模型和用户行为模型从一开始就把这类操纵稀释了,标题党在谷歌生态里没有规模化收益的窗口期。百度生态里清风算法之前关键词堆砌标题能持续两年抢流量,所以专项必须出。 反过来看也成立。谷歌的Helpful Content System打“为搜索引擎写而非为用户写”的内容,百度没有完全对应的专项,因为百度的飓风、清风、劲风已经从内容主体、标题匹配、聚合质量三个角度分别打过一遍。两边的算法布局其实是同一类问题在不同生态阶段的不同响应方式。 哲学差还体现在打击节奏上。百度倾向“专项算法+集中打击+短期止血”,发布即生效、48小时见大盘变化、严打期持续2-4周。谷歌倾向“模型升级+常态调节+长期渗透”,核心更新滚动2-4周、效果在6-12个月内逐步显现。一个客户做双线运营要分别准备两套节奏的应对剧本,否则会拿百度的应对速度去等谷歌的恢复,或者拿谷歌的耐心去等百度的反应。 ## 被百度算法降权如何申诉拉回来? 被算法打中后的恢复路径分三步:诊断、整改、申诉。前两步是站方自己的活,第三步走百度搜索资源平台的申诉入口。很多客户跳过诊断和整改直接申诉,结果反馈中心回的是“请按算法规范自查”模板化拒绝。申诉的有效前提是整改证据齐全。 申诉入口有三档优先级。第一档是百度搜索资源平台的“反馈中心”,选具体算法类型提交,附整改前后对比与日志,审核周期一般3-7个工作日。第二档是站长平台的工单系统,针对反馈中心模板化拒绝后的复议,审核周期7-14天。第三档是百度搜索学堂公布的官方邮箱,针对前两档无回应的疑难案例,审核周期不可预测。 申诉环节 | 必备材料 | 常见拒绝原因 | 站点信息 | 完整域名、备案号、站点类型、主要业务 | 信息填写不完整、域名与备案不符 | 问题描述 | 受影响URL清单、降权时间、流量数据截图 | 只说“被打了”无具体URL证据 | 自查整改 | 整改前后页面截图、清单逐项对照算法规范 | 整改不彻底、仅修改样本未全站清理 | 复爬请求 | 整改URL清单(≤500条)提交主动推送API | 提交超量、URL格式不规范 | 给一个工业品垂直站申诉成功的案例感受流程。这个站2020年劲风算法后聚合页流量掉70%,前文提到的主体占比问题修复完成后启动申诉。第1天提交反馈中心选“劲风算法”类型,附1300个整改前后聚合页截图、主体内容占比统计表、整改时间轴。第3天反馈中心回复“已知悉,将持续观察”。第8天开始监测,发现部分聚合页索引开始恢复但主关键词排名未回升。第14天提交工单复议,附第3-13天恢复数据曲线请求加速重抓。第18天工单回复“已提交技术团队”。第21天主关键词排名回到掉量前的82%水平。整个流程21天,关键节点是申诉材料的完整度和整改证据的可验证性。 给两条申诉避坑经验。第一,反馈中心提交后不要在3天内重复提交,每个站点同一算法24小时内重复提交会被识别为骚扰反馈,自动降低后续审核优先级。第二,整改完成后用主动推送API把整改URL重新提交一遍触发重抓,否则百度按自然爬虫周期可能拖到4-12周才发现整改。百度主动推送的API、JS、Sitemap三种方式在这个场景里是必备工具,按整改URL规模选最快档。 再聊一类“申诉永远不批”的常见原因,避免白做工。第一类是整改不彻底——比如清风算法整改只改了首页和类目页标题,长尾文章页几千个旧标题未动,百度抽检到样本仍命中算法规则,反馈中心持续无回应。第二类是整改证据无可验证性——只提交“已整改”文字描述、没有前后对比截图、没有具体URL清单,审核员无法核实,材料默认不通过。第三类是整改路径与算法逻辑反着来——比如绿萝外链问题不去清外链反而疯狂补新外链稀释比例,这种“反向操作”反而触发更严厉的二次降权。第四类是站点本身有底层质量问题——算法触发只是表象,深层是E-E-A-T信号、备案合规性、技术架构等多重短板叠加,单算法整改解决不了根本问题,审核员看完站点画像直接搁置申诉。这四类问题里前两类是流程问题、后两类是认知问题。前两类好修,后两类需要先做完整的站点诊断再决定要不要走申诉这条路。 ## SpamBrain时代百度的反作弊算法去哪了? 2020年劲风算法之后,百度公开通告新算法的频率明显下降。2021年到2024年只零散出过几个小版本更新,没有再用“绿萝、清风、惊雷”这种公关包装的命名。这让一些团队产生错觉,以为百度反作弊体系松懈了,老算法清单可以丢掉。 真实情况是反作弊能力“常态化”了。百度官方在2022年的搜索学堂解读里明确说过,反作弊从“专项算法发布+集中打击”模式切换到“持续模型迭代+常态化运行”模式。意思是绿萝、飓风、清风这些识别能力没有消失,而是被整合进搜索整体质量模型常态运行,不再单独命名通告。这套切换跟谷歌2022年把HCU并入核心更新的逻辑完全一致——专项算法成熟到一定程度就并入主模型成为常驻信号。 时间窗 | 百度反作弊模式 | 对站方的含义 | 2013-2019 | 专项算法集中打击 | 每出一个算法集中应对一次 | 2020-2022 | 专项收尾+常态化过渡 | 劲风、细雨2收尾后转入并行模式 | 2023至今 | 整体质量模型常态化 | 反作弊信号持续运行,不再公告新名 | 对站方有三个工程含义。第一,老12算法的自查清单不能丢,反作弊信号还在跑,标题党、买外链、刷点击、采集聚合的行为照样会被识别,只是不再以“专项算法集中打击”的方式给到通告而已。第二,“流量异常下降”的诊断不能只看是否对应到某个新算法名,要按“链接图、内容相似度、用户点击、页面结构”4套引擎逐项排查。第三,关注百度搜索学堂和搜索资源平台公告的“小版本说明”,新规则不一定有公关名但会更新到规范文档里。 第三个客户案例。一个出海食品DTC品牌2024年想重启国内站抢内贸市场,2025年3月份遇到“自然排名异常下降”,团队第一反应是查2025年有没有百度新算法公告,没查到。改用12算法清单逐项排查,定位到根因是为了堆SEO收录搞了一套自动生成的产品分类聚合页(约1100个),主体内容占比12%、大量重复模板。这正是劲风算法的标准识别特征,2020年的老算法在2025年仍然在跑。把1100个聚合页合并到80个高质量分类页+给每个分类页补800字品类导购内容,6周后自然搜索流量回到下跌前的78%。 常态化时代还有一个工程动作要补:监测百度搜索的公开行为变化,不再依赖算法通告。具体三个监测点。第一个是百度搜索学堂的“算法规范”文档更新历史,每次微调都意味着判定阈值或识别覆盖面的调整,这套文档不会换名字但会改内容,每月差异化对比一次能比同行早2-4周感知变化。第二个是百度搜索资源平台后台数据字段的增减——前几年陆续新增“原创性评分”“用户停留指标”“页面体验分”等字段,每个新字段背后都对应一套算法识别能力的扩展。第三个是大盘排名波动监测,自建10-30个长尾词的每日排名追踪台账,发现非节令性的批量波动直接进入“4套引擎逐项排查”流程。这套监测体系能把“被动救火”切换成“主动预警”,是工程团队从算法时代过渡到常态化时代的必备升级。 ## AI内容时代百度算法走向何方? 2023年后AI生成内容大规模涌入站点生产管线,问题来了:百度有没有针对AI内容的专项算法?短答案是没有公开通告专项算法,但现有的飓风3.0、清风3.0、劲风、细雨2的识别信号已经把低质AI批量稿覆盖了。AI内容判别在百度生态里是“老算法的延伸”,而不是“新算法的范畴”。 具体看四个老算法对AI内容的覆盖。飓风3.0的“跨领域采集”识别会把AI批量改写、跨领域生成的稿件归入恶劣采集类。清风3.0的“标题正文不符”会把AI生成的标题党批量稿识别。劲风的“恶劣聚合”会把AI自动生成的分类页、Tag页、答案聚合页覆盖。细雨2的“虚假参数”会把AI生成的B2B产品参数页拦截。 AI内容形态 | 对应老算法 | 识别概率 | AI批量改写跨领域伪原创 | 飓风3.0 | 高 | AI生成标题党+正文不符 | 清风3.0 | 高 | AI自动聚合页/答案站 | 劲风 | 中高 | AI生成虚假B2B参数 | 细雨2 | 中 | AI助写真人审核高质量稿 | 不触发 | 低 | 这张表里最后一行是站方真正要听的——AI辅助写作+真人审核+原创信息密度,这种内容形态在百度算法体系下不会被特殊对待。百度从2023年起在百度收录抓取机制 (https://zhangwenbao.com/baidu-index-crawl-mechanism-why-not-indexed.html)的官方解读里反复强调“内容生产方式不重要,重要的是内容是否对用户有价值”,AI只是工具属性。把AI当工具用+真人补行业Know-how+保证原创信息密度,这条路百度算法不会拦。 另一个走向是百度搜索内核与AI产品的整合。简单搜索、文心一言、百度元宝这些AI产品的引用数据,会反向喂入搜索质量评估。一个站点的内容如果频繁被AI产品引用为答案来源,这本身就是质量信号。百度官方虽然没有公开“AI引用率”指标,但从近几年百度搜索资源平台数据字段的微调能看出趋势——“权威性”“有用性”“原创性”三个评分维度的权重在抬升。 ## 百度算法和工程团队的SOP怎么落地? 把前面几节的内容落到团队SOP上,分三档:日常预防、季度自查、应急响应。三档对应不同的工程动作和验收标准。 SOP档位 | 触发条件 | 核心动作 | 日常预防 | 站点常规运营 | 4套信号引擎自查清单嵌入发布流水线 | 季度自查 | 每季度1次 | 12算法清单逐项全站扫描,输出整改任务单 | 应急响应 | 流量异常下降>15% | 48小时内定位算法引擎+72小时内启动整改+7天内提交申诉 | 日常预防的关键是把反作弊清单嵌入内容发布流水线。比如标题正文匹配度阈值校验、外链增速监控、聚合页主体占比检测、落地页发布时间真实性,这4条规则做成发布前的自动检查项,超过阈值发布流程拦截。这套机制能把90%的低级触发拦截在发布之前。 季度自查的关键是用12算法清单逐项扫一遍全站,输出整改任务单。每季度1次,每次2-3周。这套自查比“出问题再排查”省很多救火成本,因为算法识别到的问题往往在站方感知前2-4周已经在累计。提前自查能在排名实质下跌前发现并修复。 应急响应的关键是48小时内定位到具体的信号引擎,不要在算法名上纠结。流量下降时先按4套引擎逐项排查:链接图(是否近期外链异常增长或来源域集中)、内容相似度(是否近期聚合页或采集页上线)、用户点击(是否数据异常)、页面结构(是否标题或发布时间字段近期变更)。定位到引擎再去对照具体算法规范做整改,比反过来快得多。 ## 常见问题解答 百度算法发布后多久会全网生效? 公开通告日通常已小范围测试2-4周,全网灰度3-7天到位。绿萝、惊雷这类硬打击算法灰度更短,48小时内能在大盘看到明显变化。清风、细雨这类涉及大量页面元数据评估的算法灰度需要5-10天才能稳态。 被百度算法降权后多久能恢复? 整改完成提交反馈到流量恢复通常2-8周。清风、细雨这类涉及标题/元数据的问题改完48小时见效快。飓风采集类问题需要全站重抓+评估周期8-12周。绿萝外链类问题需要外链生态自然清洗3-6个月。 百度2021年后还出新算法吗? 公开通告频率明显下降,反作弊能力并入搜索整体质量模型常态化运行。老12算法的识别信号仍在跑,自查清单不能丢。零星会出小版本更新但不再用大规模公关命名。 百度算法和谷歌的Panda、Penguin对应吗? 部分对应:绿萝对应Penguin/Link Spam Update的链接打击逻辑、石榴飓风对应Panda/HCU的低质内容逻辑。清风惊雷这类标题作弊和刷点击专项谷歌没有对应专项,靠整体质量模型与用户行为模型常态消化。 申诉走百度站长平台哪个入口最快? 搜索资源平台的反馈中心选具体算法类型提交最直接,附整改前后页面截图与日志能加速审核到3-7天。普通工单与官方邮箱周期更长。同一算法24小时内不要重复提交否则会被识别为骚扰反馈。 AI生成内容会被百度哪个算法打吗? 没有专项AI算法但飓风3.0的恶劣采集判定已把低质AI批量稿覆盖,加上清风3.0对标题党、劲风对自动聚合页的识别。AI辅助写作+真人审核+原创信息密度,不会被特殊对待,反而是百度推崇的方向。 百度算法可以同时触发多个吗? 可以。买外链同时大量采集的站点同时被绿萝和飓风打的客户保哥见过3-5个。恢复需要分头整改,先清外链生态再处理采集内容,否则整改进度互相拖累。可同时申诉但需在材料里分别列出整改证据。 ## 百度提交了为什么还不收录?抓取与索引机制拆解 - URL:https://zhangwenbao.com/baidu-index-crawl-mechanism-why-not-indexed.html - 分类:百度SEO - 发布:2019-05-21 | 更新:2026-06-01 - 摘要:围绕国内站长最头疼的百度不收录问题,系统讲清提交、抓取配额、快速收录权限、近重复过滤与移动适配如何层层影响入库,配两个跨行业站点的诊断与回升实录,帮你十分钟定位病灶。 - 关键词:百度收录,百度SEO,收录诊断,抓取配额,搜索资源平台 > **TLDR**:摘要:百度迟迟不收录,九成不是“没提交”,而是卡在“发现—抓取—入库—展现”这条链路的某一环,而绝大多数人盯错了环节。提交通道(sitemap、普通收录、快速收录、JS自动推送)只解决“被发现”这一步,解决不了质量门槛和抓取配额;服务器一旦频繁超时或返5xx,配额会被悄悄收紧,你越急着推送越没用。这篇按链路把每一层的真实机制拆开,给一套能定位“卡在哪一层”的诊断顺序,以及两个国内站把收录从个位数爬到稳定的实录。看完你应该能在十分钟内判断:是该改服务器、改模板、改内容,还是什么都别动只是等。 > 摘要:百度迟迟不收录,九成不是“没提交”,而是卡在“发现—抓取—入库—展现”这条链路的某一环,而绝大多数人盯错了环节。提交通道(sitemap (https://ziyuan.baidu.com/linksubmit/index)、普通收录、快速收录、JS自动推送)只解决“被发现”这一步,解决不了质量门槛和抓取配额;服务器一旦频繁超时或返5xx,配额会被悄悄收紧,你越急着推送越没用。这篇按链路把每一层的真实机制拆开,给一套能定位“卡在哪一层”的诊断顺序,以及两个国内站把收录从个位数爬到稳定的实录。看完你应该能在十分钟内判断:是该改服务器、改模板、改内容,还是什么都别动只是等。 “我sitemap提交了、主动推送也接了,为什么百度还是不收录?”这个问题被问了十几年,问法几乎一字不差,答案却几乎从来不是提问者以为的那个。大多数人默认“提交=收录”,于是把所有精力砸在通道上——换插件、加推送、刷sitemap,结果数据纹丝不动,然后归结为“百度就是慢”“百度就是难”。 真相是:百度收录是一条有先后、有闸门、有预算的流水线。提交只是把你的URL塞进流水线入口,后面每一道闸都可能把它拦下,而不同的闸要用完全不同的手段去开。把流水线拆清楚,你才知道自己那批页面到底死在第几关,也才不会拿开A闸的钥匙去捅B闸。 ## 为什么“提交了就该收录”是个根本性的误解? 搜索引擎处理一个URL,从来不是“收到→收录”的两段式,而是至少四段串行闸门:被发现、被抓取、被选入索引、被允许参与展现。前一段过不了,后面无从谈起;更麻烦的是,这四段失败后的表象在站长平台和site语法里长得很像,极容易误诊。先用一张表把“每一闸失败时你会看到什么、最容易做出的错误反应、正确动作”钉死,后面所有诊断都建立在这张表上: 卡住的闸 | 典型表象 | 常见错误反应 | 正确动作方向 | 未被发现 | 日志里完全没有Baiduspider访问该URL | 反复刷sitemap、骂百度慢 | 查robots (https://en.wikipedia.org/wiki/Robots_exclusion_standard)、站内入口、补提交通道 | 抓取受阻 | 有蜘蛛访问但大量非200、抓取频次异常低 | 去改内容、换文章 | 先修服务器与防护规则,内容暂停别动 | 未入索引 | 蜘蛛来过返200,但索引量长期不涨 | 加推送、上快速收录 | 进质量与去重诊断,查薄内容/近重复 | 入库不展现 | site能精确调出,业务词永远排不到 | 继续在收录上折腾 | 转做内容竞争力与站点权威,这是排名问题 | ## 抓取和收录根本不是一回事 很多人把“百度蜘蛛来过”等同于“收录了”。日志里看到Baiduspider访问、返回200,只能说明“被抓取”成功,它和“被选入索引库”之间还隔着一道质量与去重的筛选。一个页面完全可能被反复抓取却始终不入库——这在站长平台里表现为索引量长期不涨,但抓取频次正常。如果你只看“蜘蛛有没有来”,会得出“抓取没问题啊”的结论,然后白白在通道上耗几个月。 这里要建立一个量化习惯:不要问“百度抓我了吗”,要问“我每抓一百个URL,最后有几个进了库”。这个比率(可以叫它入库率)才是抓取这一段健康度的真信号。入库率长期低于两三成,说明你在反复用抓取预算喂引擎它不想要的东西,这件事本身会反过来惩罚你后面要抓的好内容,后面讲抓取经济学时会回到这一点。 ## 收录了,也不代表能被搜到 页面入库不代表能在搜索结果里被看到。百度有“已收录但不参与有效排序”的状态——库里有这条记录,但因为质量、时效或竞争原因,它在任何有意义的查询下都排在用户根本翻不到的位置。用户搜品牌词能调出来、搜业务词永远见不到,这通常不是“没收录”,是“收录了但没资格上桌”。 区分这两者的操作极其简单却极少有人做:拿目标URL,用site:域名加上这篇的完整标题去精确查。能精确调出,说明已入库,病在展现资格,该去做内容竞争力;精确查都调不出来,才是真没入库。诊断方向在这一步就分岔了,分错的代价是几个月白干,所以它值得被当成一条铁律。 ## site语法显示的数字,能当收录真值用吗? site:域名返回的数字是一个量级估算,不是精确库存,它会随机房、随查询时刻波动,拿它和昨天的数字比涨跌毫无意义。它唯一靠谱的用法是做三角交叉:把site量级、sitemap里的有效URL数、站长平台“已提交/已收录”三个数放在一起看趋势背离。比如sitemap有效URL三万、site量级常年只有三千且不动,那问题大概率在“入库筛选”这一关,而不是“没提交”。单看site数字本身做决策,是百度诊断里最常见的第一个错,没有之一。 ## 百度和谷歌在这条链路上差在哪几个要害? 同一套“发现—抓取—入库—展现”的骨架,百度和谷歌在几个关键节点上的脾气完全不同,混用经验是国内站的另一个高频死因。差异主要集中在备案与服务器位置、生态闭环、对新站的耐心三处,这部分在百度SEO和谷歌SEO的五维对比 (https://zhangwenbao.com/baidu-vs-google-seo-essential-differences.html)里展开过,这里只点和收录直接相关的: 环节 | 百度的脾气 | 对收录的实际影响 | 服务器位置 | 主力爬虫在境内,访问境外节点慢、丢包 | 纯境外服务器会让抓取频次天然偏低,收录速度被物理拖慢 | 备案 | 未备案站点信任基线低 | 同等内容下,未备案站入库更挑剔、爬坡更慢 | 生态闭环 | 偏好站内信号与百度系生态内外信号 | 纯外链信号对百度收录的撬动力弱于谷歌 | 新站观察 | 对新域名有较长的低配额观察期 | 前两三个月收录慢往往是机制,不是你做错了 | 这张表的实战含义是:一个准备同时吃两个引擎流量的站,服务器策略不能一刀切。常见解法是主体备案加境内服务器先把百度这条线的物理门槛降下来,再用多节点或加速把境外谷歌爬虫的访问补回来。把这一步做反,后面所有通道优化都是在一个漏水的桶里加水。 ## 百度到底怎么决定先抓你哪些页、抓多频繁? 抓取不是“雨露均沾”,它是一笔有限预算的分配。理解抓取配额的分配逻辑,是解释“为什么核心页不收录、垃圾页反而满天飞”这类怪现象的钥匙。 ## 抓取配额是按什么分配的? 可以把它粗略理解成两个量的乘积:抓取需求(这个站有多少值得抓的内容、更新有多勤)乘以抓取容量(你的服务器扛得住多大抓取压力)。需求决定它“想抓多少”,容量决定它“敢抓多少”,最终生效的是两者里更小的那个。这意味着任何一侧是短板,另一侧做得再好都没用——这是诊断时第一个要建立的判断框架。 这解释了一个反直觉现象:很多站的瓶颈不在内容,而在容量。内容明明值得抓,但服务器一被多线程抓取就响应变慢甚至超时,百度为了不把你站抓挂,会主动把抓取压力降下来——于是配额被服务器这一侧死死摁住,你写再多新内容也排不进队。诊断收录慢,服务器响应曲线和抓取频次曲线必须叠在一起看,这是最容易被忽略、却最常见的真因之一。 ## 站长平台里那个“抓取压力”手动调,为什么调了没用? 百度站长平台 (https://ziyuan.baidu.com/site/index)允许你手动给一个抓取压力上限。很多人一看收录慢就把它拉满,然后发现没变化,得出“百度后台没用”的结论。这里的机制是:你设的是上限,不是实际值。实际抓取压力是引擎在你设的上限内,根据你服务器的实时响应自己决定的。如果你的服务器在压力稍大时就开始慢、开始502,引擎会主动退到远低于上限的水平——你把天花板抬高,但地板被服务器钉死,中间那段空气没有意义。 正确用法是反过来:先做一次受控的压力观察,看服务器在多大并发抓取下响应还稳,把上限设在那个安全水位附近,再把工程精力花在让服务器能稳定承受更高抓取上(独立资源、缓存、把蜘蛛请求和真人请求的资源池隔开)。容量是工程问题,不是后台一个滑块能解决的,这个认知能省掉大量无效操作。 ## 哪些信号会让配额上行、哪些会让它下行? 配额是动态的,它对你的站做持续的“值不值得多抓”的再评估。下面这张表是按多个国内站的日志与站长平台数据反复对照后归纳的方向性规律,不是官方参数,但用来做判断足够: 会让配额上行的信号 | 会让配额下行的信号 | 稳定的高质量新内容产出节奏 | 大量抓取后发现是低质、近重复、空壳页 | 服务器响应快且稳定(无5xx、无超时) | 频繁5xx、连接超时、间歇性封爬虫IP | 站内结构清晰、重要页有内链权重灌入 | 抓取陷阱:参数URL、日历、筛选器无限衍生 | 历史抓取的页大多能进库且有用户价值 | 历史抓取的页大量进不了库(抓了白抓) | 右列最后一条是重点:百度会“记账”。如果它过去抓你一百个URL、九十个都判定无价值进不了库,它对这个站的抓取意愿会整体下调——哪怕你后来发的是好内容,也要先还掉之前透支的信任。这就是为什么站群式、采集式、模板批量生成的站,越往后越抓不动:不是某一篇被罚,是整站抓取经济学被自己搞崩了。理解了这条,你就明白为什么“先大量铺量等收录、再慢慢提质量”是个会把自己埋掉的顺序。 ## 为什么垃圾页天天被抓、核心页反而抓不到? 配额决定“总共能抓多少”,优先级决定“先抓谁”。两者是独立的两件事,很多站收录怪在后者:明明有配额,却全被消耗在你根本不在乎的URL上,真正想收的核心页排在队尾永远轮不到。 抓取优先级大致由几个信号叠加决定:URL被发现的来源质量(从高权重页内链发现的,优先级高于从某个深层列表偶然爬到的)、目录层级深度(点三次能到的页,优先级远高于点八次才能到的)、历史更新频率(经常有实质更新的URL会被更勤地回访)、以及站内被指向的次数。理解这套排序后,那个经典怪象就解释得通了:一个被几万条筛选URL包围的站,蜘蛛进来顺着链接密度最高的路径走,先把那几万个参数组合爬了个遍,配额耗尽,核心产品页那一层还没轮到——不是它不想抓你的好页,是你的站内结构把它领到沟里去了。 对应的动作很明确:把核心页的发现路径做短做硬——首页和高权重栏目页直接给核心页内链入口,sitemap里把核心页和垃圾衍生页分开提交,断掉抓取陷阱的无限链路。日志诊断时有个立竿见影的看法:把蜘蛛一天访问的URL按类型分桶统计,如果八成抓取量花在筛选/翻页/参数URL上、核心页占比个位数,问题不在配额大小,在优先级被你自己的结构带偏了。这一步常常不用加任何内容,光是把抓取预算从垃圾路径上抢回来,核心页收录就会肉眼可见地回升。 ## 服务器响应为什么是隐形的配额阀门? 这一节单独拎出来,因为它是国内中小站收录问题里被误诊率最高的一类。表象是“百度不收录新文章”,站长焦虑地换插件、加推送,真因却是共享主机在抓取高峰期间歇性502、或者安全防护把高频访问的Baiduspider当成攻击给临时拦了。 判断方法很直接:调出最近三十天的访问日志,把Baiduspider的请求按状态码分桶,再把每天非200的占比和当天的抓取量画在一起。如果非200占比一升、抓取量随之掉、隔天收录跟着停,链路就清楚了——先去修服务器和防护规则,别动内容。这里还有一个隐蔽变种:CDN或高防把蜘蛛的某些请求挡在了源站之外,源站日志看着干净,其实蜘蛛压根没真正拿到内容。诊断时除了看源站日志,还要在站长平台用抓取诊断工具实拉一次,对比它“看到的页面”和你以为它看到的是否一致。保哥见过一个站在内容上反复折腾半年,最后发现是一条把蜘蛛误伤的防护规则,改一行就回血——这类“先排除物理层”的纪律,和搜索引擎抓取索引排名的通用机制一脉相承,原理层面可参考搜索引擎抓取索引排名三步全拆解 (https://zhangwenbao.com/how-search-engines-work-crawl-index-rank.html)。 ## 提交通道到底有什么区别,为什么推送了还是不收录? “通道”是被误解最深的一块。绝大多数人以为通道是“收录开关”,其实它们只负责缩短“被发现”这一步的时间,对后面三道闸一点帮助都没有。把通道当收录保证,是百度SEO里最贵的认知错误。 ## 四个通道的真实分工是什么? 通道 | 它真正解决的问题 | 它解决不了的问题 | 适用场景 | Sitemap | 全量兜底,让引擎知道站内有哪些URL | 不提速、不保证入库 | 所有站的基础设施,必备但别指望它快 | 普通收录(手动/API提交) | 主动告知新URL,比等爬虫自己发现快 | 不保证入库,每日配额有限 | 更新频率中等的常规站 | 快速收录(需权限) | 显著压缩发现到抓取的时间,接近准实时 | 不保证入库,质量差照样不收 | 有时效价值、且已拿到权限的优质站 | JS自动推送代码 | 用户访问即触发提交,省去人工 | 只是触发提交,效果约等于普通收录 | 没有开发资源做API推送的站省事用 | 把这张表读懂,很多怪问题就自洽了。比如“我接了JS自动推送,怎么还是不收录”——因为JS推送本质只是帮你把URL提交进去,提交之后该过的质量闸一道没少。再比如“快速收录权限拿到了,烂内容还是不收”——快速收录压缩的是时间,不是标准,它让你的好内容更快被看见,也让你的差内容更快被判死。通道层面的具体接法(API、JS、Sitemap三种方式的工程实现与代码)在百度主动推送的三种实战方式 (https://zhangwenbao.com/baidu-post-real-time-push-tool.html)里写过完整实现,那篇是“怎么接通道”的施工手册,这篇是“为什么接了还不行”的机制拆解,定位不同,建议配合看。 ## Sitemap的lastmod陷阱,和普通收录配额耗尽长什么样? Sitemap最常见的翻车不是没提交,是lastmod失真:很多CMS会在每次构建时把全站所有URL的lastmod刷成当前时间。引擎一开始会信,按你说的“全站都更新了”去重抓,发现内容根本没变,几次之后就不再信任你这个站的lastmod,连真正更新的页也跟着被怠慢。Sitemap的可信度是会被你自己消耗掉的资产,乱填时间等于亲手把它废掉。正确做法是lastmod只在内容真有实质变化时才更新,没改的页就保持原值。 普通收录API有每日配额,配额耗尽时接口会明确告诉你超限,但很多人的提交脚本不看返回、只看“发出去了”。表现就是“我每天都在推啊”,实际上当天配额早就用完,后面推的全部被丢弃。该建立的监控不是“今天推了多少条”,而是“今天有多少条真正被接收、多少条因超限被拒”。把这个分开看,能立刻发现一类“看似在推、实际没推进去”的假性问题。 ## 快速收录权限怎么来,为什么会被收回? 快速收录不是人人有、也不是给了就永久。它本质是百度对“值得准实时抓取”的站点的一种额度授予,与站点的历史质量表现强相关。常见获得路径是站点在普通收录阶段长期表现良好——提交URL入库率高、内容有真实用户价值、领域有一定垂直度,系统才会给到这个更高优先级的通道。 它会被收回,触发点通常是入库率断崖式下跌:站点突然开始批量推送低质或近重复内容,把这个高优先级通道当成了灌库工具。系统一旦发现“给了你快车道、你拿来运垃圾”,回收额度甚至连带下调整站抓取意愿都很常见。所以快速收录的正确心态是:它是对你内容质量的奖励和放大器,不是绕过质量的捷径。把它当捷径用,丢的是整站的抓取信任,这买卖永远不划算。 ## 该建一张什么样的“入库率台账”? 这是把通道这一段从玄学变成可观测的唯一办法。每个做百度的客户都被要求建一张这样的台账,结构很简单但威力很大: 字段 | 记什么 | 用来回答 | 提交日期 | 这批URL是哪天推的 | 定位时间相关的异常 | 提交条数 / 实际被接收条数 | 区分“发出去”和“被收下” | 是不是配额耗尽的假性问题 | 七天后入库数 | 第七天回查site精确命中数 | 发现层有没有问题 | 三周后入库数 | 第二十一天再回查一次 | 区分“慢”和“真不收” | 页面类型标签 | 产品页/文章页/聚合页等 | 定位是哪类模板被卡 | 很多站建完台账当周就明白了:问题从来不在推送那一端,七天入库率和三周入库率一拉出来,卡在发现层还是入库层、是全站问题还是某类模板问题,一目了然。没有这张台账,所有关于“百度收录”的讨论都是在猜。 ## 抓了却不收录,问题到底卡在哪几层? 排除了发现层和服务器层之后,剩下的“抓了不收”才进入真正的内容与质量诊断。这一层要继续往下分诊,不能笼统归为“内容不行”。 ## “已抓取未收录”和“已收录未展现”怎么分诊? 这是两个完全不同的病,药方相反: - 已抓取未收录:蜘蛛来过、返回200,但站长平台索引量不涨。问题在“入库筛选”这一闸——通常是质量门槛没过、近重复被合并、或页面主体内容太薄被判无独立价值。 - 已收录未展现:site能搜到、品牌词能调出,但任何业务词都排在用户够不到的地方。问题在“展现资格”这一闸——库里有你,但竞争力或时效不足以让你上桌,这本质是排名问题不是收录问题,硬往收录上治会越治越偏。 分诊方法前面给过、这里再钉一次,因为它太关键:拿一批目标URL,用site加完整标题精确查——能精确调出说明已入库病在展现,精确查都调不出才是真没入库。这一步做反,方向就全错了。 ## 质量门槛和近重复过滤具体怎么卡你? 百度入库筛选里杀伤面最广的两条,一是主体内容过薄、无独立价值,二是站内外近重复。前者常见于列表化的详情页、采集拼接页、参数衍生页;后者常见于模板高度雷同、正文占比极低、几千个页面换个词换个地名批量产出的站。 近重复的判定颗粒度比很多人想的细。它不只是“整页一样”,段落级的大面积雷同同样会触发——一个产品站如果每个产品页除了型号参数表,描述部分套的是同一段营销话术,引擎抽样比对后会把这一大批页判成近重复,只挑一个入库,其余丢弃。站长却以为是“没收录”。这种情况下越推送越糟,你在用宝贵的抓取配额反复喂它重复内容。正确动作是先做URL规范化和去重,把抓取预算省给真正独立的页。这类“因低质和重复信号触发降权与不收录”的典型雷区,百度SEO算法雷区的十四种降权信号 (https://zhangwenbao.com/baidu-seo-algorithm-minefield.html)里系统列过,收录长期上不去时建议对照自查一遍。 ## 聚合页、TAG页、筛选页为什么是收录黑洞? 这类页是国内站收录预算的头号黑洞。它们的特征是:数量可以无限衍生(一个TAG体系能组合出几万个URL)、单页主体内容几乎为零(就是一堆链接列表)、彼此之间高度近重复。引擎抓了一圈发现全是没有独立价值的列表壳,不仅不收,还会因为“抓了一堆白抓”反过来压低整站抓取意愿——一页都没收,伤的是全站。 处理原则是做减法不是做加法:只保留少量真正有聚合价值、有独立编辑内容的专题页,其余批量衍生的筛选与TAG组合用规范标签收口或直接不进sitemap、不给内链入口。把这块收住,省下来的抓取预算会自动回流到核心页,这是很多站“没发新内容收录却变好了”的真实原因。 ## 时效性内容错过收录窗口会怎样? 有一类内容收录的失败方式特别隐蔽:它最终收了,但收得太晚,等于没收。新闻、活动、促销、榜单这类有强时效的页面,价值高度集中在发布后的一个短窗口里。如果因为发现慢、配额排队、服务器抖动错过了这个窗口,等三周后它慢悠悠入库时,话题热度已过、用户早不搜了,这条收录在台账上是个绿勾,在业务上是个零。 机制上,引擎对“值得快速抓取的时效内容”有更高的回访意愿,但这个意愿要建立在站点历史上——一个长期稳定产出、入库率高的资讯站,新发的时效页会被更快盯上;一个平时就抓得稀、入库率低的站,时效页和普通页一起排队,必然错过窗口。这意味着时效内容的收录速度,是你过去几个月所有收录健康度的兑现,不是临时能催出来的。 实操上对时效内容要做三件事区别对待:发布即走最高优先级的提交通道(有快速收录权限的用它,没有就第一时间普通收录加站内强页内链)、把它放进单独的高频sitemap而不是和全站存量混在一起、发布后当天就用抓取诊断确认蜘蛛真的拿到了。把时效内容和存量内容用同一套节奏对待,是资讯站和电商促销页最常见的收录浪费。 ## 移动适配、落地页体验为什么会拖累收录? 百度是移动优先的引擎,且有一整套针对落地页体验的算法约束(针对低质广告、强制下载、内容受阻等的专项)。这些算法影响的不只是排名,也会回灌到“值不值得收”的判断上——一个移动端首屏被广告糊满、正文要往下扒半天的页面,既过不了落地页体验,也很难被判定为“对用户有价值因而值得入库”。 移动适配没做好还有更隐蔽的杀伤:PC与移动两套URL未做正确适配声明,百度可能把它们当近重复,或抓了移动版发现体验差,连带影响这一批页入库。这里给一张三种移动方案对收录影响的对照,选型时按它判断: 移动方案 | 收录层面的主要风险 | 关键动作 | 响应式(同URL) | 风险最低,但要确保移动端主体内容不被折叠隐藏 | 真机看首屏正文可见比例 | 独立移动URL(m.子域) | PC与移动易被判近重复、适配关系未声明 | 做好适配声明与规范关系,两套都要可抓 | 动态服务(同URL按UA返回不同HTML) | 给蜘蛛和用户返回不一致会被当作作弊 | 保证蜘蛛拿到的与真实用户一致 | ## 一套能复现的百度收录诊断流程长什么样? 把前面所有机制收束成一个可执行的诊断顺序,核心原则是从物理层往内容层逐闸排除,不跳关。跳关诊断是所有人浪费时间的根源。 ## 从日志和站长平台反推卡在哪一层 固定按这个顺序走,每一步有明确的过/不过判据: - 物理层:调日志看Baiduspider非200占比与抓取频次曲线。非200偏高或抓取频次异常低 → 先修服务器/防护,其余暂停。 - 发现层:目标URL是否在sitemap、是否提交过、提交后是否被抓(日志里有无访问记录)。没被抓 → 补通道、检查robots与站内入口。 - 入库层:被抓的URL用site加精确标题查是否能调出。调不出 → 进质量与去重诊断(薄内容、近重复、模板化、聚合壳页)。 - 展现层:能调出但业务词排不到 → 这是排名问题,转去做内容竞争力和站点权威,不要继续在收录上打转。 保哥接过一个国内B2B工业品商城的案例,典型到可以当教科书。客户报“几千个产品页百度只收录两三百,急”。按上面顺序走:物理层发现夜间抓取高峰频繁502(共享数据库被同主机另一个站拖垮);发现层正常;入库层抽查发现产品页正文几乎只有规格参数表、描述全站套同一段模板话术,近重复严重;同时几万个筛选组合URL进了sitemap,把抓取预算吸干。结论是三个独立病叠加。处理顺序严格按链路:先迁出独立数据库把502摁掉,再把筛选URL用规范标签收口、移出sitemap,最后给产品页注入因品类而异的真实选型说明、应用场景、常见问题。配额在物理层修复后明显回升,入库率从两成爬到七成以上是在第二个月——顺序很重要,如果先改内容不修502,改了也抓不动,根本验证不了哪一步起了作用。 ## 站长平台的抓取诊断工具,怎么用来做交叉验证? 日志告诉你“蜘蛛声称它做了什么”,抓取诊断工具告诉你“引擎实际看到了什么”,两者对不上的地方就是真相所在。这个工具被严重低估,大多数人只拿它点一下“抓取正常”就关掉了,其实它能一次性排掉好几类误诊。 正确用法是抓三类页各跑一次诊断,重点不看“成功”二字,看它返回的页面内容快照:核心产品页跑一次,对比快照里的正文是不是和你浏览器看到的一致——如果快照里正文是空的、只有框架,说明内容靠前端渲染、蜘蛛根本没拿到,这是收录不了的硬原因,且日志里完全看不出来;移动页跑一次,确认移动适配关系和正文可见性;一个怀疑被防护拦的页跑一次,如果浏览器能开、诊断却报抓取失败或超时,防护误伤就实锤了。 抓取诊断的几类报错也各有所指:DNS或连接超时通常是服务器或防护问题,抓取内容为空多半是渲染或被UA区别对待,跳转异常则要查适配与规范关系。把这个工具和日志、site精确查三者交叉,四闸表里每一闸的判据都能拿到硬证据,整个诊断就从“猜”变成了“证”。 ## 一个跨境转内销食品品牌的收录爬坡实录 另一个对照案例是出海食品DTC转做国内市场。它原本只做谷歌,服务器在境外,未备案,直接拿独立站去做百度,三个月收录个位数,团队一度认定“百度做不了”。诊断下来根本不是内容问题——内容是它出海打磨过的强项——而是物理与信任层全卡:境外服务器Baiduspider访问慢且丢包导致抓取频次极低,未备案进一步压低入库意愿。 处理路径完全是机制驱动的:主体备案、核心内容站迁到境内服务器、sitemap与普通收录补齐、先不碰快速收录(没资格也不该急)。变化是渐进的——备案与境内服务器到位后约两周抓取频次先涨上来,入库随后跟进,第二个月起进入正反馈:入库率上去了,配额被进一步放大,老内容陆续补收。整个过程没写一篇新文章,动的全是物理与信任层。这个案例的价值在于它证明了一件事:当卡点在链路前段时,在内容端使劲是完全无效的努力,而判断卡点在哪一段,靠的就是前面那张四闸表和那张入库率台账,不是猜。 ## 一个反例:别把内容病误诊成服务器病 诊断纪律是双向的。也见过相反的误诊:一个资讯站收录停滞,技术团队咬定是服务器问题,扩了配置、换了机房、加了推送,三个月没动静。按四闸表重走才发现物理层和发现层全是绿的——日志干净、抓取频次正常、提交都被抓了。真正卡在入库层:这个站三分之二的内容是把同行文章洗一遍的伪原创,近重复判定一卡一个准。这种情况下你给它再好的服务器、再快的通道,引擎也只是更快地把它判死。诊断的价值不在于证明“是哪一层的问题”,而在于诚实地接受日志告诉你的结论,哪怕结论是“内容本身不行”。把钱花在扩服务器上比承认内容要重做容易,但前者解决不了后者的病。 ## 收录回不来时,哪些动作绝对不要做? 诊断之外,止损同样重要。下面这几个是焦虑期最常见、且会让情况更糟的动作: - 反复大改已抓取页的标题、URL、主结构——每改一次等于让引擎把它当新对象重评,等待被无限重置。 - 用快速收录或高频推送猛灌没改质量的老页——透支的是整站抓取信任。 - 看一周数据没动就推翻重来——百度的收录反馈本身有滞后,一周根本不够形成判断。 - 整站搬新域名想“重开”——旧域名的信任不跟着走,新域名要从最低配额观察期重新熬,多数情况是把问题放大不是解决。 正确的心态接近医生看慢性病:先分诊定位到具体那一闸,做针对性处理,然后给机制留出它需要的时间窗,期间保持动作克制。收录是结果,不是可以直接拧的旋钮——你能拧的是它上游的每一道闸,而这篇从头到尾讲的,就是每一道闸分别拧什么。 ## 常见问题解答 ## 百度提交后一般多久收录算正常? 没有统一数字,取决于站点信任度与卡在哪一层。健康老站的优质内容常见是数小时到几天;新站或未备案站前两三个月以周计甚至更慢都属机制内正常。判断异常的标准不是绝对天数,而是“被抓了却长期不入库”这个信号本身。 ## 接了主动推送为什么还是不收录? 因为推送只解决“被发现”,解决不了入库的质量闸。推送成功只代表百度收到了URL,不代表认可它。该盯的指标是“提交后七天的入库率”,不是推送成功率。入库率长期偏低,问题在内容或服务器,不在通道。 ## 怎么判断是没收录还是收录了不展现? 拿目标URL用site命令加完整标题精确查。能精确调出说明已入库,问题在排名展现,应转做内容竞争力;精确查都调不出才是真没入库,进质量与去重诊断。这一步分诊做反,后面全是无用功。 ## 快速收录权限怎么拿,会不会被收回? 它是对站点历史质量的额度奖励,靠普通收录阶段长期高入库率、有真实用户价值积累出来,不是申请就给。会被收回,触发点通常是拿它批量推低质或近重复内容导致入库率断崖,严重时连整站抓取意愿一起下调。 ## site命令显示的收录数为什么每天都在变? 它是跨机房的量级估算不是精确库存,随查询时刻波动属正常,拿它逐日比涨跌没有意义。正确用法是与sitemap有效URL数、站长平台已收录数做三角交叉看趋势背离,单看这个数字做决策是常见误区。 ## 服务器在境外,百度收录就一定做不好吗? 不是做不好,是物理门槛更高。境外节点会让Baiduspider访问慢、丢包,抓取频次天然偏低,叠加未备案会进一步压低入库意愿。把主体备案、核心内容迁境内服务器做好,多数情况下收录能进入正反馈,不必放弃百度这条线。 ## 新站前几个月收录很慢,是我做错了什么吗? 多数情况不是。百度对新域名有较长的低配额观察期,前两三个月慢往往是机制本身。这阶段最该做的是保持稳定高质量产出和服务器稳定,最不该做的是因为着急去频繁大改结构或猛灌内容,那会把观察期反复重置。 ## 把不收录的页全删了重写URL会更快收录吗? 通常更慢更糟。删旧建新等于丢掉已积累的抓取历史,新URL要从发现层重新排队,旧URL还会留下一批死链消耗信任。正确做法是原URL上把质量问题修掉、做好规范化,让引擎在已有对象上重评,而不是不断制造新对象。 ## 权威参考资料 ## 百度SEO哪些操作会被降权?14个雷区信号与修复 - URL:https://zhangwenbao.com/baidu-seo-algorithm-minefield.html - 分类:百度SEO - 发布:2019-03-07 | 更新:2026-06-01 - 摘要:系统梳理百度搜索引擎从2013年绿萝至2020年轻舟期间14种核心算法的打击范围与判定逻辑,深入剖析买卖外链、弹窗广告、软文外链、强制下载、移动体验、采集拼接、标题党、虚假资源、首屏速度、刷点击、B2B标题作弊、熊掌号反向降权、个性化排序、内容多样性等雷区,给出降权诊断五步法、修复优先级排序与新站避坑全配置。 - 关键词:搜索引擎算法,百度算法,白帽SEO,SEO降权 > **TLDR**:摘要:做百度SEO,绕不开历代算法的雷区。本文系统梳理从2013年绿萝到2020年轻舟的十四种核心算法的打击范围和判定逻辑,逐一拆解买卖外链、弹窗广告、采集拼接、标题党、首屏速度、刷点击、B2B标题作弊、熊掌号反向降权等雷区,再讲降权诊断五步法、修复优先级排序和新站避坑全配置。 > 摘要:做百度SEO,绕不开历代算法的雷区。本文系统梳理从2013年绿萝到2020年轻舟的十四种核心算法的打击范围和判定逻辑,逐一拆解买卖外链、弹窗广告、采集拼接、标题党、首屏速度、刷点击、B2B标题作弊、熊掌号反向降权等雷区,再讲降权诊断五步法、修复优先级排序和新站避坑全配置。 保哥从2009年开始做SEO,那一年百度 (https://zh.wikipedia.org/wiki/百度)刚刚提"百度算法"这个概念。从最早的绿萝到今天的轻舟,十几年下来,我手里至少接过四十个被百度算法降权的站,恢复了的、没救的、半死不活拖到现在还在等"自然恢复"的都有。这篇笔记把这十几种主流算法逐一讲一遍,但我不是简单复述每个算法的官方公告——百度官方公告写得太抽象,落地时根本不知道触发线在哪。我会按"触发动作—典型表现—亲历的踩坑—自查方法—修复路径"五段写,每一种算法都给具体的操作建议,方便对照自己的站排查。 ## 百度为什么要不停更新算法 说算法之前先讲一句基础逻辑:百度更新算法的本质是把"被作弊撑大的排名信号"重新校准回"用户真实满意度信号"。每一种新算法的诞生,都对应一种已经在生态里被滥用到失控的SEO手法。所以反过来,要想不被算法误伤,最简单的判断标准就是问一句——"如果今天百度突然把这个信号砍掉一半,我的排名还在不在"。 从我自己跟踪的数据看,百度算法每次重大更新,平均会让3%到5%的索引页面的排名重新洗牌一次,受影响的关键词数量在百万量级。如果一个站点同时踩中两个算法的雷区,恢复周期通常是6到12个月,而且很多站点最终也没能恢复——不是技术上不能修,而是历史欠账太多,不如重新建站划算。 具体动机有这么几条,按我观察的优先级:第一是清理低质内容池,因为低质内容稀释了搜索结果的整体满意度;第二是回应监管要求,比如赌博、色情、医疗虚假宣传这类需要算法层面识别拦截;第三是支持新内容形式,比如短视频、直播、图文卡片,老算法对这类内容的相关性判断不准;第四是反作弊军备竞赛,黑产SEO的手段在变,识别模型也得跟着升级。理解这四条动机,就能预判下一波算法可能瞄准什么方向。 ## 历代核心算法的雷区拆解 ## 绿萝算法:买卖外链的红线 绿萝算法 (https://help.baidu.com/question?prod_id=99&class=476&id=3001)在2013年2月上线,一年后的2014年7月升级为绿萝2.0。这个算法是百度第一次大规模公开打击外链买卖,针对的是三类站点——卖链接的、买链接的、做链接中介的,全部都列入打击名单。我接手过一个机械加工的客户站,2014年的时候在某个外链平台上每月花2000元买30条新闻软文外链,用了8个月,2015年1月那一波绿萝2.0更新后,整站收录从4.2万跌到3000不到,核心词全部100名以外。 这种降权在那个时间点的典型特征是:首页快照不更新或快照倒退,site命令收录跌掉80%以上,新发布内容24小时内不收录。修复方案当时我们做了三件事——把外链平台账号停掉、把已经发布的软文外链整理成清单提交到百度站长工具的"外链拒绝 (https://zhangwenbao.com/google-disavow-tool-guide.html)"工具、原创内容更新频率提到每天3篇并坚持4个月。最终在第6个月恢复了一部分排名,但永远回不到出事前的水平。 到今天为止,绿萝逻辑还在运行,只是判定模型已经迭代到看"链接来源域的整体质量分"加"锚文本相关度"加"链接增长速度异常曲线"三维度联合判断,单纯靠数量堆砌的外链不再有任何加权效果。亲历的踩坑提醒:哪怕是"行业目录站"这种看似正规的资源,如果一个目录站同时收录大量低质企业站、且每个站点出站锚文本完全一样,绿萝照样会判定为可疑链接源。 ## 石榴算法:弹窗与广告骚扰 石榴算法在2013年5月上线,比绿萝晚了三个月。瞄准的是"含有大量妨碍用户正常浏览的恶劣广告的页面",最典型的是弹窗广告、悬浮广告、强制下载提示。这个算法看上去技术含量不高,但识别精度比想象中高得多——百度爬虫会模拟移动端和PC端的真实页面渲染,甚至会判断广告是否覆盖了首屏内容的30%以上。 我帮过一个做工具下载站的客户排查过石榴问题。他的站点首屏放了一个5秒强制弹窗,弹窗里要求用户输入手机号才能继续阅读。这个弹窗导致整站在2014年9月被石榴算法集中处理,60万收录在两周内掉到8万,全站流量从日均3万UV跌到200UV,几乎归零。修复时把弹窗去掉是基础动作,但更关键的是把首屏广告比例压到20%以下、给所有第三方JS加async或defer避免阻塞渲染。后续做完这些修改的45天后,首屏满意度信号才开始回升,第90天流量恢复到出事前的60%。 实战中要记住的判定细节:石榴不是只看"弹窗"这一种形式,而是看"用户阅读路径上的干扰项数量"。如果一篇文章里中间插了两个大尺寸banner广告,再加上文末的下载推荐弹窗,这种组合也会被识别成石榴目标。自查的简单方法是用Chrome无痕模式打开自己的页面,从顶部滚到底部,凡是必须主动关闭才能继续阅读的元素,都算干扰项。 ## 绿萝算法2.0:软文外链的精细化打击 2014年7月的绿萝2.0是对1.0的进化版本,重点针对"以软文为载体的外链交易"。这个版本第一次把"新闻源站点"的外链权重也纳入打击范围,因为当时新闻源站普遍在卖软文位,每篇报价从200到5000不等。我经手过一个金融培训站,2014年12月被绿萝2.0命中,触发原因是连续6个月每月在5个不同新闻源上发外链软文,锚文本固定使用"在线理财培训"加"外汇培训机构"两个核心词。 这个案例里特别值得记的是修复路径——单纯停发软文不够,必须把已经发出去的软文也想办法清理。我们联系了12家新闻源平台,其中5家配合删掉了软文页面,3家把软文里的链接改成了nofollow,剩下4家拒绝处理。对于那些拒绝处理的,我们把页面URL一条条提交到百度的拒绝外链工具里,前后提交了187条。整个修复过程持续了8个月,到第10个月排名才有明显回升,但有4个核心词永久性丢失了首页位置。 从这个案例总结的避坑要点:判断软文外链危险性的标准不是"在哪个站发的",而是"锚文本是否多样化、是否带商业转化意图"。如果锚文本固定就是商业关键词,无论发在多么权威的站上,都属于绿萝2.0的高危行为。安全做法是每篇软文里只放一个品牌词链接、或者干脆放纯URL不带锚文本。 ## 冰桶算法1.0:移动端强制下载与广告轰炸 2014年8月的冰桶1.0是百度第一个专门针对移动端的算法。打击对象明确——强制弹窗下载App、强制用户登录、移动页面广告占比过高。当时正值移动互联网爆发期,大量站点为了导流到自家App,在H5页面上加各种诱导下载弹窗,体验糟糕到一打开就想关掉。 我手里有一个3C数码评测站,2014年那会儿每篇文章顶部都加了一个"下载App阅读完整评测"的悬浮提示条,移动端排名一度做到很多3C词的前三。冰桶1.0上线后第二周,移动端流量从日均1.5万UV断崖式跌到3000UV,PC端不受影响。修复方案是把所有强制提示条改成可关闭的非强制提示、把首屏广告全部下移到正文之后、并主动在百度站长平台提交移动适配。这一波修复用了4个月恢复到原流量的80%。 冰桶系列后续多次升级,到4.5版本累计有6次大更新,每次都在叠加新的判定维度。现在判定一个移动页面是否触发冰桶,会综合看"首屏广告占比、强制交互元素数量、页面加载速度、点击诱饵密度"四个维度。如果一个页面同时在两个维度上不达标,就会被打上"低质移动页面"的标记,搜索结果会直接折叠到二屏之外。 ## 冰桶算法2.0到4.5:连续打击体验黑洞 把冰桶2.0到4.5一起讲,是因为这几个版本的逻辑同源——都在补上1.0没覆盖到的体验缺口。2.0针对全屏下载提示和狭窄页面布大广告,3.0针对中断用户搜索路径的诱导跳转,4.0针对移动搜索结果页面广告过多,4.5针对色情导航与非法博彩内容。冰桶每升一级,识别模型的颗粒度就细一档。 我自己经手的最严重的冰桶事故,是一个旅游攻略站在2017年被冰桶3.0命中。这个站为了引导用户跳转到合作OTA,在文章中间插入"立即查询酒店"按钮,按钮点击后不是打开内嵌信息,而是跳转到完全不相关的OTA首页。冰桶3.0判定为"打断用户搜索路径",整站百度移动端排名集体下沉。修复时把所有按钮改成在原页面内展开酒店信息卡片、跳转链接全部加nofollow、并把跳转目标改为相关性更高的具体酒店页面。修复后用了5个月恢复,但因为业务模式改变,最终客户接受了流量下降30%的事实。 冰桶4.5那一波是2018年4月发布,专门清理低俗导航站和非法博彩。我没有亲历这种站的处置,但从外部观察,凡是触发冰桶4.5的站点基本上是永久性删除索引,不存在恢复路径。原因很简单——这一档算法已经超出"调整排名"范畴,进入了"内容合规清退"层级,需要从内容根本上整改,而能做到这一步的站点本身就不会触发这条算法。 ## 飓风算法1.0与2.0:采集与拼接的清洗 飓风1.0在2017年7月发布,专门打击恶劣采集。所谓恶劣采集是指"以采集为主要内容来源、缺乏原创、用户体验差"的站点。这个算法在当时震动很大,因为大量内容农场站点一夜之间被清出索引。我帮一个做装修知识聚合的客户做过应急——他这个站70%的内容是从其他装修站点采集后做了少量改写,飓风1.0命中后两周,60万收录跌到4万,再没恢复过。 飓风2.0在2018年9月升级,加入了"内容拼接"和"采集站新增内容大量来自他站"两个判定维度。这一版的杀伤力更广,因为很多看起来像原创的"洗稿站"也被一并清理。判定逻辑细化到"段落级相似度匹配",也就是说哪怕你把别人的段落顺序调换、加几个连接词,飓风2.0仍然能识别出来。 实战教训:判断一篇内容是否会触发飓风,不是看你"是否声称原创",而是看百度的指纹算法是否能在它的内容库里找到相似度高于70%的已收录页面。我自己测试过几次——把一篇竞品文章用同义词替换工具改写、再调整段落顺序,看似是新内容,但用百度爬虫拉一遍后24小时内还是不收录,说明指纹库已经把它判定为重复了。真正的原创要做到段落级思路独立,而不是字符级混淆。 ## 清风算法1.0与2.0:标题党与虚假资源 清风1.0在2017年9月上线,瞄准"标题党"行为,也就是标题与内容严重不符、刻意夸大、用悬念吸引点击。清风2.0在2018年4月升级,扩展到"虚假下载资源"——也就是页面声称提供下载,实际打开后是付费陷阱、或者下载链接根本不存在。这两个算法是少数几个"个体页面级"的算法,一旦判定为标题党,就只对这个URL降权,不会牵连整站。 但量大了一样要命。我手上有一个游戏攻略站,2018年下半年因为大量页面用了"震惊!这个BOSS的隐藏弱点99%玩家都不知道"这类标题,被清风1.0批量降权。该站在三个月内自然流量下降40%,因为受影响的页面有上千个。修复方案是用脚本批量重写所有标题,把夸张词去掉,改成具体描述加数字,比如改成"暗黑3秘境BOSS弱点表:18个高难副本的最优攻击路线"。重写完成后用百度站长工具的"主动推送 (https://zhangwenbao.com/wordpress-baidu-active-push.html)"重新提交,约45天后流量逐步回升。 清风2.0对虚假资源的处理更狠——直接删除页面索引。我看过一个所谓"绿色软件下载站",标题写"下载XX破解版",实际页面里全是广告链接、没有任何下载按钮。这种页面在2018年下半年被批量清理出索引,整站收录从30万跌到5000以内。给做下载类站点的同行的建议:标题里写的资源必须真实存在、且下载入口必须在首屏可见,否则不要写在标题里。 ## 闪电算法:移动端首屏速度的硬门槛 闪电算法在2017年10月上线,是百度第一次把"页面速度"作为明确的排名信号公开宣布。它给出的具体阈值是——移动端首屏在2秒内打开的页面会获得排名加权和流量倾斜,3秒以上的页面会被限流。这个2秒不是"网速好的时候2秒",而是"模拟3G网络下首屏可见时间2秒"。 我做过一个本地服务行业的站,原本所有页面首屏3.8秒左右,没特别优化过。闪电算法上线后排名连续下滑,做完速度优化后从3.8秒压到1.6秒,约2个月时间排名回升20到30位。具体优化做了这些:所有首屏外的图片改用懒加载、CSS文件合并到一个、关键CSS内联到HTML、图片格式从JPEG升级为WebP、CDN换成支持HTTP/2的服务商、字体文件改用WOFF2格式。这些动作累加起来,首屏速度提升一倍多。 需要提醒的是——闪电算法判断的是"首屏首次内容渲染时间"FCP,不是页面完全加载时间。所以你不需要把所有资源都压到2秒内,只要保证首屏可见区域的关键资源能在2秒内渲染完成就够了。这给了一个优化思路——大图、视频、第三方脚本能延迟加载就延迟加载,先把首屏的文字和小图渲染出来。百度站长平台里有一个"页面速度评估"工具可以直接测试自己站点的首屏速度。 ## 惊雷算法:刷点击的致命一击 惊雷算法在2017年11月上线,2018年5月升级为惊雷2.0。打击对象是"通过刷点击提升搜索排名"的作弊行为。这是一个特别危险的算法,因为很多SEO公司在不告诉客户的情况下偷偷帮客户刷点击,结果客户莫名其妙被降权还不知道为什么。 我接过一个客户,签了某SEO公司的"快排"服务,每月8000元承诺把5个核心词推到首页。前两个月效果很好,5个词全部进入前10。第三个月百度发布惊雷2.0,这个客户的站点被识别为刷点击站,整站排名集体100名以外,再没恢复过。后来核查后发现这家SEO公司用的是"流量宝"那种点击模拟工具,每天上千次模拟点击,IP分布极其单一,很容易被识别。 惊雷的判定模型主要看几个维度——同一搜索词的点击率突然异常飙升、点击IP段集中度过高、点击行为时间分布不符合人类规律(比如凌晨3点出现大量点击)、跳出率与正常用户差异显著。一旦被惊雷打中,几乎没有恢复路径,因为算法会持续监控这个站点的点击数据,哪怕你停止刷点击,前几个月的异常数据也会一直作为负向信号。给所有签SEO服务的客户的提醒:合同里要明确写"不得使用任何形式的点击模拟工具",并要求服务方提供月度点击来源报告。 ## 细雨算法:B2B供求黄页的标题清理 细雨算法在2018年6月上线,专门针对B2B类供求信息站。打击对象是"冒充官网"、"标题堆砌关键词"、"频繁在标题与正文中保留联系方式"等行为。这个算法面向特定行业,但对中国B2B生态影响巨大——慧聪、阿里巴巴中国站、马可波罗这些大平台上的供求信息页面在那一波集中下线了上千万条。 我自己运营过一个机械配件的B2B独立站,细雨上线后一周,所有产品详情页排名集体下滑。原因是产品标题里习惯写成"专业生产XX机械配件、厂家直销、批发价格、咨询电话13xxxxxxxxx",而且这种格式是行业通用的。修复方案是用脚本批量改写产品标题——去掉"专业生产、厂家直销、批发价格"这种营销词,去掉所有联系方式,改为"XX机械配件型号、规格、应用场景"这种描述性标题,同时把页面里多余的电话号码移到联系页面。改完之后用了3个月排名回升70%。 细雨之后B2B独立站的运营逻辑发生了根本变化——必须把"信息呈现"和"销售转化"在页面层面分开,详情页只放产品技术信息,联系方式只在专门的联系页面。这个改动看起来反销售直觉,但从SEO角度是必须做的。如果今天还在做B2B站,标题里有任何联系方式或夸张营销词,都属于细雨算法的高危目标。 ## 熊掌号算法:内容生态的权威性博弈 熊掌号算法严格说不算独立算法,而是百度2017到2019年推行的内容生态战略,对应的搜索权重加权机制。当时百度大力推熊掌号,鼓励站长把内容主动提交到熊掌号体系,承诺给原创内容24小时内秒收录、并在搜索结果中带蓝V标识。这个体系在2019年逐步淡化,2020年后被"百家号"和"百度智能小程序"分流替代。 熊掌号最大的雷区是——把"低质内容"接入熊掌号反而会触发反向降权。因为熊掌号需要原创度评分,如果一个站点接入熊掌号后被识别为内容质量不达标,整站搜索权重会被进一步打压。我帮一个客户接入熊掌号时就踩过这个坑——客户的站本身有30%的伪原创内容,接入后两周整站搜索流量下降50%,后来不得不退出熊掌号体系才稳住。 熊掌号时代的经验对今天还有意义——百度的"内容主动提交"机制始终是双刃剑。主动提交意味着你在告诉百度"我对这些内容有信心,请优先评估",但如果内容不达标,主动提交反而加速了被降权的速度。今天替代熊掌号的"百家号"也有类似逻辑——只有原创力强、更新频率稳定的账号才适合在百家号上重点运营,否则接入反而拖累。 ## 凤求凰算法:移动端搜索意图的个性化 凤求凰算法在2018年下半年逐步上线,没有明确的发布日期。这个算法主要做"搜索结果个性化排序"——根据用户的地理位置、设备类型、历史搜索记录,对同一查询词返回不同的搜索结果。这个算法对站长的影响是间接的,因为它不直接降权任何站点,但会改变流量来源的地域分布。 我观察过一个本地家政服务站的数据,凤求凰上线后该站在北京地区的关键词排名稳定,但在上海地区的排名连续下滑。原因是百度根据上海用户的搜索行为,识别出这个站的服务范围主要在北京,所以在上海搜索结果中调降了它的位置。这种"地域降权"对全国服务的站点来说是隐形损失——总流量没有大跌,但地域分布越来越窄。 应对凤求凰的核心思路是"做地域内容分层"。如果你的业务覆盖多个城市,每个城市要有独立的着陆页,包含本地化的内容元素——本地服务案例、本地客户评价、本地办公地址、本地联系电话。这种分层做完之后,每个地域的关键词排名都能稳定,不会因为凤求凰个性化算法而被压缩。 ## 大雕算法:内容多样性的隐性要求 大雕算法是百度2019年的非公开算法,没有官方发布会,只在一些行业交流会上由百度搜索工程师提到过。打击对象是"信息单一化、缺乏多角度论述"的内容。具体怎么判断"单一化",百度没有公开标准,但从我观察的数据看——一篇文章只论述一种观点、缺乏对比维度、没有引用任何来源数据,就属于大雕算法的目标。 实战中我做过一个测试,把同一个主题写成两个版本——A版本只用主观语气论述、B版本加入数据对比、案例分析、反对观点反驳。两篇文章发布后,B版本在3个月内累积流量是A版本的4.7倍,并且在长尾关键词 (https://zhangwenbao.com/infinite-tail-seo-beyond-keywords.html)上的覆盖广度也明显更广。这说明大雕算法实际上鼓励"信息密度高"的内容形式。 给做内容运营的同行的建议:写每一篇文章前,列一个最简单的"内容多样性清单"——是否包含数据、是否包含案例、是否包含对比、是否包含步骤、是否包含反驳意见。五个维度里至少覆盖三个,这篇内容才算达到大雕算法不会限流的及格线。这个标准看起来简单,但执行起来很难,因为大多数内容运营的本能反应是"快速产出大量短文",而短文很难同时覆盖三个维度。 ## 轻舟算法:移动端体验的全维度评估 轻舟算法是2020年百度推出的,可以理解为冰桶系列的整合升级版。它把"加载速度、首屏渲染、广告占比、交互可用性、视觉稳定性"五个维度整合成一个综合得分,得分低的页面在移动搜索结果中被压缩位置。这个算法已经接近Google的Core Web Vitals体系,标志着百度的移动端SEO (https://zhangwenbao.com/mobile-seo-optimization-guide.html)评估开始走向工程化。 我做过一个轻舟算法的实测——同一个站点的两个页面,A页面综合得分78分(首屏1.8秒、广告占比15%、CLS布局偏移0.05),B页面综合得分52分(首屏3.2秒、广告占比38%、CLS布局偏移0.18)。在同一个搜索词下,A页面长期保持前5位,B页面常年在20到30位之间徘徊。把B页面按照A页面的标准重做之后,3个月内排名提升到第8位。 轻舟算法对应的优化清单(按优先级排序):首屏速度压到2秒以内、广告占比控制在20%以内、CLS布局偏移指标小于0.1、首屏交互可用时间小于2.5秒、字体文件预加载、关键CSS内联、第三方脚本异步加载。这7条做齐,轻舟综合得分基本能达到80分以上,移动端排名稳定可期。 ## 多算法叠加触发的复合事故 单一算法降权已经够麻烦,最棘手的是多个算法同时命中。我经手过最严重的一次复合事故是2018年下半年的一个医疗信息站——同时被飓风2.0(采集内容)、清风1.0(标题党)、惊雷(刷点击)三个算法命中,整站索引在5周内从120万跌到不到5万,全站流量从日均8万UV跌到200UV。这种复合降权基本没有恢复路径——百度一旦把一个域名同时打上三个负向标签,整体信任分会跌到接近黑名单状态,重新积累信任分需要的时间往往超过站点的商业生命周期。 判断自己的站是否处于复合降权高危状态,可以用一个简单的自检表: - 原创比例:站内原创内容占比是否超过70% - 外链构成:外链来源域是否多样化、锚文本是否自然 - 标题质量:标题是否客观描述内容、有无夸张词 - 移动端体验:首屏速度是否2秒内、广告占比是否20%以下 - 用户行为:站内CTR是否符合行业基准、跳出率是否高于70% - 内容多样性:每篇文章是否包含数据、案例、对比中的至少两项 - 合规性:是否涉及医疗、金融、教育等需要资质的领域,资质是否齐全 七项里如果有三项以上不达标,就属于复合降权的高风险站。建议立即排查并修复,不要等到算法命中后再动手——算法命中后的修复成本是事前预防成本的5到10倍。 ## 百度算法更新频率与公开度 百度算法的更新频率没有固定时间表。从我跟踪的数据看,重大算法版本更新平均每6到9个月一次,小幅参数调整每1到2个月一次。重大更新通常会在百度搜索资源平台官方发公告,给站长30到60天的整改窗口。小幅调整通常不公告,但能从百度搜索结果的稳定性数据上观察出来——如果一段时间内大量长尾词排名波动幅度突然变大,就是有内部调整在发生。 判断算法是否在调整的实操方法:监控自己站点核心词的排名波动曲线,如果连续5天波动幅度超过10位,就大概率是百度在做算法调整。这个时候不要急着改站,等7天观察波动是否稳定下来。如果7天后波动收敛,说明只是算法调整带来的临时波动;如果7天后排名持续下滑,才需要按算法降权的思路做诊断。 百度公开算法信息的渠道有限,主要是百度搜索资源平台官网(ziyuan.baidu.com)和"百度搜索算法"公众号。第三方SEO媒体(站长之家、A5创业网、SEO研究协会网)也会做算法解读,但解读的准确度参差不齐,有时会过度解读把一些自然排名波动也算作算法更新。最权威的信息源还是百度官方平台,重大算法发布前1到2周通常会有预告。 ## 算法雷区自查与应急处置全流程 把上面13种算法整理成一个可执行的自查流程,分5步走: 第一步——快速诊断是否被算法命中。打开百度统计或第三方工具(5118、爱站、站长工具),看最近7天和最近30天的核心词排名变化。如果近7天内有30%以上的核心词集体下滑超过10位,且不是单一关键词的局部波动,基本确认是算法命中。 第二步——定位命中的具体算法。按下表对照命中症状:收录大幅下降+外链密集→绿萝;移动端排名集体下沉→冰桶或闪电;某些URL单独被降→清风或飓风;点击数据反馈异常→惊雷;地域排名差异化→凤求凰。如果同时命中两个以上特征,就是复合降权。 第三步——按算法对应的修复路径动手。每种算法的修复方法在前面已经讲过,这里强调一点——修复要分阶段做、不要一次性改太多。算法降权站点本来就在百度的"重点观察"列表里,如果短时间内做大量修改,反而会被识别为"试图绕过算法",加重降权。建议每周改一项,每改完后保留至少一周的观察期,看搜索数据是否有回应。 第四步——主动通过站长工具反馈。百度搜索资源平台有"反馈中心"入口,可以提交申诉。申诉时不要写"我没作弊请取消降权"这种空话,要列出具体的修改清单——比如"已删除X篇低质内容、已拒绝Y条外链、已重写Z个标题",并附上修改前后的截图对比。这种结构化的申诉百度审核员看了能快速定位你的整改诚意,回复率明显更高。 第五步——长期监控与预防。修复完成后,每月做一次算法风险自查,对照前面的7项自检清单。如果发现某项指标恶化,立即启动针对性优化,不要等下一波算法更新。预防性维护的成本永远比事后修复低。 ## 常见问题解答 ## 百度算法降权后还能恢复到原排名吗 看降权严重程度。轻度降权(单一算法命中、降权幅度小于30%),按修复路径整改后通常6到9个月可以恢复到原排名的80%。中度降权(单一算法命中、降权幅度30%到60%),恢复周期9到15个月,最终能恢复到原排名的50%到70%。重度降权(多算法复合命中、降权幅度超过60%),基本无法完全恢复,最优结果是恢复到原排名的30%左右。极少数复合降权站点会被百度永久性限制,即使内容全部重做也无法解除。 ## 怎么判断百度是否在做新算法的内部测试 有四个外部观察信号。一是百度搜索资源平台的官方公众号在过去30天内是否发过算法预告类文章,预告通常出现在重大算法发布前2到3周。二是百度站长工具的"流量与关键词"模块里,是否出现了新的数据维度,新维度往往对应新的算法逻辑。三是行业大V的SEO博客或SEO群里,是否出现集中的"莫名其妙降权"反馈,集中反馈通常是算法测试的早期表现。四是自己站点的核心词排名波动曲线,如果连续7天波动幅度超过15位且没有规律,大概率是有算法在测试。 ## 外链拒绝工具是否真的有效 有效但有时效性。百度的"外链拒绝"工具会在提交后14到30天内开始生效,被拒绝的外链不会再传递任何权重信号给你的站点。需要注意的是,外链拒绝是"声明而非删除"——你拒绝的链接仍然真实存在于网络上,只是百度不再把它们计入你的外链数据。所以拒绝工具适合用来处理"无法联系到对方平台删除"的危险外链。如果对方平台愿意配合删除,物理删除永远比拒绝声明更彻底。每月最多可以拒绝10万条外链,量大的站点要分批操作。 ## 主动提交内容到百度反而被降权是怎么回事 这是一个常见的反直觉现象。主动提交本质是"你向百度承诺这些内容是高质量原创、值得优先评估"。如果实际内容质量达不到承诺,百度的评估系统会触发反向降权——既然你承诺了高质量但实际不达标,那就要承担承诺不实的代价。所以主动提交一定要配合内容质量管控,宁可少提交、也不要提交低质内容。具体标准:原创度低于70%的内容不要主动提交、字数低于1500字的工具类页面不要主动提交、明显采集改编的内容绝对不要主动提交。 ## 百度官方说的算法更新和实际生效时间为什么常常对不上 因为算法上线分为"灰度发布"和"全量发布"两个阶段。灰度发布是先在5%到10%的搜索流量里启用新算法,观察实际效果;全量发布是把100%流量切到新算法。官方公告通常是在灰度发布开始时发出,但实际感知到排名变化往往是全量发布之后,这两者之间通常有2到6周的间隔。所以站长看到官方公告后不要立即做大动作,等2到3周观察实际数据再判断需要调整什么。如果灰度阶段的负面反馈太多,百度有时会推迟全量发布甚至撤回算法更新,这种情况下提前大改反而会做无用功。 ## 同一站点能同时优化所有算法的雷区吗 可以但需要分阶段。所有算法的雷区可以归纳为三大类——内容质量类(飓风、清风、大雕、熊掌号反向)、用户体验类(石榴、冰桶系列、闪电、轻舟)、链接与信任类(绿萝1.0/2.0、惊雷)。建议按优先级分阶段优化:第一阶段用60天时间集中处理用户体验类问题,因为这类问题修复起来见效最快、风险最低;第二阶段用90天处理内容质量类问题,因为内容重建周期长;第三阶段用60天处理链接与信任问题,因为这类问题需要时间让百度重新评估你的站点信任分。整个全面优化周期大约7到8个月,期间要稳定输出新内容、不能停更。 ## 新站做SEO时如何主动避开所有算法雷区 新站从0开始的优势是没有历史包袱,可以一次性把所有算法对应的"安全配置"做齐。具体清单:内容方面坚持原创度85%以上、每篇文章2000字以上、覆盖至少两个内容多样性维度;外链方面前6个月不做任何主动外链建设、自然吸引为主;体验方面首屏速度压到1.8秒以内、广告占比控制在15%以内、不做任何弹窗;标题方面客观描述、不夸张、关键词放前15字;技术方面用百度AMP或MIP做移动端加速、URL结构静态化、TDK完整。这套配置做齐后,新站12个月内基本不会触发任何算法雷区。 ## 权威参考资料 ## 百度主动推送实战:3种方式API+JS+Sitemap - URL:https://zhangwenbao.com/baidu-post-real-time-push-tool.html - 分类:百度SEO - 发布:2018-06-27 | 更新:2026-05-29 - 摘要:详解百度搜索资源平台API主动推送接口的token获取、URL列表准备、UTF-8 BOM陷阱、Windows GUI操作、Python和Shell和PHP和Node.js和Go五种脚本实现、配额耗尽应急策略与3个真实踩坑案例。 - 关键词:百度推送,百度SEO,百度站长平台,API推送,链接提交 > **TLDR**:摘要:百度收录有主动推送、自动推送、sitemap三条通道,本质各不相同。本文先讲清三者差异,再带你在百度站长平台拿到接口调用地址、准备URL列表、避开UTF-8 BOM陷阱,给出Windows GUI和Python与Shell与PHP与Node.js与Go五种脚本实现,再讲推完怎么验证、配额耗尽的应急和三个真实踩坑。 > 摘要:百度收录有主动推送、自动推送、sitemap三条通道,本质各不相同。本文先讲清三者差异,再带你在百度站长平台拿到接口调用地址、准备URL列表、避开UTF-8 BOM陷阱,给出Windows GUI和Python与Shell与PHP与Node.js与Go五种脚本实现,再讲推完怎么验证、配额耗尽的应急和三个真实踩坑。 ## 写在前面:3种百度收录通道的本质区别 保哥做SEO这么多年,被问得最多的一个问题就是"为什么我的新页面发布几天了百度还没收录"。其实在百度生态里,等爬虫自己来发现页面是最慢的一种方式,主动推送(过去常说的"主动ping")才是新页面进库最快的渠道。今天这篇文章保哥把主动推送的工作原理、几种实现方式以及踩过的坑都讲一遍,重点放在Windows下使用POST推送工具的具体配置,同时也会给出Linux/Python/PHP/Node.js的等价实现,让不同环境的朋友都能用。 ## 3种推送方式量化对比 保哥见过太多新人把这三个概念搞混。先把它们的本质区别说清楚,后面操作的时候才知道每个工具是在解决哪一类问题。 推送方式 | 触发条件 | 抓取速度 | 每日配额 | 适合场景 | 主动推送(API) | 站长主动POST调用 | 几分钟到几小时 | 新站100-500,老站5000-50000+ | 新发布内容、紧急收录 | 自动推送(JS) | 用户访问页面触发JS | 1到3天 | 无明确上限 | 常规页面被动覆盖 | sitemap提交 | 百度按自己节奏抓取 | 3天到2周 | 受文件大小限制(50MB或5万URL) | 历史存量内容兜底 | 等爬虫自然发现 | 外链或站内导航 | 1周到3个月 | 不可控 | 没有任何主动推送时 | ## 保哥的三档配合打法 保哥的实际打法是三个都用,但优先级是主动推送优于自动推送优于sitemap。新发布的内容一定走主动推送,老存量内容用sitemap兜底,自动推送当作备用通道。具体分工: - 主动推送:每篇新文章发布后立刻调用接口推送一次,配合钩子自动化 - 自动推送:所有页面挂百度提供的JS片段,靠用户访问被动触发 - sitemap:每周生成一次完整sitemap.xml并提交,覆盖全站历史内容 - 外链建设 (https://zhangwenbao.com/google-seo-manual-backlink-advanced-strategies-guide.html):在权重站做内链推荐,让爬虫"顺路"发现 四档配合后,新文章基本能在2到6小时内进入抓取队列,48小时内被索引的概率超过80%。 ## 主动推送、自动推送、sitemap的本质差异 ## 主动推送(active push) 站长后台给每个站点分配一个唯一的token,你拿这个token加上站点域名拼出一个接口地址,往这个地址POST你的URL列表,百度收到后会立刻进入抓取队列。这是最快的渠道,单条URL通常几分钟内就会被爬虫访问。优点:响应快、可控、可批量。缺点:有每日配额、token泄露有风险、必须由站长主动触发。 ## 自动推送(auto push) 百度给的一段JavaScript代码,你把它放到网站每个页面里,用户访问页面时这段JS会自动把当前URL推送到百度。优点:不用你自己写代码、用户访问即触发。缺点:依赖用户访问,如果一个新页面没人访问就不会被推送;JS执行可能被广告屏蔽工具拦截;速度比主动推送慢。 ## sitemap提交 站点地图,你把所有URL整理成XML提交给百度,百度按它自己的节奏去抓。这是最慢但最稳定的方式,适合一次性把历史页面全部推上去。优点:一次配置长期生效、能覆盖全站。缺点:抓取节奏百度说了算、新增内容反映慢、文件大小有限制。 ## 在百度站长平台拿到接口调用地址 登录百度搜索资源平台(前身就是百度站长平台),左侧菜单找到"数据引入 -> 链接提交 -> API提交"(部分版本叫"主动推送")。如果你的站点还没在站长平台验证,需要先做验证。 ## 站点验证的3种方式对比 验证方式 | 难度 | 稳定性 | 适合场景 | HTML文件验证 | 低 | 最高 | 有FTP/SSH访问权限的所有场景 | HTML标签验证 | 低 | 高 | 主题文件可编辑的CMS | CNAME验证 | 中 | 低(DNS缓存) | 仅有DNS控制权时 | 保哥个人最推荐HTML文件验证,最稳定,CNAME验证容易因为DNS缓存导致几个小时内验证不通过。 ## 接口地址的标准格式 验证通过以后,在API提交页面会看到一个接口调用地址,格式长这样: http://data.zz.baidu.com/urls?site=zhangwenbao.com&token=xxxxxxxx 这里的site参数是你的主域名(不带http、不带尾部斜杠),token是百度给你的密钥。token不能公开,不要贴到博客里,不要发到GitHub公开仓库,不要给任何陌生人看。token一旦泄露,恶意者可以伪造垃圾URL推送到你的站点配额下,把你的每日推送配额刷光,严重的还会导致百度对你站点的信任度下降。 ## token安全的5条最佳实践 - 本地加密存储:用环境变量或者密码管理器(1Password、Vault)保管,不要写在脚本里硬编码 - 定期重置:每3个月在站长平台主动重置一次token,特别是怀疑泄露时立刻重置 - 限制使用环境:只在固定的服务器或本机使用,不要带出工作环境 - 开启接口日志:记录每次推送的来源IP和URL数量,发现异常调用立即重置 - 分离测试与生产token:测试环境用独立token,生产事故不会污染生产配额 ## 准备URL列表 主动推送一次最多可以提交多少条URL,要看你站点的每日推送配额。配额由百度根据站点质量动态计算。 ## 不同站点规模的典型配额 站点阶段 | 每日配额 | 建议推送策略 | 新站点(建站3个月内) | 100到500条 | 每天分批推送,保留50%余量 | 中等站点(10到100万PV) | 1000到5000条 | 新文章实时推、归档每周补推 | 大型站点(100万PV+) | 5000到50000+条 | 新文章实时推、可建批量推送队列 | 资讯类站点(更新极快) | 申请后可达数十万 | 对接消息队列实时推送 | ## URL文件格式与3个关键陷阱 URL列表的格式很简单,一行一个完整URL,保存为纯文本文件,编码UTF-8无BOM。但保哥见过3个反复出现的陷阱: - UTF-8 BOM污染:用记事本默认保存会带一个BOM字节,推送接口返回success但实际上第一条URL永远进不了队列,就是因为那个BOM把URL头部污染了。Windows下推荐用Notepad++或者VSCode保存,编码栏里明确选"UTF-8 without BOM" - 协议不一致:URL里的协议要和站长平台验证时填的一致,如果你验证的是https站点,URL列表里就不能写http - 重复URL:不要把同一个URL重复推送,配额会被算两次但实际上百度只会处理一次,纯属浪费 ## URL去重与排序的小技巧 把URL列表预处理一下,能更高效用配额: # Linux 一行去重并排序 sort -u urls.txt > urls_clean.txt # PowerShell 等效 Get-Content urls.txt | Sort-Object -Unique | Set-Content urls_clean.txt # Python 等效 seen = set() clean = [] with open('urls.txt') as f: for line in f: u = line.strip() if u and u not in seen: seen.add(u) clean.append(u) open('urls_clean.txt', 'w').write('\n'.join(clean)) ## 使用百度POST实时推送工具(Windows GUI方案) 百度POST实时推送工具是早些年第三方开发者做的一个Windows桌面工具,至今还在很多老站长的工具箱里。保哥个人也用过,配置简单,适合不会写代码的朋友。 ## 详细操作步骤 - 下载解压后会看到主程序exe和一个"网址.txt" - 把准备好的URL列表全部贴到"网址.txt"里保存(UTF-8无BOM) - 打开主程序,界面有两个输入框 - 第一个输入框"接口调用地址":粘贴从百度站长平台拿到的完整地址(含site和token参数) - 第二个输入框"实时推送文件":点旁边的"打开"按钮,选择"网址.txt" - 点"开始推送",工具会逐行读取URL并POST到接口 ## 正常返回与错误返回的识别 正常情况下你会看到一条返回: { "remain": 4982, "success": 18 } remain是当天剩余配额,success是本次成功推送的条数。如果看到下面这些字段,说明部分URL有问题: 返回字段 | 含义 | 处理方法 | not_same_site | URL域名与site参数不匹配 | 检查URL列表,剔除外部链接 | not_valid | URL格式不合法(如缺协议头) | 补全http或https前缀 | error 400 | token无效或过期 | 到站长平台重新复制token | error 401 | 未授权(site或token错) | 核对site参数与token配对 | error 403 | 当日配额已用完 | 等明日0点重置,或申请提升 | ## GUI工具的限制 这个工具还有一个保哥比较喜欢的功能,就是可以挂在Windows服务器上做定时自动推送。配合一个简单的正则规则,让它定期扫描你网站的新URL(比如从sitemap.xml解析),扫到新的就推送。但这个功能依赖工具内置的正则匹配能力,规则写错了会漏推或者重复推,保哥实际部署的时候宁愿用脚本替代。 ## 用脚本替代GUI工具(推荐方案) 保哥这几年管理的站点越来越多,桌面GUI工具已经不够用了。现在100%用脚本做主动推送,下面给五种语言的实现,挑你顺手的用。 ## Python版本(最简洁) import requests API = "http://data.zz.baidu.com/urls?site=zhangwenbao.com&token=xxxxxxxx" with open("urls.txt", "r", encoding="utf-8") as f: urls = [line.strip() for line in f if line.strip()] body = "\n".join(urls) resp = requests.post( API, data=body.encode("utf-8"), headers={"Content-Type": "text/plain"}, timeout=15, ) print(resp.status_code, resp.json()) ## Linux Shell(crontab首选) #!/bin/bash API="http://data.zz.baidu.com/urls?site=zhangwenbao.com&token=xxxxxxxx" curl -H 'Content-Type:text/plain' --data-binary @urls.txt "$API" # crontab 每小时跑一次 # 0 * * * * /usr/local/bin/baidu_push.sh >> /var/log/baidu_push.log 2>&1 ## PHP版本(Typecho/WordPress钩子) function baidu_push($urls) { $api = 'http://data.zz.baidu.com/urls?site=zhangwenbao.com&token=xxxxxxxx'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $api); curl_setopt($ch, CURLOPT_POST, true); curl_setopt($ch, CURLOPT_POSTFIELDS, implode("\n", $urls)); curl_setopt($ch, CURLOPT_HTTPHEADER, ['Content-Type: text/plain']); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_TIMEOUT, 15); $result = curl_exec($ch); curl_close($ch); return json_decode($result, true); } // Typecho 钩子:发布文章后自动推送 Typecho_Plugin::factory('Widget_Contents_Post_Edit')->finishPublish = function($cid){ $post = Helper::widgetById('Contents', $cid); baidu_push([$post->permalink]); }; ## Node.js版本(异步友好) const fs = require('fs'); const axios = require('axios'); const API = 'http://data.zz.baidu.com/urls?site=zhangwenbao.com&token=xxxxxxxx'; async function baiduPush() { const urls = fs.readFileSync('urls.txt', 'utf-8') .split('\n').map(s => s.trim()).filter(Boolean); const body = urls.join('\n'); const resp = await axios.post(API, body, { headers: { 'Content-Type': 'text/plain' }, timeout: 15000, }); console.log(resp.status, resp.data); } baiduPush(); ## Go版本(高并发场景) package main import ( "bytes" "fmt" "io" "net/http" "os" "strings" ) func main() { api := "http://data.zz.baidu.com/urls?site=zhangwenbao.com&token=xxxxxxxx" data, _ := os.ReadFile("urls.txt") lines := strings.Split(string(data), "\n") body := strings.Join(lines, "\n") resp, _ := http.Post(api, "text/plain", bytes.NewBufferString(body)) defer resp.Body.Close() out, _ := io.ReadAll(resp.Body) fmt.Println(resp.StatusCode, string(out)) } 保哥自己的Typecho站点用的就是PHP版本,挂在Typecho_Plugin::factory('Widget_Contents_Post_Edit')->finishPublish钩子上,文章一发布马上推送,几乎不会延迟。 ## 5个典型生产场景的推送策略 ## 场景一:个人博客(每日0到3篇新内容) 用PHP钩子挂在CMS发布动作上,每篇文章发布后立即推送一次。配额完全够用,不需要批量。 ## 场景二:企业新闻站(每日10到50篇) 实时推送 + 每天凌晨0点重新推送当天发布的所有文章(兜底)。后者用Shell脚本配合crontab,从数据库SELECT前24小时发布的URL列表批量推送。 ## 场景三:电商商品站(每日数百到上千SKU上新) 实时推送 + 每小时批量推送。考虑到电商URL变动频繁(价格、库存变更),增加一个"重要变更触发再推送"的逻辑。配额吃紧时优先推送有价格变动或新评价的商品页。 ## 场景四:UGC内容站(每分钟数十条新内容) 对接消息队列(Redis、Kafka),每条新内容入队后异步推送。批量推送,每次合并100到1000条URL发送一次,降低API调用次数。 ## 场景五:聚合资讯站(爬虫抓取后入库) 抓取入库后立即推送,但要注意百度对"批量推送他站内容"的容忍度很低,所有抓取来的内容必须做改写或聚合分析,否则反而降权。这类站点保哥建议同时投入到自动推送和sitemap,分散风险。 ## 推送之后怎么验证效果 推送成功不等于收录成功,这是两个完全不同的事。保哥的验证流程是: ## 验证一:API返回字段 看接口返回的success字段是否等于你提交的URL数。如果不等,说明部分URL被过滤了,需要查not_same_site和not_valid字段。这一步是推送有效性验证,不是收录验证。 ## 验证二:site语法查询 过24到48小时,到百度搜索框里输入site:你的域名 关键词,看新页面是否已经能被搜出来。如果搜不到,可能是页面本身质量问题(内容太短、和已有页面雷同度高、没有外链支持),不是推送的问题。 ## 验证三:抓取频次趋势 登录百度站长平台,"数据统计 -> 抓取频次",看推送后两三天内爬虫访问频次是否上升。如果完全没上升,说明你的推送可能根本没生效,要回头查token和接口地址。 ## 验证四:服务器日志反查 看Nginx或Apache的access_log,搜索User-Agent包含Baiduspider的请求,确认推送后24小时内是否有百度爬虫访问对应URL: grep 'Baiduspider' /var/log/nginx/access.log \ | grep '推送的URL路径' | tail -20 保哥的经验是,推送后70%的页面会在48小时内被抓取,但抓取不等于收录。被抓取后页面是否进入索引库,取决于内容质量和站点整体权重。所以主动推送解决的是"被发现"的问题,不解决"被收录"的问题,后者需要长期内容运营来支持。 ## 配额耗尽以后的应急策略 保哥处理过几次配额耗尽的紧急情况,分享下应急策略。 ## 策略一:等次日重置 配额是按自然日重置的,凌晨0点重新计数。所以如果今天的配额用完了,明天0点以后再推剩下的。注意以北京时间为准,不是UTC。 ## 策略二:申请提升配额 如果你的内容更新 (https://zhangwenbao.com/revise-old-content-for-aeo-ai-search-optimization.html)量长期超过配额,在站长平台"数据引入"里提交一份申请说明,描述你的站点规模和内容更新频率。配额本质上是百度对站点信任度的量化体现,质量上去了配额会自动涨。申请通过率约30到50%,提供详细的内容质量数据(独立访客、停留时长)能提高通过率。 ## 策略三:兜底通道补救 保哥还有一个野路子,就是把超出配额的URL同时通过自动推送(JS代码)和sitemap两个渠道兜底,效果虽然不如主动推送,但聊胜于无。具体做法:把今天没推完的URL列表,对应的页面在文档底部插入一段JS——访问者打开就触发自动推送;同时这些URL进入下一周期的sitemap.xml里。 ## 策略四:错峰推送 把高优先级URL放在配额刚重置的凌晨0到6点推送,低优先级的放到白天。这样即使配额吃紧,重要内容也能优先进入抓取队列。 ## 3个真实踩坑案例 ## 案例一:UTF-8 BOM导致首条URL永远没推上 某客户用记事本编辑urls.txt,每次保存默认带BOM。脚本读出第一行URL时BOM被当成URL一部分,百度服务端解析为不合法URL丢弃,但因为是格式错误不计入not_valid计数,看起来success=N但实际上只有N-1条入队列。修复:用Notepad++保存时明确选UTF-8无BOM;或者脚本读文件时用open('urls.txt', encoding='utf-8-sig')自动剥BOM。教训:编码细节会吞掉静默错误,必须用日志+服务器log双重验证。 ## 案例二:token硬编码进GitHub仓库被刷爆配额 某客户把推送脚本提交到GitHub公开仓库,token明文写在脚本里。第二天发现配额被刷光,错误日志显示大量陌生IP的POST请求。修复:立即在站长平台重置token、清理GitHub历史(用git filter-branch彻底删除)、把token改为环境变量。教训:任何API凭据绝对不能进版本控制,连私有仓库也不要写,用环境变量或密钥管理服务。 ## 案例三:URL协议不一致导致全部not_same_site 客户站点全站HTTPS,但urls.txt里URL都是http://开头(沿用了多年前的列表)。每次推送返回success=0,全部进入not_same_site。修复:批量替换URL列表里的http为https,建立预检脚本在推送前验证URL协议与站点验证一致。教训:CMS升级HTTPS后所有外发推送链路都要重新验证一遍,不要假设旧脚本还能用。 ## 常见问题解答 ## 主动推送的接口需要HTTPS吗? 保哥实际测试过,data.zz.baidu.com同时支持http和https,两种都能用。但保哥个人推荐https,避免token在传输过程中被中间人截获。把接口地址里的http改成https即可,业务上没有任何差异,只是传输层加密。如果你的服务器在公网代理环境下(很多企业网通过代理上网),强制https还能避免代理记录明文token的风险。 ## 可以把多个站点的URL放在同一个文件里推送吗? 不可以。每个站点的token都是独立的,接口地址里site参数也只能写一个域名。如果一个URL不属于这个site,会被not_same_site过滤。多站点推送的话需要为每个站点单独配置一份接口地址和URL列表,分别调用。可以用一个统一的脚本,按站点名分别加载token和URL列表分批推送,但API调用必须分开。 ## 推送的URL是不是越多越好? 不是。保哥见过有人为了刷配额,把每个URL加上无意义的query参数推送N次,比如加问号v等于1、问号v等于2这种,这种做法百度后端会识别为伪造,不仅当次推送无效,还可能被降权。每个URL推送一次就够了,重要内容可以三五天后再补推一次,不要密集重推。如果一定要重推(比如内容做了重大更新),把?refresh=日期戳写到URL里作为版本标识,但要确保对应URL在站点上真的能访问到。 ## 用第三方工具推送会不会被百度判作弊? 保哥的回答是不会,前提是你推送的内容是你自己站点的真实内容、URL没有伪造、不超过配额。百度只关心内容质量和token合法性,不关心你用什么工具推送。但如果工具本身有问题,比如token被工具开发者收集后用于推送其他站点,那就是另一回事了。所以选工具的时候要选信誉好的,或者干脆自己写脚本最安全。开源工具优于闭源工具,能审计代码最稳。 ## 主动推送和Bing IndexNow可以同时用吗? 可以而且推荐。两者面向的搜索引擎不同——主动推送是百度专用,IndexNow是Bing、Yandex、Seznam等支持的协议,互不冲突。保哥的Typecho站点同时挂了百度推送插件和BingIndexNow插件,文章发布后两个通道并行触发。具体配置:百度按本文方法,IndexNow用zhangwenbao.com目前装的BingIndexNow插件即可,每个搜索引擎各推一次。 ## 推送了一周但site语法还是搜不到,怎么排查? 分四步:第一确认推送有效(API返回success大于0、抓取频次有上升);第二用Search Console的"URL检查"或百度站长的"抓取诊断"工具单条URL测试抓取,看能否抓到200状态码与正常HTML;第三检查页面是否有noindex标记或robots.txt屏蔽;第四对比同站点已收录页面与未收录页面的差异,常见原因是内容过短(少于500字)、模板雷同度过高、缺少首屏关键词。如果四步都通过仍未收录,可能是站点整体权重不足,需要长期内容运营累积。 ## 站点改版后推送是否需要重新配置? 看改了什么。如果只是模板换皮、URL规则不变,token可以继续用。如果改了URL结构(比如从id变slug),需要做三件事:第一把所有新URL重新生成sitemap并提交;第二把新URL的列表通过主动推送一次性提交;第三在旧URL上加301跳转 (https://zhangwenbao.com/typecho-rewrite-rules-301-jump-settings.html)到新URL,让百度更新索引。任何URL结构变更必须配合301跳转,否则会丢失原有排名。 ## 有没有办法批量监控多个站点的推送状态? 百度站长平台目前不提供批量API,只能逐站登录后台查看。保哥的做法是自己写一个汇总脚本:每天定时调用各站点的http://data.zz.baidu.com/urls接口,从返回的remain字段反推已用配额,存入本地数据库做趋势分析。配合Grafana面板,能直观看到所有站点的每日推送量、配额使用率、错误率。这套监控对站群运营特别有用,单站点没必要。 ## 写在最后 以上就是保哥多年使用百度主动推送 (https://zhangwenbao.com/wordpress-baidu-active-push.html)的全部经验。SEO这件事没有银弹,主动推送只是缩短了百度发现新页面的时间窗口,真正决定排名的还是内容本身的价值和站点整体权重。先把内容做好,再让推送工具去做它该做的事,顺序不能反。 保哥的建议是:新站期重点用主动推送加快入库速度;中期建立"主动推送+自动推送+sitemap"三档配合的标准流程;长期则把精力放回内容质量,让推送变成习惯性动作而不是焦虑来源。每天看看抓取频次曲线、收录率、配额使用率三个指标就够了,不需要天天盯着推送脚本。 ## 权威参考资料 ## 隐藏CNZZ、51.LA等第三方统计图标:现代处理与GDPR合规 - URL:https://zhangwenbao.com/hidden-third-party-website-statistics-icons.html - 分类:百度SEO - 发布:2018-06-21 | 更新:2026-06-02 - 摘要:CNZZ、51.LA这些老统计埋码会在页面渲染出可见图标,影响视觉。本文拆解几种隐藏方式在Google反作弊下的判定差异,覆盖CNZZ被收购后的现状、各家无图标新版的升级,以及AdBlock应对、GDPR同意横幅和自托管统计的对比。 - 关键词:统计代码,GDPR,Plausible,AdBlock,Cookie 同意 > **TLDR**:摘要:CNZZ、51.LA这些老统计埋码会在页面渲染出可见图标,影响视觉。本文先讲清SEO视角下隐藏元素的边界,覆盖CNZZ被收购后的现状、51.LA的处理、百度统计与谷歌分析等天然无图标的方案,再讲AdBlock拦截统计代码的应对、GDPR与个保法的合规、多个统计同时跑的最佳实践,以及隐藏与完全删除的取舍。 > 摘要:CNZZ、51.LA这些老统计埋码会在页面渲染出可见图标,影响视觉。本文先讲清SEO视角下隐藏元素的边界,覆盖CNZZ被收购后的现状、51.LA的处理、百度统计与谷歌分析等天然无图标的方案,再讲AdBlock拦截统计代码的应对、GDPR与个保法的合规、多个统计同时跑的最佳实践,以及隐藏与完全删除的取舍。 站点底部挂的 CNZZ / 51.LA / 百度统计 / Google Analytics 等第三方统计代码经常会附带一个可见的图标——CNZZ 默认的 stat_icon、51.LA 的小图标、百度统计的横条等。这些图标对页面美观是个负担,但不能完全删掉(删了统计就失效),怎么办? 网传两种方法:用