Google 搜索 25 年最大升级：AI Mode 月活破 10 亿，Gemini 3.5 Flash 成新内核

预计阅读时间：13 分钟

Google I/O 2026 传出的最重磅消息不是某个新硬件，而是搜索本身。AI Mode 上线仅一年，月活用户突破 10 亿；查询量每季度翻一番以上；总搜索次数创历史新高。用户正在用一种全新的方式"搜索"——不再只是敲关键词、翻链接，而是把复杂问题直接扔给 AI，让它推理、拆解、综合后给出完整答案。

支撑这一切的底层引擎也换了：Gemini 3.5 Flash 正式取代原来的默认模型，成为 AI Mode 的新内核。这是搜索 25 年来最大的一次架构升级。

从关键词匹配到推理引擎：搜索范式的断裂

传统搜索的核心逻辑是"检索+排序"——索引网页、匹配关键词、按相关性排序返回十条蓝色链接。AI Mode 做的事情完全不同：它接收一个自然语言问题，调用 Gemini 模型进行多步推理，实时拉取多源信息，最终生成一个结构化的综合回答。

这种范式切换带来的变化是量级的。用户发现"搜索"能做的事远比以前多——比如"帮我对比这三款笔记本的续航和散热""把这篇论文的核心观点总结成三段话""根据我的行程规划一个京都两日游"。这些查询以前需要多次搜索、手动拼凑，现在一次对话就能完成。

查询量每季度翻倍，说明用户正在快速从"搜关键词"迁移到"问问题"。10 亿月活意味着 AI Mode 已经不是实验功能，而是搜索的主入口。

Gemini 3.5 Flash：为什么换内核？

AI Mode 之前的默认模型（据推测为 Gemini 2.x 系列）在推理深度和响应速度之间需要做权衡。Gemini 3.5 Flash 的引入解决了几个关键瓶颈：

推理速度：Flash 系列的设计目标就是低延迟高吞吐。搜索场景对首字出现时间（TTFT）极其敏感，用户不会等 10 秒才看到回答开头。3.5 Flash 在保持推理质量的同时大幅压缩了延迟。
多步推理能力：AI Mode 的核心流程是"query fan-out"——把一个复杂问题拆成多个子查询，并行检索后综合推理。3.5 Flash 的长上下文窗口和指令跟随能力让这种拆解-综合更可靠。
成本效率：10 亿月活、每季度翻倍的查询量，意味着推理成本是天文数字。Flash 系列的性价比优势在这个规模下是决定性的。

简单说：不是"更强的模型"，而是"在搜索这个特定场景下更合适的模型"。

用 Gemini 3.5 Flash 构建你自己的 AI 搜索流

Google 搜索的 AI Mode 是封闭系统，但 Gemini 3.5 Flash 本身可以通过 API 调用。下面演示如何用 Python SDK 实现一个简化版的"AI 搜索"——接收复杂问题，拆解子查询，调用搜索工具，综合回答。

安装依赖

pip install google-genai

最简调用：直接问 Gemini 3.5 Flash

from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="对比 ThinkPad X1 Carbon、MacBook Air M4、Dell XPS 14 的续航时间和散热表现，给出购买建议",
)

print(response.text)

运行前把 YOUR_API_KEY 替换为你的 Google AI Studio 密钥。这个查询 Gemini 会直接基于自身知识给出回答——对于事实性强的对比问题，可能不够精准，因为模型知识有截止日期。

进阶：模拟 AI Mode 的 query fan-out

真正的 AI Mode 会拆解问题、并行搜索、再综合。我们可以用 Gemini 的 function calling 来模拟这个流程：

import json
from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

# 定义搜索工具（这里用模拟数据，实际可接入 SerpAPI / Google Custom Search API）
search_tool = {
    "name": "web_search",
    "description": "搜索网页获取最新信息，返回相关结果摘要",
    "parameters": {
        "type": "object",
        "properties": {
            "query": {
                "type": "string",
                "description": "搜索关键词"
            }
        },
        "required": ["query"]
    }
}

def web_search(query: str) -> str:
    """模拟搜索结果——实际项目中替换为真实搜索 API 调用"""
    mock_results = {
        "ThinkPad X1 Carbon 续航": "2026 款 X1 Carbon 官标续航 18 小时，实测约 14 小时",
        "MacBook Air M4 续航": "M4 版 Air 官标 20 小时，实测约 17 小时",
        "Dell XPS 14 续耐": "XPS 14 官标 13 小时，实测约 10 小时",
    }
    for key, value in mock_results.items():
        if key.lower() in query.lower():
            return value
    return f"未找到 '{query}' 的模拟结果，请接入真实搜索 API"

# 第一步：让 Gemini 拆解问题并生成子查询
decompose_prompt = """你是一个搜索策略专家。用户提出了一个复杂问题，
请将其拆解为 3-5 个独立的搜索子查询，每个子查询覆盖一个具体维度。
只输出 JSON 数组，不要其他内容。

用户问题：对比 ThinkPad X1 Carbon、MacBook Air M4、Dell XPS 14 的续航和散热"""

decompose_response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=decompose_prompt,
)

# 解析子查询
sub_queries = json.loads(decompose_response.text)
print("拆解出的子查询：", sub_queries)

# 第二步：并行执行搜索
search_results = {}
for sq in sub_queries:
    # 调用 function calling 版本
    result = web_search(sq)
    search_results[sq] = result

# 第三步：综合所有搜索结果，生成最终回答
synthesis_prompt = f"""基于以下搜索结果，综合回答用户问题。
要求：结构清晰，有数据支撑，最后给出明确的购买建议。

搜索结果：
{json.dumps(search_results, ensure_ascii=False, indent=2)}

用户原始问题：对比 ThinkPad X1 Carbon、MacBook Air M4、Dell XPS 14 的续航和散热"""

final_response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=synthesis_prompt,
)

print("\n=== 最终综合回答 ===")
print(final_response.text)

这段代码的核心思路就是 AI Mode 的工作流缩影：拆解 → 检索 → 综合。实际生产中，你需要把 web_search 替换为真实的搜索 API（如 SerpAPI、Google Custom Search），并加上缓存、限流、错误处理。

用 Gemini Function Calling 做真正的工具调用

Gemini 3.5 Flash 支持原生 function calling，可以让模型自己决定何时调用搜索：

from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

# 配置工具
tools = [search_tool]  # 使用上面定义的 search_tool schema

config = {
    "tools": [tools],
}

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="2026 年京都樱花季最佳观赏日期是什么？帮我规划两日行程",
    config=config,
)

# 检查模型是否请求调用工具
if response.candidates[0].content.parts[0].function_call:
    fc = response.candidates[0].content.parts[0].function_call
    print(f"模型请求调用: {fc.name}，参数: {fc.args}")
    # 执行搜索，把结果喂回模型继续生成
    search_result = web_search(fc.args["query"])

    # 回传工具结果
    follow_up = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=[
            {"role": "user", "parts": [{"text": "2026 年京都樱花季最佳观赏日期是什么？帮我规划两日行程"}]},
            {"role": "model", "parts": [{"function_call": fc}]},
            {"role": "function", "parts": [{"function_response": {"name": fc.name, "response": {"result": search_result}}}]},
        ],
        config=config,
    )
    print(follow_up.text)
else:
    print(response.text)

10 亿月活背后的工程挑战

月活 10 亿、查询量季度翻倍，这个增速对工程团队的压迫是全方位的：

推理成本：每次 AI Mode 查询的推理成本远高于传统关键词检索。Gemini 3.5 Flash 的性价比是让这个规模可持续的前提，但即便如此，基础设施投入也是巨量。
延迟体验：搜索场景对延迟容忍度极低。AI Mode 的多步推理（拆解、检索、综合）天然比单次检索慢，必须在模型推理速度、并行检索架构、流式输出上做极致优化。
质量护栏：AI 生成回答有幻觉风险。搜索场景对事实准确性要求极高——错误答案比没有答案更危险。Google 在 AI Mode 中加入了实时信息检索来锚定事实，但护栏系统的复杂度随规模非线性增长。
流量迁移：传统搜索结果页的广告生态是 Google 的商业根基。AI Mode 改变了信息呈现方式，广告位、点击行为、商业模型都需要重新设计。

落地启示与取舍清单

对于想在自己的产品中引入类似"AI 搜索"能力的团队，几个关键取舍：

决策点	选择 A	选择 B	建议
模型选型	大模型（推理深）	Flash 系列（速度快）	搜索场景优先选 Flash，延迟容忍度低
搜索策略	单次大查询	拆解+并行子查询	复杂问题用 fan-out，简单问题直出
事实锚定	纯模型知识	实时检索+模型综合	必须加检索锚定，否则幻觉不可控
成本控制	每次全推理	缓存+分级推理	高频查询缓存热门子查询结果

快速上手清单：

在 Google AI Studio 申请 API Key，直接用 gemini-3.5-flash 模型跑几个你业务中的典型查询，感受推理速度和回答质量。
用 function calling 接入你的内部数据源或搜索 API，验证"拆解-检索-综合"流程在你的场景下是否可行。
对比 Flash 和 Pro 系列模型在同一查询上的延迟和质量差异，决定你的产品用哪个。
建立事实性查询的评估集——特别是你业务中容易出幻觉的领域，持续测试检索锚定的效果。

10 亿月活证明了一件事：用户已经接受了"搜索=对话+推理"的新范式。问题不再是"AI 搜索能不能用"，而是"怎么在你的场景里用得又快又准又稳"。Gemini 3.5 Flash 给了一个性价比极高的起点，剩下的工程活，得自己干。