Google I/O 2026 传出的最重磅消息不是某个新硬件,而是搜索本身。AI Mode 上线仅一年,月活用户突破 10 亿;查询量每季度翻一番以上;总搜索次数创历史新高。用户正在用一种全新的方式"搜索"——不再只是敲关键词、翻链接,而是把复杂问题直接扔给 AI,让它推理、拆解、综合后给出完整答案。
支撑这一切的底层引擎也换了:Gemini 3.5 Flash 正式取代原来的默认模型,成为 AI Mode 的新内核。这是搜索 25 年来最大的一次架构升级。
从关键词匹配到推理引擎:搜索范式的断裂
传统搜索的核心逻辑是"检索+排序"——索引网页、匹配关键词、按相关性排序返回十条蓝色链接。AI Mode 做的事情完全不同:它接收一个自然语言问题,调用 Gemini 模型进行多步推理,实时拉取多源信息,最终生成一个结构化的综合回答。
这种范式切换带来的变化是量级的。用户发现"搜索"能做的事远比以前多——比如"帮我对比这三款笔记本的续航和散热""把这篇论文的核心观点总结成三段话""根据我的行程规划一个京都两日游"。这些查询以前需要多次搜索、手动拼凑,现在一次对话就能完成。
查询量每季度翻倍,说明用户正在快速从"搜关键词"迁移到"问问题"。10 亿月活意味着 AI Mode 已经不是实验功能,而是搜索的主入口。
Gemini 3.5 Flash:为什么换内核?
AI Mode 之前的默认模型(据推测为 Gemini 2.x 系列)在推理深度和响应速度之间需要做权衡。Gemini 3.5 Flash 的引入解决了几个关键瓶颈:
- 推理速度:Flash 系列的设计目标就是低延迟高吞吐。搜索场景对首字出现时间(TTFT)极其敏感,用户不会等 10 秒才看到回答开头。3.5 Flash 在保持推理质量的同时大幅压缩了延迟。
- 多步推理能力:AI Mode 的核心流程是"query fan-out"——把一个复杂问题拆成多个子查询,并行检索后综合推理。3.5 Flash 的长上下文窗口和指令跟随能力让这种拆解-综合更可靠。
- 成本效率:10 亿月活、每季度翻倍的查询量,意味着推理成本是天文数字。Flash 系列的性价比优势在这个规模下是决定性的。
简单说:不是"更强的模型",而是"在搜索这个特定场景下更合适的模型"。
用 Gemini 3.5 Flash 构建你自己的 AI 搜索流
Google 搜索的 AI Mode 是封闭系统,但 Gemini 3.5 Flash 本身可以通过 API 调用。下面演示如何用 Python SDK 实现一个简化版的"AI 搜索"——接收复杂问题,拆解子查询,调用搜索工具,综合回答。
安装依赖
pip install google-genai
最简调用:直接问 Gemini 3.5 Flash
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="对比 ThinkPad X1 Carbon、MacBook Air M4、Dell XPS 14 的续航时间和散热表现,给出购买建议",
)
print(response.text)
运行前把 YOUR_API_KEY 替换为你的 Google AI Studio 密钥。这个查询 Gemini 会直接基于自身知识给出回答——对于事实性强的对比问题,可能不够精准,因为模型知识有截止日期。
进阶:模拟 AI Mode 的 query fan-out
真正的 AI Mode 会拆解问题、并行搜索、再综合。我们可以用 Gemini 的 function calling 来模拟这个流程:
import json
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
# 定义搜索工具(这里用模拟数据,实际可接入 SerpAPI / Google Custom Search API)
search_tool = {
"name": "web_search",
"description": "搜索网页获取最新信息,返回相关结果摘要",
"parameters": {
"type": "object",
"properties": {
"query": {
"type": "string",
"description": "搜索关键词"
}
},
"required": ["query"]
}
}
def web_search(query: str) -> str:
"""模拟搜索结果——实际项目中替换为真实搜索 API 调用"""
mock_results = {
"ThinkPad X1 Carbon 续航": "2026 款 X1 Carbon 官标续航 18 小时,实测约 14 小时",
"MacBook Air M4 续航": "M4 版 Air 官标 20 小时,实测约 17 小时",
"Dell XPS 14 续耐": "XPS 14 官标 13 小时,实测约 10 小时",
}
for key, value in mock_results.items():
if key.lower() in query.lower():
return value
return f"未找到 '{query}' 的模拟结果,请接入真实搜索 API"
# 第一步:让 Gemini 拆解问题并生成子查询
decompose_prompt = """你是一个搜索策略专家。用户提出了一个复杂问题,
请将其拆解为 3-5 个独立的搜索子查询,每个子查询覆盖一个具体维度。
只输出 JSON 数组,不要其他内容。
用户问题:对比 ThinkPad X1 Carbon、MacBook Air M4、Dell XPS 14 的续航和散热"""
decompose_response = client.models.generate_content(
model="gemini-3.5-flash",
contents=decompose_prompt,
)
# 解析子查询
sub_queries = json.loads(decompose_response.text)
print("拆解出的子查询:", sub_queries)
# 第二步:并行执行搜索
search_results = {}
for sq in sub_queries:
# 调用 function calling 版本
result = web_search(sq)
search_results[sq] = result
# 第三步:综合所有搜索结果,生成最终回答
synthesis_prompt = f"""基于以下搜索结果,综合回答用户问题。
要求:结构清晰,有数据支撑,最后给出明确的购买建议。
搜索结果:
{json.dumps(search_results, ensure_ascii=False, indent=2)}
用户原始问题:对比 ThinkPad X1 Carbon、MacBook Air M4、Dell XPS 14 的续航和散热"""
final_response = client.models.generate_content(
model="gemini-3.5-flash",
contents=synthesis_prompt,
)
print("\n=== 最终综合回答 ===")
print(final_response.text)
这段代码的核心思路就是 AI Mode 的工作流缩影:拆解 → 检索 → 综合。实际生产中,你需要把 web_search 替换为真实的搜索 API(如 SerpAPI、Google Custom Search),并加上缓存、限流、错误处理。
用 Gemini Function Calling 做真正的工具调用
Gemini 3.5 Flash 支持原生 function calling,可以让模型自己决定何时调用搜索:
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
# 配置工具
tools = [search_tool] # 使用上面定义的 search_tool schema
config = {
"tools": [tools],
}
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="2026 年京都樱花季最佳观赏日期是什么?帮我规划两日行程",
config=config,
)
# 检查模型是否请求调用工具
if response.candidates[0].content.parts[0].function_call:
fc = response.candidates[0].content.parts[0].function_call
print(f"模型请求调用: {fc.name},参数: {fc.args}")
# 执行搜索,把结果喂回模型继续生成
search_result = web_search(fc.args["query"])
# 回传工具结果
follow_up = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
{"role": "user", "parts": [{"text": "2026 年京都樱花季最佳观赏日期是什么?帮我规划两日行程"}]},
{"role": "model", "parts": [{"function_call": fc}]},
{"role": "function", "parts": [{"function_response": {"name": fc.name, "response": {"result": search_result}}}]},
],
config=config,
)
print(follow_up.text)
else:
print(response.text)
10 亿月活背后的工程挑战
月活 10 亿、查询量季度翻倍,这个增速对工程团队的压迫是全方位的:
- 推理成本:每次 AI Mode 查询的推理成本远高于传统关键词检索。Gemini 3.5 Flash 的性价比是让这个规模可持续的前提,但即便如此,基础设施投入也是巨量。
- 延迟体验:搜索场景对延迟容忍度极低。AI Mode 的多步推理(拆解、检索、综合)天然比单次检索慢,必须在模型推理速度、并行检索架构、流式输出上做极致优化。
- 质量护栏:AI 生成回答有幻觉风险。搜索场景对事实准确性要求极高——错误答案比没有答案更危险。Google 在 AI Mode 中加入了实时信息检索来锚定事实,但护栏系统的复杂度随规模非线性增长。
- 流量迁移:传统搜索结果页的广告生态是 Google 的商业根基。AI Mode 改变了信息呈现方式,广告位、点击行为、商业模型都需要重新设计。
落地启示与取舍清单
对于想在自己的产品中引入类似"AI 搜索"能力的团队,几个关键取舍:
| 决策点 | 选择 A | 选择 B | 建议 |
|---|---|---|---|
| 模型选型 | 大模型(推理深) | Flash 系列(速度快) | 搜索场景优先选 Flash,延迟容忍度低 |
| 搜索策略 | 单次大查询 | 拆解+并行子查询 | 复杂问题用 fan-out,简单问题直出 |
| 事实锚定 | 纯模型知识 | 实时检索+模型综合 | 必须加检索锚定,否则幻觉不可控 |
| 成本控制 | 每次全推理 | 缓存+分级推理 | 高频查询缓存热门子查询结果 |
快速上手清单:
- 在 Google AI Studio 申请 API Key,直接用
gemini-3.5-flash模型跑几个你业务中的典型查询,感受推理速度和回答质量。 - 用 function calling 接入你的内部数据源或搜索 API,验证"拆解-检索-综合"流程在你的场景下是否可行。
- 对比 Flash 和 Pro 系列模型在同一查询上的延迟和质量差异,决定你的产品用哪个。
- 建立事实性查询的评估集——特别是你业务中容易出幻觉的领域,持续测试检索锚定的效果。
10 亿月活证明了一件事:用户已经接受了"搜索=对话+推理"的新范式。问题不再是"AI 搜索能不能用",而是"怎么在你的场景里用得又快又准又稳"。Gemini 3.5 Flash 给了一个性价比极高的起点,剩下的工程活,得自己干。