Qwen3.7-Plus：把"看"和"想"焊进同一个智能体基座

预计阅读时间：8 分钟

千问团队刚放出了 Qwen3.7-Plus——官方称之为"目前最强的多模态智能体模型"。关键词不是"多模态"，而是"智能体基座"。这意味着它不是又一个能看图说话的模型，而是把视觉理解和语言推理焊进同一套行动回路里，让模型既能读屏幕、看图表，又能写代码、调工具、跑工作流。

从文本强手到多模态智能体

Qwen3.7 的文本能力已经站稳了：编码、数学、长文推理都在第一梯队。但纯文本模型有一个结构性短板——它看不到用户正在面对的东西。你把一张错误截图丢给它，它只能靠你用文字描述；你把一份 PDF 报表贴进去，它得先 OCR 再分析，链路长、信息损。

Qwen3.7-Plus 的做法是：在 Qwen3.7 的文本底座上，把视觉-语言能力做一体化升级，同时完整保留编码、工具调用、生产力工作流的智能体能力。换句话说，"眼睛"不是外挂的插件，而是和"大脑""手脚"同一条神经总线。

多模态交互混合：不是拼接，是融合

公告里提到的"多模态交互混合"是核心差异点。传统做法是先跑视觉模型提取特征，再丢给语言模型生成回答——两阶段 pipeline，中间有信息瓶颈。Qwen3.7-Plus 把视觉理解和语言推理放在同一个基座里联合训练，模型在生成下一步动作时，可以直接引用它"看到"的内容，而不是依赖中间摘要。

这对智能体场景尤其关键。一个能操控浏览器的 agent，需要同时理解页面布局、读取图表数值、判断按钮位置，然后决定点击哪里或输入什么。如果视觉和语言是分离管线，延迟和误差都会叠加；融合基座则可以在同一轮推理中完成"看-想-做"。

实际上手：用 DashScope API 调用 Qwen3.7-Plus

下面给出一个可直接运行的 Python 示例，通过阿里 DashScope OpenAI-compatible API 向 Qwen3.7-Plus 发送一张图片加文本的混合请求，并启用工具调用能力。

先安装依赖：

pip install openai

然后运行以下脚本（将 YOUR_DASHSCOPE_API_KEY 替换为你自己的密钥，图片路径替换为实际文件）：

import base64
from openai import OpenAI

# DashScope 的 OpenAI 兼容接口
client = OpenAI(
    api_key="YOUR_DASHSCOPE_API_KEY",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

def encode_image(image_path: str) -> str:
    """将本地图片编码为 base64，用于多模态请求"""
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

# 构造多模态消息：图片 + 文本指令
image_b64 = encode_image("screenshot.png")  # 替换为你的图片路径

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": f"data:image/png;base64,{image_b64}"},
            },
            {
                "type": "text",
                "text": (
                    "请分析这张截图中的错误信息，"
                    "然后给出修复建议。如果需要执行命令，"
                    "请直接输出可运行的 shell 命令。"
                ),
            },
        ],
    }
]

# 调用 Qwen3.7-Plus（模型名以官方文档为准，发布初期可能为 qwen3.7-plus）
response = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=messages,
    temperature=0.3,
)

print(response.choices[0].message.content)

如果你想让模型主动调用工具（比如查日志、跑脚本），可以加上 tools 定义：

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_shell_command",
            "description": "在终端执行一条 shell 命令并返回输出",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {"type": "string", "description": "要执行的 shell 命令"},
                },
                "required": ["command"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=messages,
    tools=tools,
    tool_choice="auto",
)

msg = response.choices[0].message

# 如果模型决定调用工具，解析工具调用内容
if msg.tool_calls:
    for tc in msg.tool_calls:
        print(f"工具调用: {tc.function.name}({tc.function.arguments})")
else:
    print(msg.content)

这段代码展示了 Qwen3.7-Plus 的两个核心能力在同一请求中联动：视觉理解（读截图）+ 工具调用（决定执行什么命令）。这正是"智能体基座"的含义——模型不是被动回答问题，而是根据所见内容主动规划动作。

什么时候值得切换到 Qwen3.7-Plus

几个判断维度：

你的 agent 需要看东西：浏览器自动化、UI 测试、图表分析、文档审阅——这些场景视觉是刚需，Qwen3.7-Plus 的融合基座比"视觉模型 + 文本模型"拼接方案更稳。
你已经在用 Qwen3.7 的文本能力：升级路径平滑，API 兼容，编码和工具调用能力不降级，只是多了眼睛。
纯文本场景不需要急着换：如果你的工作流只涉及文本生成和代码补全，Qwen3.7 本身已经够强，Plus 的额外视觉能力不会带来文本质量的跳升，反而推理成本更高。

需要注意的点：

多模态请求的 token 消耗高于纯文本，图片会按分辨率折算为额外 token，成本和延迟都会上升，建议在确实需要视觉输入时才附带图片。
模型名和具体参数（如是否支持 streaming、最大图片数）以 DashScope 官方文档为准，发布初期可能有调整。
工具调用的可靠性依赖 prompt 设计——给模型一个清晰的角色定义和动作边界，比放任它自由发挥效果好得多。

一句话总结：Qwen3.7-Plus 不是"Qwen3.7 加了个视觉插件"，而是把视觉理解焊进了智能体的行动回路。如果你的 agent 需要同时看和做，这是一个值得认真评估的基座选择。

Qwen3.7-Plus：把"看"和"想"焊进同一个智能体基座

从文本强手到多模态智能体

多模态交互混合：不是拼接，是融合

实际上手：用 DashScope API 调用 Qwen3.7-Plus

什么时候值得切换到 Qwen3.7-Plus

相关推荐

建议反馈