Qwen3.7-Max:一个冲着"全能智能体基座"去的模型

2026-05-20 19 预计阅读时间:1 分钟
来源:oschina.net AI 摘要 原文链接

免责声明:本文为 AI 摘要整理,建议结合原文阅读。摘要可能省略上下文、版本差异或边界条件,不作为官方说明。

预计阅读时间:10 分钟

通义实验室刚放出 Qwen3.7-Max,定位很明确——不做花哨的 benchmark 冠军,要做能真正跑任务的智能体底座。写代码、调试、跑自动化流程、甚至跨越上千步的长周期任务自主执行,它都想包下来。API 即将开放,对开发者来说,最值得关注的不是跑分数字,而是这个模型在"多步自主执行"这件事上到底能走多远。

智能体模型的痛点在哪

过去一年,各家都在说"agent",但实际落地时开发者反复撞上几面墙:

  • 短任务还行,长任务崩盘——写个函数没问题,让它从需求分析到测试部署跑完一条链路,中间步骤一多就迷路。
  • 工具调用不稳定——该调 API 的时候瞎编参数,不该调的时候硬调,导致整个流程卡死。
  • 上下文遗忘——执行到第 50 步时,忘了第 3 步做的决策,后面全跑偏。

Qwen3.7-Max 的公告直接把"数百乃至数千步的长周期任务"写进了定位,说明它瞄准的就是这些痛点。编程能力只是入口,真正的赌注押在"持续自主执行"上。

编程能力:不只是生成代码

公告提到编程是核心优势之一。对开发者而言,"编程能力强"在智能体语境下意味着三件事:

  1. 能写——生成可运行的代码,不是伪代码片段。
  2. 能调——遇到报错能自己读 traceback、定位问题、修复后重跑。
  3. 能串——把写代码、跑测试、改 bug、提交 PR 这些步骤串成一个自动流程。

第三点才是智能体模型和普通代码补全模型的分水岭。如果 Qwen3.7-Max 真能在长链条中保持决策一致性,那它就不是"更聪明的 Copilot",而是可以当 CI/CD 流程里的自主执行节点。

用 API 跑一个最小智能体流程

API 即将上线,下面用通义千问现有的 OpenAI-compatible 接口格式写一个最小可运行的智能体示例——等 Qwen3.7-Max API 开放后,把 model 字段改成 qwen3.7-max 即可。

场景:自动修复一个 Python 函数的 bug

import openai
import json
import subprocess

# 通义千问兼容 OpenAI SDK,只需改 base_url 和 model
# Qwen3.7-Max API 开放后,将 model 替换为对应名称
client = openai.OpenAI(
    api_key="your-dashscope-api-key",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

MODEL = "qwen-max"  # 替换为 qwen3.7-max 当 API 可用

def call_agent(messages, tools=None):
    """调用模型,支持工具调用"""
    kwargs = {
        "model": MODEL,
        "messages": messages,
        "temperature": 0.1,  # 智能体任务用低温度,减少随机性
    }
    if tools:
        kwargs["tools"] = tools
    return client.chat.completions.create(**kwargs)

# 定义工具:执行 Python 代码并返回输出
tools = [
    {
        "type": "function",
        "function": {
            "name": "run_python",
            "description": "执行一段 Python 代码,返回 stdout 和 stderr",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "要执行的 Python 代码"
                    }
                },
                "required": ["code"]
            }
        }
    }
]

def execute_run_python(code: str) -> str:
    """实际执行代码的函数"""
    result = subprocess.run(
        ["python3", "-c", code],
        capture_output=True, text=True, timeout=30
    )
    output = result.stdout
    if result.returncode != 0:
        output += f"\nERROR:\n{result.stderr}"
    return output

# ---- 智能体主循环 ----
def agent_loop(task: str, max_steps: int = 10):
    messages = [{"role": "user", "content": task}]

    for step in range(max_steps):
        print(f"\n--- Step {step + 1} ---")
        response = call_agent(messages, tools=tools)
        choice = response.choices[0]

        # 模型决定调用工具
        if choice.message.tool_calls:
            for tc in choice.message.tool_calls:
                args = json.loads(tc.function.arguments)
                print(f"工具调用: {tc.function.name}({args.get('code','')[:80]}...)")

                # 执行工具
                result = execute_run_python(args["code"])
                print(f"执行结果: {result[:200]}")

                # 把工具结果喂回模型
                messages.append(choice.message)
                messages.append({
                    "role": "tool",
                    "tool_call_id": tc.id,
                    "content": result
                })
        else:
            # 模型给出最终回复,循环结束
            print(f"最终回复: {choice.message.content}")
            return choice.message.content

    return "达到最大步数限制,任务未完成"

# ---- 运行 ----
buggy_task = """
下面这个函数有 bug,请找出问题、修复它,并用 run_python 工具验证修复后的函数能正确运行:

def add_lists(a, b):
    return a + b

# 期望:add_lists([1,2], [3,4]) == [1,2,3,4]
# 实际:add_lists([1,2], [3,4]) 返回 [1,2,3,4](碰巧对了)
# 但 add_lists(1, 2) 应该抛 TypeError,目前返回 3
# 修复:加上类型检查,只允许 list 输入
"""

result = agent_loop(buggy_task)

运行前需要改动的地方:

  • api_key:换成你的 DashScope API Key,在阿里云百炼平台申请。
  • MODEL:当前填 qwen-max,Qwen3.7-Max API 开放后改为官方公布的模型标识。
  • temperature:智能体场景建议 0.05–0.2,让模型少发散、多执行。

这个示例的核心不是代码生成本身,而是工具调用 + 多步循环的骨架。Qwen3.7-Max 的价值就在这个骨架上——如果它在第 5 步还能记住第 1 步的约束条件,不跑偏、不瞎调工具,长任务才真正可跑。

长周期任务:从概念到验证

"数百乃至数千步的自主执行"是公告里最激进的一句话。目前主流模型在 20–50 步的 agent loop 里就已经会出现上下文漂移。Qwen3.7-Max 如果真在这个维度有突破,开发者需要关注几个验证点:

验证维度 怎么测
步数稳定性 跑一个 100+ 步的自动化办公流程(比如从邮件提取需求→建文档→写代码→跑测试→发通知),看后半段是否还能正确决策
工具调用精度 给 10 个不同工具,看模型是否准确选择,不幻觉参数
上下文记忆 在第 80 步引用第 5 步的约束条件,看模型是否还记得
错误恢复 中间某步故意制造失败(API 返回 500),看模型能否自动重试或换路径

建议拿到 API 后先跑一个 50 步的简单流程做基线,再逐步加步数和工具数量,别直接冲 1000 步——调试成本太高。

上手前的准备清单

  • API Key:去阿里云百炼平台开通 DashScope,目前 qwen-max 系列已可用,等 Qwen3.7-Max 上线后切换模型名。
  • SDK 选择:OpenAI-compatible 接口最方便,Python 用 openai SDK,改 base_url 即可;也可以用 DashScope 原生 SDK。
  • 智能体框架:如果不想自己写 loop,可以用 LangChain、AutoGen 或阿里自己的 AgentCraft 框架接入,把底层模型换成 Qwen3.7-Max。
  • 成本预估:长步数任务 token 消耗不小,100 步的 loop 每步平均 2000 token,一轮就是 200K token。先在短任务上估算单价,再决定是否放开步数上限。
  • 降级策略:任何智能体都可能卡死,务必设置 max_steps 和超时机制,关键步骤加人工确认节点。

Qwen3.7-Max 把"全能智能体基座"写在脸上,这对开发者是个实在的信号——它不是拿来聊天或写段子的,是拿来跑流程的。等 API 开放,第一件事不是跑 benchmark,而是跑一个你自己的真实多步任务,看它在你的场景里到底能走多远。


相关推荐