【AI】Qwen3.5的野心很大

 

解读下Qwen3.5

序言

不知道是不是去年Deepseek开启了中国AI届的传统,大公司几乎都赶在春节前Release了一波模型,这几天比较火的就是SeedDance 2.0和Qwen3.5的模型,现在的大模型赛道确实比较卷,要知道Qwen3.5是除夕当天发布的。虽然官方的Tech Report还没有发布,但是我们可以先通过Release出来的模型权重和inference代码,看下这个官方宣称的原生多模态智能体是个什么。

模型架构

首先Qwen3.5官方Release出来的是397B-A17B的MOE模型,MOE模型是一个Inference性价比很高的架构,这比较符合现在大模型的发展趋势:在OpenClaw相关的个人助理式应用发展出来以后,inference性价比在应用侧是一个关注度很高的指标;

其次,我研究了一下release出来模型的架构,即Qwen3_5MoeForConditionalGeneration。官方提到的原生多模态,并非是多模态模型的原生,即并没有进行Vision的tokenization,而是沿用了QwenVL的架构,即依然使用Vision Transformer编码图片,经过patchmerger对ViT结果进行下采样,最终投射到LLM的embedding空间上,不过注意这里和Qwen3VL有一些异同;

  1. 相同:都是采用了ViT + LLM的整体架构,视频采用了时间戳+Frames的处理方式;
  2. 不同:Qwen3.5抛弃了Qwen3VL中的Deepstack,可能这种方式带来的提升比较有限?

有什么Highlights?

总结来说,这次Qwen3.5最重要的,就是在未来各类Agent任务场景上的适配,真正做到泛化性和实用层面的第一,而不是为了刷一些Benchmark,下面我quote一段Qwen3.5在网页上的原话。

[!IMPORTANT]

相对于 Qwen3 系列模型,Qwen3.5 的 Post-training 性能提升主要来自于我们对各类 RL 任务和环境的全面扩展。我们更加强调 RL 环境的难度与可泛化性,而非针对特定指标或狭隘类别的 query 进行优化。下图展示了在通用 Agent 能力上,模型效果随 RL Environment scaling 带来的增益。整体性能由各模型在以下基准上的平均排名计算得出:BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。更多任务的 scaling 效果将在我们即将发布的技术报告中详述。

img

从Demo展示看Qwen的野心

Qwen重点展示了几个场景

  1. 仰望星空:Qwen官方使用Qwen3.5对Agent能力的支持,这个是各个大厂在26年正在大力发展的方向;
  2. 脚踏实地:
    1. 网页和coding开发;
    2. 第三方智能体的集成:OpenClaw的适配;
    3. 视觉智能体、视觉编程。
  3. 惊喜:自动驾驶场景的应用潜力。

以上几个都是Qwen官方放出来的Demo,可以看出其希望通过Qwen3.5这个模型来开启26年的Agent爆发元年。

总结

Qwen这波发布,赶在年前开启了Agent的元年,通过官方发布的一些Demo,看到了他们期望通过模型达成的最终结果。这里其实还有个小细节就是在基础设施这里的工作,内容虽然不多,但是从简短的一些文字中就感受到了巨大的Infra工作,全尺寸模型的训推一致性、训推解耦、Rollout路由回放、面向Agent工作流的训练框架搭建和长尾Rollout延迟处理,哪一个听上去都是巨大无比的工作量。

想到这里也十分感慨,使用现在的开源框架进行的Agentic的RL训练,虽然已经避免了很多Infra的工作,但实际上在真正开始之前,需要对训练和推理有非常深入的了解和研究,否则但凡存在个训推不一致的问题,都会造成效果上的下降或者不及预期。RL时代,真正考研Infra功底和训练资源利用率了,否则算法上的优化将无从谈起。