Qwen3 - 基模搞得好,变现少不了
自从Deepseek-R1出来以后,很多模型都跟进了reasoning能力,这也是后续语言模型的重点,即通过reasoning能力的提升,带动benchmark上的表现;同时对于非编程、stem任务来说,reasoning最核心的贡献就是Think out loud. 以往都是直接给答案,作为用户根本不知道为什么大模型会给出一个答案,但是有了思考过程,模型可能会犯的错误能被用户察觉,从而进行改正,也提高了最终的成功率。
Qwen3的更新
MoE架构的升级
- 相比于Qwen2.5时期,虽然MoE模型也介绍了下,但是并非作为重点,但这次Qwen3重点推出了MoE模型,推理参数大大降低。其实MoE有很多有意思的玩法,在VLM上,还有把不同的Vision Encoder当成不同Expert的,核心假设是,有的ViT模型OCR能力好,有的ViT模型空间感知好,MoE一堆VIT能在让Visual路由到不同的VIT上,从而提升整体性能;
训练阶段
-
预训练
- 预训练数据:使用了36万亿个token,覆盖119种语言和方言,包括编码、STEM、推理任务、书籍、多语言文本和合成数据。
- 预训练阶段:
- 第一阶段(General Stage):在30万亿个token上训练,构建语言能力和一般世界知识。
- 第二阶段(Reasoning Stage):增加STEM、编码、推理和合成数据的比例,进一步提升推理能力。
- 第三阶段(Long Context Stage):扩展上下文长度到32,768个token,提升处理长文本的能力。
- 预训练评估:Qwen3在多个基准测试中表现出色,尤其是在数学、编码和多语言任务中。例如,Qwen3-235B-A22B在AIME’24和AIME’25中分别达到了85.7和81.5的高分。
-
后训练(Post-Training)
- 后训练目标:
- 思考控制(Thinking Control):整合“思考”和“非思考”模式,允许用户控制推理深度。
- 强到弱蒸馏(Strong-to-Weak Distillation):通过从大型模型中提取知识,优化轻量级模型的训练。
- 后训练阶段:
- 长链推理(Long-CoT Cold Start):从数学、编码、逻辑推理等类别中生成推理模式。
- 推理强化学习(Reasoning RL):使用强化学习进一步提升推理能力。
- 思考模式融合(Thinking Mode Fusion):将“非思考”能力整合到“思考”模型中。
- 通用强化学习(General RL):提升模型在多样化任务中的表现。这里Qwen3仅用了3995条 query-verifier pairs,并用GRPO进行训练。这里讲到了一个trick,就是用非常大的batchsize(具体多少没提)加上对于每个Query要做非常多rollouts,进行训练。有意思的是这里用了Off-policy的训练,也就是说这个GRPO不是在训练的时候Sample的,而是离线Sample好在进行训练的。看着训练也并非很高效,改一点就要重新生成数据。
Qwen最新新闻
AI大模型的发展到现在如火如荼,整体在内的从业者也获得了丰厚的汇报,但是这里一直笼罩着一层乌云就是,基础大模型的变现方向到底在哪里?未来从事基础模型研究的人员能否在更长期的发展上获得保障?我看到通义千问的发展,和最近看到的新闻,我觉得基础大模型就是真是硬通货。
最近SAP(思爱普)宣布了和阿里巴巴的合作,会把通义千问接入SAP应用及云上合作拓展,全球最大企业软件接入通义。现在有非常多的企业,在做基于AI的企业转型甚至是业务转型,这是一个大趋势,因为不接入生成式AI的企业未来是死路一条。
SAP一共宣布了两种接入方式,第一是会把现在对外提供的核心业务,例如RISE、GROW等应用直接部署在阿里云上,直接为SAP的客户提供解决方案;第二是企业级客户可以直接访问通义千问的大模型,直接在其应用上体验生成式AI的能力。
综上来看,做好基础大模型,就是未来时代的硬通货。即使是AI Agent也要运行在足够强大的基础模型上,才能充分发挥Agent的能力。
上篇AI算法