【AI】RL的本质
从Post-Train角度思考VLM模型变化,应用发展
前言
上个季度开源release了非常多评分很高的模型,比如Qwen3-VL,Ovis-2.5,Mimo-VL等,这些模型本身的能力得到了非常大幅度的提升,在数学和推理类的任务上提升非常显著。作为从业者,我其实不禁会思考两个问题
对于模型Reasoning训练,最高效的方法到底是什么?
这些模型的应用场景在哪里,从业者有什么机会?
模型能力的思考
对于Late fusion类的VLM来说,目前架构上的创新其实不多,或者更直白一点,有能力做架构创新的,不太多。核心原因就是算力。一个标准的Late fusion VLM由三部分组成,ViT、connector和LLM。融合的方式从比较简单的LLaVA系列,直接ML...
【AI】RL的本质
推理阶段提升采样效率,同样可以达成RL的效果?
前言
在之前的博客中,我有提到RL的本质是提高Base Model的sampling efficiency,而无法注入新的Knowledge,印证这个认知的主要有一些开源社区的发现,比如
并非所有base Model都能被激发:在年初一波火热的RLVR训练中,只有部分LLM取得了和Deepseek类似的效果,例如Qwen系列可以,但LLama不太行;
pass@k,随着k增加,base Model的表现优于RL后Model:在Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?这篇文章...
【Blog】2025-10 Daily logs
2025-10 Work logs
10-15
Llama_factory框架里面碰到了NCCL训练不起来的问题,主要是下面这个情况
[rank3]:[E1015 21:01:55.063535226 ProcessGroupNCCL.cpp:1484] [PG ID 0 PG GUID 0(default_pg) Rank 3] ProcessGroupNCCL's watchdog got stuck for 1024 seconds without making progress in monitoring enqueued collectives. This typically indicates a NCCL/CUDA API (e.g., CudaEventD...
【AI】Qwen3-VL结合代码详解
Qwen3-VL结合代码详解
前言
Qwen3-VL终于发布了,这个目前基于Qwen3本身的最大size的LLM训练出来的benchmark是非常不错的,这里跟进一下Qwen3-VL的模型框架,并分析一下架构的变化实际上带来的提升有多少。
都有哪些变化
为什么要更新架构?
先讲下我自己的理解,以下几个问题,只能从架构的层面解决
更细粒度的视觉语义特征:来自视觉的语义特征,除非给LLM输入所有pixels,否则丢掉就是丢失,无论如何训练,都无法提升效果;
encode不同维度的特征:主要是视频层面的,如果不能encode时序特征,则和时序相关的任务模型可能都难以完成。
Visual Reasoning的能力,更多来自于语言模型,可以通过训练搞定,但是以上需要从架...
【阅读】思维框架
思维框架
永远待在自己的能力圈范围内
不要对自己不理解的事情做决策,如果一定要决策,至少简单学习一下,包括看书和查资料,或者向有经验的人请教;但请教并非让对方直接给你决策,而是在自己经过调研后,带着问题出发,问题可以设计的由浅入深,先问自己了解的问题试探对方是否是对的人,是的情况下再请教自己不了解的深入问题。
第一性原理
苏格拉底式思考
澄清你的想法并解释想法的来源。(为什么我会这么想?我到底是怎么想的?)
对假设提出挑战。(我怎么知道这是真的?如果我的想法正好相反呢?)
寻找论据。(我该如何支撑自己的论点?论据来源于哪里?)
思考其他可能的视角。(别人可能有什么想法?我怎么知道自己是对的?)
探究后果和影响。(如果是我错了,该怎么办?如...
【AI】最近RL的一些发展
最近VLM Post-train RL的一些发展
前言
最近在开源社区涌现出了非常多性能很好的开源VLM,无一例外都在RL阶段引入了Reasoning能力,但各家的方法都不一样,RL本身目前属于百花齐放的状态,还没有走到类似于Pretrain和SFT非常标准化的流程,除了数据需要探索之外,如何最大化发挥Reasoning能力,并同时保证Human Alignment,是各家都在探索的话题。这篇文章不追求能够涵盖所有最先进的RL方法,但是致力于把最新的进展讲清楚,归纳好,这样在做技术规划的时候可以比较游刃有余。
数据
Intern-S1
Pretrain: 如何组织large scale的Science domain的数据
...
【AI】Ovis-2.5 细节深挖
深挖Ovis-2.5技术细节
前言
阿里发布的基于Qwen3 LLM backbone的VLM,9B模型创下了40B大小下的SOTA指标。这种涨点一般来自于两个方面,首先LLM的升级,一般都能带来视觉推理类任务的提升;其次,数据和训练方式的升级也能带来提升。虽然技术报告一般不会透露过多细节,但一般来说看下还是能带来一些新的启发,细节是魔鬼,做好细节就能成功。
模型架构
和QwenVL的有所不同,Ovis没有把NaViT的结果直接做pooling投射到LLM的embedding space,而是把Qwen25VL的PatchMerger变成VisualEmbeddingTable,转化为Vision tokens(默认的vocab_size为65536)。
代码区别:
Q...
共计 159 篇文章,20 页。