主页

【AI】RL的本质

从Post-Train角度思考VLM模型变化,应用发展 前言 上个季度开源release了非常多评分很高的模型,比如Qwen3-VL,Ovis-2.5,Mimo-VL等,这些模型本身的能力得到了非常大幅度的提升,在数学和推理类的任务上提升非常显著。作为从业者,我其实不禁会思考两个问题 对于模型Reasoning训练,最高效的方法到底是什么? 这些模型的应用场景在哪里,从业者有什么机会? 模型能力的思考 对于Late fusion类的VLM来说,目前架构上的创新其实不多,或者更直白一点,有能力做架构创新的,不太多。核心原因就是算力。一个标准的Late fusion VLM由三部分组成,ViT、connector和LLM。融合的方式从比较简单的LLaVA系列,直接ML...

阅读更多

【AI】RL的本质

推理阶段提升采样效率,同样可以达成RL的效果? 前言 在之前的博客中,我有提到RL的本质是提高Base Model的sampling efficiency,而无法注入新的Knowledge,印证这个认知的主要有一些开源社区的发现,比如 并非所有base Model都能被激发:在年初一波火热的RLVR训练中,只有部分LLM取得了和Deepseek类似的效果,例如Qwen系列可以,但LLama不太行; pass@k,随着k增加,base Model的表现优于RL后Model:在Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?这篇文章...

阅读更多

【Blog】2025-10 Daily logs

2025-10 Work logs 10-15 Llama_factory框架里面碰到了NCCL训练不起来的问题,主要是下面这个情况 [rank3]:[E1015 21:01:55.063535226 ProcessGroupNCCL.cpp:1484] [PG ID 0 PG GUID 0(default_pg) Rank 3] ProcessGroupNCCL's watchdog got stuck for 1024 seconds without making progress in monitoring enqueued collectives. This typically indicates a NCCL/CUDA API (e.g., CudaEventD...

阅读更多

【AI】Qwen3-VL结合代码详解

Qwen3-VL结合代码详解 前言 Qwen3-VL终于发布了,这个目前基于Qwen3本身的最大size的LLM训练出来的benchmark是非常不错的,这里跟进一下Qwen3-VL的模型框架,并分析一下架构的变化实际上带来的提升有多少。 都有哪些变化 为什么要更新架构? 先讲下我自己的理解,以下几个问题,只能从架构的层面解决 更细粒度的视觉语义特征:来自视觉的语义特征,除非给LLM输入所有pixels,否则丢掉就是丢失,无论如何训练,都无法提升效果; encode不同维度的特征:主要是视频层面的,如果不能encode时序特征,则和时序相关的任务模型可能都难以完成。 Visual Reasoning的能力,更多来自于语言模型,可以通过训练搞定,但是以上需要从架...

阅读更多

【阅读】理财第一课

投资stock就是长期收益率最高的方式 如果说现在有另一个键盘需要测试,我应该用什么方式进行测试至少我现在来看这是一个比较好的选项,就是如果我能够快速进行一些操作,那么这些操作应该是非常不错的,分离摇摆的操作,还是人真好i胡发黑叫哦if啊会哦及哦家佛诶哦啊佛近代哦解放军哦if就哈hi诶发我是然后后换行符i记得哦爱

阅读更多

【阅读】思维框架

思维框架 永远待在自己的能力圈范围内 不要对自己不理解的事情做决策,如果一定要决策,至少简单学习一下,包括看书和查资料,或者向有经验的人请教;但请教并非让对方直接给你决策,而是在自己经过调研后,带着问题出发,问题可以设计的由浅入深,先问自己了解的问题试探对方是否是对的人,是的情况下再请教自己不了解的深入问题。 第一性原理 苏格拉底式思考 澄清你的想法并解释想法的来源。(为什么我会这么想?我到底是怎么想的?) 对假设提出挑战。(我怎么知道这是真的?如果我的想法正好相反呢?) 寻找论据。(我该如何支撑自己的论点?论据来源于哪里?) 思考其他可能的视角。(别人可能有什么想法?我怎么知道自己是对的?) 探究后果和影响。(如果是我错了,该怎么办?如...

阅读更多

【AI】最近RL的一些发展

最近VLM Post-train RL的一些发展 前言 最近在开源社区涌现出了非常多性能很好的开源VLM,无一例外都在RL阶段引入了Reasoning能力,但各家的方法都不一样,RL本身目前属于百花齐放的状态,还没有走到类似于Pretrain和SFT非常标准化的流程,除了数据需要探索之外,如何最大化发挥Reasoning能力,并同时保证Human Alignment,是各家都在探索的话题。这篇文章不追求能够涵盖所有最先进的RL方法,但是致力于把最新的进展讲清楚,归纳好,这样在做技术规划的时候可以比较游刃有余。 数据 Intern-S1 Pretrain: 如何组织large scale的Science domain的数据 ...

阅读更多

【AI】Ovis-2.5 细节深挖

深挖Ovis-2.5技术细节 前言 阿里发布的基于Qwen3 LLM backbone的VLM,9B模型创下了40B大小下的SOTA指标。这种涨点一般来自于两个方面,首先LLM的升级,一般都能带来视觉推理类任务的提升;其次,数据和训练方式的升级也能带来提升。虽然技术报告一般不会透露过多细节,但一般来说看下还是能带来一些新的启发,细节是魔鬼,做好细节就能成功。 模型架构 和QwenVL的有所不同,Ovis没有把NaViT的结果直接做pooling投射到LLM的embedding space,而是把Qwen25VL的PatchMerger变成VisualEmbeddingTable,转化为Vision tokens(默认的vocab_size为65536)。 代码区别: Q...

阅读更多