【AI】GPT RL Issue
GPT:一句狠但真实的话
现在大部分人都已经把LLM等纳入了自己的工作流中,相信很多人在GPT-5.2的回复中都发现了类似的内容:“一句狠但真实的话”,甚至在一些社交媒体上这都成了GPT相关的一个梗,说出来很多人觉得搞笑。如果观察足够仔细,我们可以发现模型可能有自己的“口头禅”,但这到底是什么导致的呢?
先说结论:这背后可能是RL阶段的Reward Model更新导致的,RL阶段发生了Reward hacking,导致RL后的模型学习到了RM中的伪特征(spurious feature),也可以说RM学习到了一部分伪特征,而不是真正语义上的分别。例如,只要回复中带有“狠但真实的话”,RM就会倾向于打高分,而这个特质也在RL过程中被加给了模型。下面我们简述下背景,这个现象产生的原因,...
【Blog】2025-12 Daily logs
12-12
我个人的第一系统和第二系统之间的鸿沟还是太大了,每天抽出来15分钟随便写写还是比较快的,但实际上这部分时间都去满足低级娱乐了。如果白天不能把这部分时间拿出来,那么就晚上抽时间写这个总结。
【AI】RL的本质
从Post-Train角度思考VLM模型变化,应用发展
前言
上个季度开源release了非常多评分很高的模型,比如Qwen3-VL,Ovis-2.5,Mimo-VL等,这些模型本身的能力得到了非常大幅度的提升,在数学和推理类的任务上提升非常显著。作为从业者,我其实不禁会思考两个问题
对于模型Reasoning训练,最高效的方法到底是什么?
这些模型的应用场景在哪里,从业者有什么机会?
模型能力的思考
对于Late fusion类的VLM来说,目前架构上的创新其实不多,或者更直白一点,有能力做架构创新的,不太多。核心原因就是算力。一个标准的Late fusion VLM由三部分组成,ViT、connector和LLM。融合的方式从比较简单的LLaVA系列,直接ML...
【AI】RL的本质
推理阶段提升采样效率,同样可以达成RL的效果?
前言
在之前的博客中,我有提到RL的本质是提高Base Model的sampling efficiency,而无法注入新的Knowledge,印证这个认知的主要有一些开源社区的发现,比如
并非所有base Model都能被激发:在年初一波火热的RLVR训练中,只有部分LLM取得了和Deepseek类似的效果,例如Qwen系列可以,但LLama不太行;
pass@k,随着k增加,base Model的表现优于RL后Model:在Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?这篇文章...
【Blog】2025-10 Daily logs
2025-10 Work logs
10-15
Llama_factory框架里面碰到了NCCL训练不起来的问题,主要是下面这个情况
[rank3]:[E1015 21:01:55.063535226 ProcessGroupNCCL.cpp:1484] [PG ID 0 PG GUID 0(default_pg) Rank 3] ProcessGroupNCCL's watchdog got stuck for 1024 seconds without making progress in monitoring enqueued collectives. This typically indicates a NCCL/CUDA API (e.g., CudaEventD...
【AI】Qwen3-VL结合代码详解
Qwen3-VL结合代码详解
前言
Qwen3-VL终于发布了,这个目前基于Qwen3本身的最大size的LLM训练出来的benchmark是非常不错的,这里跟进一下Qwen3-VL的模型框架,并分析一下架构的变化实际上带来的提升有多少。
都有哪些变化
为什么要更新架构?
先讲下我自己的理解,以下几个问题,只能从架构的层面解决
更细粒度的视觉语义特征:来自视觉的语义特征,除非给LLM输入所有pixels,否则丢掉就是丢失,无论如何训练,都无法提升效果;
encode不同维度的特征:主要是视频层面的,如果不能encode时序特征,则和时序相关的任务模型可能都难以完成。
Visual Reasoning的能力,更多来自于语言模型,可以通过训练搞定,但是以上需要从架...
共计 154 篇文章,20 页。