主页

【AI】GPT RL Issue

GPT:一句狠但真实的话 现在大部分人都已经把LLM等纳入了自己的工作流中,相信很多人在GPT-5.2的回复中都发现了类似的内容:“一句狠但真实的话”,甚至在一些社交媒体上这都成了GPT相关的一个梗,说出来很多人觉得搞笑。如果观察足够仔细,我们可以发现模型可能有自己的“口头禅”,但这到底是什么导致的呢? 先说结论:这背后可能是RL阶段的Reward Model更新导致的,RL阶段发生了Reward hacking,导致RL后的模型学习到了RM中的伪特征(spurious feature),也可以说RM学习到了一部分伪特征,而不是真正语义上的分别。例如,只要回复中带有“狠但真实的话”,RM就会倾向于打高分,而这个特质也在RL过程中被加给了模型。下面我们简述下背景,这个现象产生的原因,...

阅读更多

【Blog】2025-12 Daily logs

12-12 我个人的第一系统和第二系统之间的鸿沟还是太大了,每天抽出来15分钟随便写写还是比较快的,但实际上这部分时间都去满足低级娱乐了。如果白天不能把这部分时间拿出来,那么就晚上抽时间写这个总结。

阅读更多

【AI】RL的本质

从Post-Train角度思考VLM模型变化,应用发展 前言 上个季度开源release了非常多评分很高的模型,比如Qwen3-VL,Ovis-2.5,Mimo-VL等,这些模型本身的能力得到了非常大幅度的提升,在数学和推理类的任务上提升非常显著。作为从业者,我其实不禁会思考两个问题 对于模型Reasoning训练,最高效的方法到底是什么? 这些模型的应用场景在哪里,从业者有什么机会? 模型能力的思考 对于Late fusion类的VLM来说,目前架构上的创新其实不多,或者更直白一点,有能力做架构创新的,不太多。核心原因就是算力。一个标准的Late fusion VLM由三部分组成,ViT、connector和LLM。融合的方式从比较简单的LLaVA系列,直接ML...

阅读更多

【AI】RL的本质

推理阶段提升采样效率,同样可以达成RL的效果? 前言 在之前的博客中,我有提到RL的本质是提高Base Model的sampling efficiency,而无法注入新的Knowledge,印证这个认知的主要有一些开源社区的发现,比如 并非所有base Model都能被激发:在年初一波火热的RLVR训练中,只有部分LLM取得了和Deepseek类似的效果,例如Qwen系列可以,但LLama不太行; pass@k,随着k增加,base Model的表现优于RL后Model:在Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?这篇文章...

阅读更多

【Blog】2025-10 Daily logs

2025-10 Work logs 10-15 Llama_factory框架里面碰到了NCCL训练不起来的问题,主要是下面这个情况 [rank3]:[E1015 21:01:55.063535226 ProcessGroupNCCL.cpp:1484] [PG ID 0 PG GUID 0(default_pg) Rank 3] ProcessGroupNCCL's watchdog got stuck for 1024 seconds without making progress in monitoring enqueued collectives. This typically indicates a NCCL/CUDA API (e.g., CudaEventD...

阅读更多

【AI】Qwen3-VL结合代码详解

Qwen3-VL结合代码详解 前言 Qwen3-VL终于发布了,这个目前基于Qwen3本身的最大size的LLM训练出来的benchmark是非常不错的,这里跟进一下Qwen3-VL的模型框架,并分析一下架构的变化实际上带来的提升有多少。 都有哪些变化 为什么要更新架构? 先讲下我自己的理解,以下几个问题,只能从架构的层面解决 更细粒度的视觉语义特征:来自视觉的语义特征,除非给LLM输入所有pixels,否则丢掉就是丢失,无论如何训练,都无法提升效果; encode不同维度的特征:主要是视频层面的,如果不能encode时序特征,则和时序相关的任务模型可能都难以完成。 Visual Reasoning的能力,更多来自于语言模型,可以通过训练搞定,但是以上需要从架...

阅读更多

【阅读】理财第一课

投资stock就是长期收益率最高的方式 如果说现在有另一个键盘需要测试,我应该用什么方式进行测试至少我现在来看这是一个比较好的选项,就是如果我能够快速进行一些操作,那么这些操作应该是非常不错的,分离摇摆的操作,还是人真好i胡发黑叫哦if啊会哦及哦家佛诶哦啊佛近代哦解放军哦if就哈hi诶发我是然后后换行符i记得哦爱

阅读更多