【AI】Early Termination Collapse in Agentic RL
Early Termination Collapse in Agentic RL - A Simple Rollout Continuation Strategy Improves Search-R1 to 70% EM
Background
With the rapid rise of agent frameworks such as OpenClaw in early 2026, Agentic RL training has become an increasingly important research direction. However, compared to standard RLHF or single-turn reasoning tasks, agentic...
【AI】GRPO Robust Reward Normalization
原创:GRPO Robust Reward Nomalization
问题引入
在常规的GRPO训练过程中,我们使用到的往往是Verifiable的反馈,其优点是一致性高,没有偏差,信号稳定。但是在实际应用场景中,一般会出现以下两个挑战
结果没有Golden Answer:模型没有明确的Verifiable Reward Signal,或Signal本身存在一定偏差、波动,导致信号只在统计意义上有效,而非每条都是Ground Truth;
只能采用Reward Model:第一个挑战会带来的问题就是我们在实际使用中,往往需要自行训练一个Reward Model,作为Verifiable Reward Signal的替代;实际上,从25年开始,大家都在尝试融合Reward...
【AI】Rubrics in CoT
大家用AI一定要做好Fact Check
问题引入
最近听了姚顺宇的访谈播客,现在已经有非常多的总结,我就不赘述了,但关于其中他提到的,做模型的人要多思考,多check,方法本身是否能在不同参数量,不同模型架构,更好的数据上依然生效,是一个需要反复验证和研究的过程,这一点我深感其然。
有些工作看着很基础,也不一定是当下研究的热点,但实际上在应用过程中却异常重要。就拿我最近使用某AI软件的过程来说吧,我本来以为在如今的模型参数量和规模的情况下,模型应该会很少出现幻觉的问题了,但实际上这个问题比我想象的要严重很多。以我最近的工作为例,我最近在看到了不同的GRPO-like算法都存在不同程度的长度偏置,于是我让某AI帮我总结了一下关于这方面的研究。
于是,我得到了下面的回复,在我想要...
【AI】DPO实战Sharing
VLM RL算法的思考(三)
之前分享过很多和DPO训练相关的文章,DPO在数据组织方式上存在巨大优势(主要两点,可离线收集,只需要Rollout两条数据即可),在训练效率上相比PPO和GRPO也有相对优势(比PPO少load一个Critic Model和Reward Model,比GRPO Rollout次数少),外加天然比较适配做业务的AB实验组,因此是一个快速开展业务RL的起步算法,或者至少是一个值得对比的算法baseline。
但DPO本身的问题实在是比较多,因此这篇文章在之前文章的基础上,又深化了一下基于理论而不是单纯在实践上的思考,分享出来可供大家实操。
本文目标
明确DPO算法本身存在怎样的设计缺陷;
回顾DPO的发展历程,和DPO算法相关发生过怎样的优...
【AI】小红书workflow
对Agentic AI快速发展的思考
最近个人AI工作流疯狂爆发,我自己都陷入了比较严重的FOMO(Fear of Missing Out)情绪,这种情绪我分析主要是下面几个方面造成的:
对未来工作不确定性的焦虑:经常刷到漫天的专家预测,未来不仅简单的任务,中等甚至高级难度的工作,也有非常大被取代的可能性,每个人都在纠结,自己的工作到底是不是那个被取代的一部分,以及怎么能不被取代。
对AI本身发展速度的焦虑:试图拥抱AI,但是发现知识更新速度日新月异,今天才学到的知识,明天可能又过时了;
不知道AI的正确使用方式:ChatGPT刚兴起的时候,有人专门教大家做Prompt Engineering,PE做得好和不好,任务完成度差异非常之大;发展到现在,这个趋势变成了怎么使...
【AI】Qwen3.5的野心很大
解读下Qwen3.5
序言
不知道是不是去年Deepseek开启了中国AI届的传统,大公司几乎都赶在春节前Release了一波模型,这几天比较火的就是SeedDance 2.0和Qwen3.5的模型,现在的大模型赛道确实比较卷,要知道Qwen3.5是除夕当天发布的。虽然官方的Tech Report还没有发布,但是我们可以先通过Release出来的模型权重和inference代码,看下这个官方宣称的原生多模态智能体是个什么。
模型架构
首先Qwen3.5官方Release出来的是397B-A17B的MOE模型,MOE模型是一个Inference性价比很高的架构,这比较符合现在大模型的发展趋势:在OpenClaw相关的个人助理式应用发展出来以后,inference性价比在应用侧是一...
【AI】Qwen端侧Agent
聊聊On-policy Distillation(1)
背景
前段时间,On-policy Distillation这个方法特别火,主要是Thinking Machine Lab这个团队有一篇爆火的文章出圈了,让大家关注到了这个方法,各种新的方法也都雨后春笋般冒出来了。
其中千问AI硬件团队刚中的这篇ICLR的文章引起了我的关注:STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models
AI硬件这个领域现在逐渐步入大众视野,如果所有需求都调用云端大模型,势必会有token吃不消的情况,小模型在端侧的需求是非常强劲的,因此,On-policy Distill...
【AI】GPT RL Issue
GPT:一句狠但真实的话
现在大部分人都已经把LLM等纳入了自己的工作流中,相信很多人在GPT-5.2的回复中都发现了类似的内容:“一句狠但真实的话”,甚至在一些社交媒体上这都成了GPT相关的一个梗,说出来很多人觉得搞笑。如果观察足够仔细,我们可以发现模型可能有自己的“口头禅”,但这到底是什么导致的呢?
先说结论:这背后可能是RL阶段的Reward Model更新导致的,RL阶段发生了Reward hacking,导致RL后的模型学习到了RM中的伪特征(spurious feature),也可以说RM学习到了一部分伪特征,而不是真正语义上的分别。例如,只要回复中带有“狠但真实的话”,RM就会倾向于打高分,而这个特质也在RL过程中被加给了模型。下面我们简述下背景,这个现象产生的原因,...
160 post articles, 20 pages.