主页

【AI】GRPO Robust Reward Normalization

原创:GRPO Robust Reward Nomalization 问题引入 在常规的GRPO训练过程中,我们使用到的往往是Verifiable的反馈,其优点是一致性高,没有偏差,信号稳定。但是在实际应用场景中,一般会出现以下两个挑战 结果没有Golden Answer:模型没有明确的Verifiable Reward Signal,或Signal本身存在一定偏差、波动,导致信号只在统计意义上有效,而非每条都是Ground Truth; 只能采用Reward Model:第一个挑战会带来的问题就是我们在实际使用中,往往需要自行训练一个Reward Model,作为Verifiable Reward Signal的替代;实际上,从25年开始,大家都在尝试融合Reward...

阅读更多

【AI】Rubrics in CoT

大家用AI一定要做好Fact Check 问题引入 最近听了姚顺宇的访谈播客,现在已经有非常多的总结,我就不赘述了,但关于其中他提到的,做模型的人要多思考,多check,方法本身是否能在不同参数量,不同模型架构,更好的数据上依然生效,是一个需要反复验证和研究的过程,这一点我深感其然。 有些工作看着很基础,也不一定是当下研究的热点,但实际上在应用过程中却异常重要。就拿我最近使用某AI软件的过程来说吧,我本来以为在如今的模型参数量和规模的情况下,模型应该会很少出现幻觉的问题了,但实际上这个问题比我想象的要严重很多。以我最近的工作为例,我最近在看到了不同的GRPO-like算法都存在不同程度的长度偏置,于是我让某AI帮我总结了一下关于这方面的研究。 于是,我得到了下面的回复,在我想要...

阅读更多

【AI】DPO实战Sharing

VLM RL算法的思考(三) 之前分享过很多和DPO训练相关的文章,DPO在数据组织方式上存在巨大优势(主要两点,可离线收集,只需要Rollout两条数据即可),在训练效率上相比PPO和GRPO也有相对优势(比PPO少load一个Critic Model和Reward Model,比GRPO Rollout次数少),外加天然比较适配做业务的AB实验组,因此是一个快速开展业务RL的起步算法,或者至少是一个值得对比的算法baseline。 但DPO本身的问题实在是比较多,因此这篇文章在之前文章的基础上,又深化了一下基于理论而不是单纯在实践上的思考,分享出来可供大家实操。 本文目标 明确DPO算法本身存在怎样的设计缺陷; 回顾DPO的发展历程,和DPO算法相关发生过怎样的优...

阅读更多

【AI】小红书workflow

对Agentic AI快速发展的思考 最近个人AI工作流疯狂爆发,我自己都陷入了比较严重的FOMO(Fear of Missing Out)情绪,这种情绪我分析主要是下面几个方面造成的: 对未来工作不确定性的焦虑:经常刷到漫天的专家预测,未来不仅简单的任务,中等甚至高级难度的工作,也有非常大被取代的可能性,每个人都在纠结,自己的工作到底是不是那个被取代的一部分,以及怎么能不被取代。 对AI本身发展速度的焦虑:试图拥抱AI,但是发现知识更新速度日新月异,今天才学到的知识,明天可能又过时了; 不知道AI的正确使用方式:ChatGPT刚兴起的时候,有人专门教大家做Prompt Engineering,PE做得好和不好,任务完成度差异非常之大;发展到现在,这个趋势变成了怎么使...

阅读更多

【AI】Qwen3.5的野心很大

解读下Qwen3.5 序言 不知道是不是去年Deepseek开启了中国AI届的传统,大公司几乎都赶在春节前Release了一波模型,这几天比较火的就是SeedDance 2.0和Qwen3.5的模型,现在的大模型赛道确实比较卷,要知道Qwen3.5是除夕当天发布的。虽然官方的Tech Report还没有发布,但是我们可以先通过Release出来的模型权重和inference代码,看下这个官方宣称的原生多模态智能体是个什么。 模型架构 首先Qwen3.5官方Release出来的是397B-A17B的MOE模型,MOE模型是一个Inference性价比很高的架构,这比较符合现在大模型的发展趋势:在OpenClaw相关的个人助理式应用发展出来以后,inference性价比在应用侧是一...

阅读更多

【AI】Qwen端侧Agent

聊聊On-policy Distillation(1) 背景 前段时间,On-policy Distillation这个方法特别火,主要是Thinking Machine Lab这个团队有一篇爆火的文章出圈了,让大家关注到了这个方法,各种新的方法也都雨后春笋般冒出来了。 其中千问AI硬件团队刚中的这篇ICLR的文章引起了我的关注:STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models AI硬件这个领域现在逐渐步入大众视野,如果所有需求都调用云端大模型,势必会有token吃不消的情况,小模型在端侧的需求是非常强劲的,因此,On-policy Distill...

阅读更多

【AI】GPT RL Issue

GPT:一句狠但真实的话 现在大部分人都已经把LLM等纳入了自己的工作流中,相信很多人在GPT-5.2的回复中都发现了类似的内容:“一句狠但真实的话”,甚至在一些社交媒体上这都成了GPT相关的一个梗,说出来很多人觉得搞笑。如果观察足够仔细,我们可以发现模型可能有自己的“口头禅”,但这到底是什么导致的呢? 先说结论:这背后可能是RL阶段的Reward Model更新导致的,RL阶段发生了Reward hacking,导致RL后的模型学习到了RM中的伪特征(spurious feature),也可以说RM学习到了一部分伪特征,而不是真正语义上的分别。例如,只要回复中带有“狠但真实的话”,RM就会倾向于打高分,而这个特质也在RL过程中被加给了模型。下面我们简述下背景,这个现象产生的原因,...

阅读更多