主页 - Chengru's Blog

原创：GRPO Robust Reward Nomalization 问题引入在常规的GRPO训练过程中，我们使用到的往往是Verifiable的反馈，其优点是一致性高，没有偏差，信号稳定。但是在实际应用场景中，一般会出现以下两个挑战结果没有Golden Answer：模型没有明确的Verifiable Reward Signal，或Signal本身存在一定偏差、波动，导致信号只在统计意义上有效，而非每条都是Ground Truth；只能采用Reward Model：第一个挑战会带来的问题就是我们在实际使用中，往往需要自行训练一个Reward Model，作为Verifiable Reward Signal的替代；实际上，从25年开始，大家都在尝试融合Reward...

大家用AI一定要做好Fact Check 问题引入最近听了姚顺宇的访谈播客，现在已经有非常多的总结，我就不赘述了，但关于其中他提到的，做模型的人要多思考，多check，方法本身是否能在不同参数量，不同模型架构，更好的数据上依然生效，是一个需要反复验证和研究的过程，这一点我深感其然。有些工作看着很基础，也不一定是当下研究的热点，但实际上在应用过程中却异常重要。就拿我最近使用某AI软件的过程来说吧，我本来以为在如今的模型参数量和规模的情况下，模型应该会很少出现幻觉的问题了，但实际上这个问题比我想象的要严重很多。以我最近的工作为例，我最近在看到了不同的GRPO-like算法都存在不同程度的长度偏置，于是我让某AI帮我总结了一下关于这方面的研究。于是，我得到了下面的回复，在我想要...

VLM RL算法的思考（三）之前分享过很多和DPO训练相关的文章，DPO在数据组织方式上存在巨大优势（主要两点，可离线收集，只需要Rollout两条数据即可），在训练效率上相比PPO和GRPO也有相对优势（比PPO少load一个Critic Model和Reward Model，比GRPO Rollout次数少），外加天然比较适配做业务的AB实验组，因此是一个快速开展业务RL的起步算法，或者至少是一个值得对比的算法baseline。但DPO本身的问题实在是比较多，因此这篇文章在之前文章的基础上，又深化了一下基于理论而不是单纯在实践上的思考，分享出来可供大家实操。本文目标明确DPO算法本身存在怎样的设计缺陷；回顾DPO的发展历程，和DPO算法相关发生过怎样的优...

对Agentic AI快速发展的思考最近个人AI工作流疯狂爆发，我自己都陷入了比较严重的FOMO（Fear of Missing Out）情绪，这种情绪我分析主要是下面几个方面造成的：对未来工作不确定性的焦虑：经常刷到漫天的专家预测，未来不仅简单的任务，中等甚至高级难度的工作，也有非常大被取代的可能性，每个人都在纠结，自己的工作到底是不是那个被取代的一部分，以及怎么能不被取代。对AI本身发展速度的焦虑：试图拥抱AI，但是发现知识更新速度日新月异，今天才学到的知识，明天可能又过时了；不知道AI的正确使用方式：ChatGPT刚兴起的时候，有人专门教大家做Prompt Engineering，PE做得好和不好，任务完成度差异非常之大；发展到现在，这个趋势变成了怎么使...

解读下Qwen3.5 序言不知道是不是去年Deepseek开启了中国AI届的传统，大公司几乎都赶在春节前Release了一波模型，这几天比较火的就是SeedDance 2.0和Qwen3.5的模型，现在的大模型赛道确实比较卷，要知道Qwen3.5是除夕当天发布的。虽然官方的Tech Report还没有发布，但是我们可以先通过Release出来的模型权重和inference代码，看下这个官方宣称的原生多模态智能体是个什么。模型架构首先Qwen3.5官方Release出来的是397B-A17B的MOE模型，MOE模型是一个Inference性价比很高的架构，这比较符合现在大模型的发展趋势：在OpenClaw相关的个人助理式应用发展出来以后，inference性价比在应用侧是一...

聊聊On-policy Distillation（1）背景前段时间，On-policy Distillation这个方法特别火，主要是Thinking Machine Lab这个团队有一篇爆火的文章出圈了，让大家关注到了这个方法，各种新的方法也都雨后春笋般冒出来了。其中千问AI硬件团队刚中的这篇ICLR的文章引起了我的关注：STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models AI硬件这个领域现在逐渐步入大众视野，如果所有需求都调用云端大模型，势必会有token吃不消的情况，小模型在端侧的需求是非常强劲的，因此，On-policy Distill...

GPT：一句狠但真实的话现在大部分人都已经把LLM等纳入了自己的工作流中，相信很多人在GPT-5.2的回复中都发现了类似的内容：“一句狠但真实的话”，甚至在一些社交媒体上这都成了GPT相关的一个梗，说出来很多人觉得搞笑。如果观察足够仔细，我们可以发现模型可能有自己的“口头禅”，但这到底是什么导致的呢？先说结论：这背后可能是RL阶段的Reward Model更新导致的，RL阶段发生了Reward hacking，导致RL后的模型学习到了RM中的伪特征（spurious feature），也可以说RM学习到了一部分伪特征，而不是真正语义上的分别。例如，只要回复中带有“狠但真实的话”，RM就会倾向于打高分，而这个特质也在RL过程中被加给了模型。下面我们简述下背景，这个现象产生的原因，...

主页

【AI】GRPO Robust Reward Normalization

【AI】Rubrics in CoT

【AI】DPO实战Sharing

【AI】小红书workflow

【AI】Qwen3.5的野心很大

【AI】Qwen端侧Agent

【AI】GPT RL Issue