【AI】DPO实战Sharing
VLM RL算法的思考(三)
之前分享过很多和DPO训练相关的文章,DPO在数据组织方式上存在巨大优势(主要两点,可离线收集,只需要Rollout两条数据即可),在训练效率上相比PPO和GRPO也有相对优势(比PPO少load一个Critic Model和Reward Model,比GRPO Rollout次数少),外加天然比较适配做业务的AB实验组,因此是一个快速开展业务RL的起步算法,或者至少是一个值得对比的算法baseline。
但DPO本身的问题实在是比较多,因此这篇文章在之前文章的基础上,又深化了一下基于理论而不是单纯在实践上的思考,分享出来可供大家实操。
本文目标
明确DPO算法本身存在怎样的设计缺陷;
回顾DPO的发展历程,和DPO算法相关发生过怎样的优...
【AI】小红书workflow
对Agentic AI快速发展的思考
最近个人AI工作流疯狂爆发,我自己都陷入了比较严重的FOMO(Fear of Missing Out)情绪,这种情绪我分析主要是下面几个方面造成的:
对未来工作不确定性的焦虑:经常刷到漫天的专家预测,未来不仅简单的任务,中等甚至高级难度的工作,也有非常大被取代的可能性,每个人都在纠结,自己的工作到底是不是那个被取代的一部分,以及怎么能不被取代。
对AI本身发展速度的焦虑:试图拥抱AI,但是发现知识更新速度日新月异,今天才学到的知识,明天可能又过时了;
不知道AI的正确使用方式:ChatGPT刚兴起的时候,有人专门教大家做Prompt Engineering,PE做得好和不好,任务完成度差异非常之大;发展到现在,这个趋势变成了怎么使...
【AI】Qwen3.5的野心很大
解读下Qwen3.5
序言
不知道是不是去年Deepseek开启了中国AI届的传统,大公司几乎都赶在春节前Release了一波模型,这几天比较火的就是SeedDance 2.0和Qwen3.5的模型,现在的大模型赛道确实比较卷,要知道Qwen3.5是除夕当天发布的。虽然官方的Tech Report还没有发布,但是我们可以先通过Release出来的模型权重和inference代码,看下这个官方宣称的原生多模态智能体是个什么。
模型架构
首先Qwen3.5官方Release出来的是397B-A17B的MOE模型,MOE模型是一个Inference性价比很高的架构,这比较符合现在大模型的发展趋势:在OpenClaw相关的个人助理式应用发展出来以后,inference性价比在应用侧是一...
【AI】Qwen端侧Agent
聊聊On-policy Distillation(1)
背景
前段时间,On-policy Distillation这个方法特别火,主要是Thinking Machine Lab这个团队有一篇爆火的文章出圈了,让大家关注到了这个方法,各种新的方法也都雨后春笋般冒出来了。
其中千问AI硬件团队刚中的这篇ICLR的文章引起了我的关注:STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models
AI硬件这个领域现在逐渐步入大众视野,如果所有需求都调用云端大模型,势必会有token吃不消的情况,小模型在端侧的需求是非常强劲的,因此,On-policy Distill...
【AI】GPT RL Issue
GPT:一句狠但真实的话
现在大部分人都已经把LLM等纳入了自己的工作流中,相信很多人在GPT-5.2的回复中都发现了类似的内容:“一句狠但真实的话”,甚至在一些社交媒体上这都成了GPT相关的一个梗,说出来很多人觉得搞笑。如果观察足够仔细,我们可以发现模型可能有自己的“口头禅”,但这到底是什么导致的呢?
先说结论:这背后可能是RL阶段的Reward Model更新导致的,RL阶段发生了Reward hacking,导致RL后的模型学习到了RM中的伪特征(spurious feature),也可以说RM学习到了一部分伪特征,而不是真正语义上的分别。例如,只要回复中带有“狠但真实的话”,RM就会倾向于打高分,而这个特质也在RL过程中被加给了模型。下面我们简述下背景,这个现象产生的原因,...
【Blog】2025-12 Daily logs
12-12
我个人的第一系统和第二系统之间的鸿沟还是太大了,每天抽出来15分钟随便写写还是比较快的,但实际上这部分时间都去满足低级娱乐了。如果白天不能把这部分时间拿出来,那么就晚上抽时间写这个总结。
共计 159 篇文章,20 页。