主页 - Chengru's Blog

Deepseek R1 Sharing TLDR 打破LLM训练从Generalist到Reasoner的常规思路，使用RL先得到Reasoner，再经过SFT成为Generalist； GRPO算法的高效性，让RL大规模训练取得了效果； SFT with CoT数据的训练结果在原文中并未给出，但从最近一些复现工作和R1 distilled Qwen结果来看，SFT的作用可能比RL还大。好的Base模型本身就有Aha Moment，但是是Superfacial的reflection，不具有提升Accuracy的能力，RL可以增强该能力。 R1-Zero是如何成为Reasoner的？一句话：大基座（671B MoE模型） + Rule-based Rewa...

李飞飞最新模型S1给我们哪些思考？ TLDR 论文：s1: Simple test-time scaling 在MATH和AIME24的Benchmark上，通过在1k数据上纯SFT with CoT trace带来了27%的提升。并且观测到了Test-time scaling现象。并且数据不能多了，如果把所有SFT with CoT Trace都用上，效果反而很差。这进一步说明了RL和SFT with CoT trace在模型推理能力的提升上消融实验做的还不够，认知有待继续提升。他们的目标是什么？尝试通过一些手段实现Test time scaling。他们做了什么在Qwen2.5-32B-Instruct模型上，用1K根据规则筛选出的有CoT Trace...

Deepseek R1的开源蒸馏数据有哪些？

有什么试图复现R1的工作？效果如何？ TLDR OpenR1是目前唯一一个试图严谨复现R1的工作，其他基于某个特定场景（例如24点）Toy project复现的，复杂度过低，即使出现了部分reasoning能力，但相比R1-Zero都存在巨大的Gap。R1-Zero在我看来的精髓是，各种不同的任务之间互有Boost，从而使RL出现了泛化。这里并非贬损已有的复现工作，其中一些工作的结果非常有参考意义，后面会详细介绍。但是距离对R1的完整认知，还有非常远的路要走。复现的定义是什么？在某个大小的模型上，观测到Self-verification和Search solution space的涌现能力。同时在任务上的Score随着训练准确率提升。其中一个观测指标是，回复长度随时间增...

Deepseek完整版介绍 TLDR 打破LLM训练从Generalist到Reasoner的常规思路，使用RL先得到Reasoner，再经过SFT成为Generalist。 R1-Zero是如何成为Reasoner的？一句话：大基座（671B MoE模型） + Rule-based Reward + GRPO RL算法。大基座，基座是Deepseek-V3-Base模型， R1-Zero都做了哪些事情？ R1做了哪些事情 R1能Work的原因可能是什么？ R1技术迭代路径是什么？没透露的技术细节是什么？有什么试图复现R1的工作？效果如何？ TLDR OpenR1是目前唯一一个试图严谨复现R1的工作，其他基于某个特定场景（例如24点）T...

DeepSeek R1的细节更正 1. 通用任务的Reward是否有区别？确实是存在的，原文中有提到，复用了在Deepseek-v3的Pipeline中的Reward。首先，R1的训练过程如下 ==SFT冷启动==：使用数千条（具体数量文中没有提及）训练Deepseek-V3-Base，这几千条数据的特征是，few-shot prompting with a long CoT，使用Reflection和Verification生成。主要提升可读性和RL潜力。 ==Reasoning RL训练==：使用RL对有明确反馈信号的任务进行训练，主要是Coding，math，science和logic reasoning。因为这些问题是有明确对错Reward...

Deepseek没写的技术细节-RL可能是烟雾弹不同任务的Reward设计编程的数学的Reward比较好设计，有编译器和最终结果。但R1不仅是数学和编程，R1的开放式问题回答得都非常好（思路清晰，结构完善），作为对比，Openai的O3的==非数学和编程问题==回答的和4o基本上没区别。开放式回答仅靠Format Reward就能达到如此好的效果吗？考虑到R1的冷启动阶段经过了SFT，理论上Format不会有任何问题，所以Format Reward的结果可能全是1，这里肯定还有别的Reward。比如，开放式回答让模型生成尽量全面结果的Accuracy Reward。 RL作用的粒度如果只作用于结果，而不作用于reasoning，是没有理由画出来第8页的推理时间随训练时间逐...

2024 大模型年终复盘个人情况个人情况：我是业务部门的大模型算法，主要负责在业务场景下应用大模型技术，优化之前的业务流或者实现新的业务功能。工作职责：从大模型视角设计全套技术解决方案，不止包含大模型本身。比如模型本身是多模态或者单模态大模型，我的工作需要考虑系统的业务流程，设计数据流、模型组合方案、模型训练、serving策略、结果评估等。从业时间：从其他算法转行大模型时间1年2个月。工作总结效果评估：以终为始如果我能重来一次，我肯定要先和业务方明确下游任务类型，并确定非常详细的评估标准，比如幻觉、准确度、多样性等业务指标。如果是美学标准，可以定义美学分数。然后以最快的速度拉齐一...

主页

【Blog】Deepseek R1 Sharing

【Blog】李飞飞最新模型S1给我们哪些思考？

【Blog】Deepseek R1的开源蒸馏数据梳理

【Blog】有什么试图复现R1的工作？效果如何？

【Blog】Deepseek完整版介绍

【Blog】Deepseek没写的技术细节 - part2

【Blog】Deepseek没写的技术细节

【Blog】2024大模型年终总结