主页

【AI】OmniAlign - 上海Ai Lab的VLM工作

OmniAlign - 模型自己调,数据我给你 TLDR 标题:OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference 时间:2025.02.06 作者团队:上海AI Lab 有用指数:⭐️⭐️⭐️⭐️⭐️ 简单评价: 优点:开源界的老实人,搞了SFT和RL的数据,还放出来一个Human Alignment的Benchmark,数据和模型都开源给你,剩下的自己训练去吧。 Existing Gap 现在的Benchmark,都是在基础能力上测试,但是在人类对齐上(广义的inst...

阅读更多

【Blog】Deepseek R1 Sharing

trainer.py determine epochs 如果能拿到dataset length,则立刻改变Train epochs # trainer.py #2205 if has_length(train_dataloader): len_dataloader = len(train_dataloader) num_update_steps_per_epoch = len_dataloader // args.gradient_accumulation_steps num_update_steps_per_epoch = max(num_update_steps_per_epoch, 1) ...

阅读更多

【Blog】Deepseek R1 Sharing

Deepseek R1 Sharing TLDR 打破LLM训练从Generalist到Reasoner的常规思路,使用RL先得到Reasoner,再经过SFT成为Generalist; GRPO算法的高效性,让RL大规模训练取得了效果; SFT with CoT数据的训练结果在原文中并未给出,但从最近一些复现工作和R1 distilled Qwen结果来看,SFT的作用可能比RL还大。 好的Base模型本身就有Aha Moment,但是是Superfacial的reflection,不具有提升Accuracy的能力,RL可以增强该能力。 R1-Zero是如何成为Reasoner的? 一句话:大基座(671B MoE模型) + Rule-based Rewa...

阅读更多

【Blog】李飞飞最新模型S1给我们哪些思考?

李飞飞最新模型S1给我们哪些思考? TLDR 论文:s1: Simple test-time scaling 在MATH和AIME24的Benchmark上,通过在1k数据上纯SFT with CoT trace带来了27%的提升。并且观测到了Test-time scaling现象。并且数据不能多了,如果把所有SFT with CoT Trace都用上,效果反而很差。 这进一步说明了RL和SFT with CoT trace在模型推理能力的提升上消融实验做的还不够,认知有待继续提升。 他们的目标是什么? 尝试通过一些手段实现Test time scaling。 他们做了什么 在Qwen2.5-32B-Instruct模型上,用1K根据规则筛选出的有CoT Trace...

阅读更多

【Blog】有什么试图复现R1的工作?效果如何?

有什么试图复现R1的工作?效果如何? TLDR OpenR1是目前唯一一个试图严谨复现R1的工作,其他基于某个特定场景(例如24点)Toy project复现的,复杂度过低,即使出现了部分reasoning能力,但相比R1-Zero都存在巨大的Gap。R1-Zero在我看来的精髓是,各种不同的任务之间互有Boost,从而使RL出现了泛化。 这里并非贬损已有的复现工作,其中一些工作的结果非常有参考意义,后面会详细介绍。但是距离对R1的完整认知,还有非常远的路要走。 复现的定义是什么? 在某个大小的模型上,观测到Self-verification和Search solution space的涌现能力。同时在任务上的Score随着训练准确率提升。其中一个观测指标是,回复长度随时间增...

阅读更多

【Blog】Deepseek完整版介绍

Deepseek完整版介绍 TLDR 打破LLM训练从Generalist到Reasoner的常规思路,使用RL先得到Reasoner,再经过SFT成为Generalist。 R1-Zero是如何成为Reasoner的? 一句话:大基座(671B MoE模型) + Rule-based Reward + GRPO RL算法。 大基座,基座是Deepseek-V3-Base模型, R1-Zero都做了哪些事情? R1做了哪些事情 R1能Work的原因可能是什么? R1技术迭代路径是什么? 没透露的技术细节是什么? 有什么试图复现R1的工作?效果如何? TLDR OpenR1是目前唯一一个试图严谨复现R1的工作,其他基于某个特定场景(例如24点)T...

阅读更多

【Blog】Deepseek没写的技术细节 - part2

DeepSeek R1的细节更正 1. 通用任务的Reward是否有区别? 确实是存在的,原文中有提到,复用了在Deepseek-v3的Pipeline中的Reward。 首先,R1的训练过程如下 ==SFT冷启动==:使用数千条(具体数量文中没有提及)训练Deepseek-V3-Base,这几千条数据的特征是,few-shot prompting with a long CoT,使用Reflection和Verification生成。主要提升可读性和RL潜力。 ==Reasoning RL训练==:使用RL对有明确反馈信号的任务进行训练,主要是Coding,math,science和logic reasoning。因为这些问题是有明确对错Reward...

阅读更多