主页

【AI】看完Seed-1.5-VL技术报告,立刻可尝试的几件事

看完Seed-1.5-VL,立刻要尝试的一些操作 结论 单独Pretrain ViT模块 ViT蒸馏:使用大的CLIP模型蒸馏一个小CLIP模型,直接用用两个模型的output features的cos距离作为loss,能极大提升模型的文档理解和OCR能力; ViT Pretrain with 2D RoPE:使用SigLip loss和SuperClass loss 对ViT进行Pretrain; 全模态ViT Pretrain:提到了MiCo的训练框架,即把视频,音频,depth信息都用ViT统一Encode,和文本Encoder进行contrastive learning ...

阅读更多

【AI】RL给不了新知识,只是激发了Base Model的能力罢了

RL给不了新知识,只是激发了Base Model的能力罢了 今天的思考来自于这篇论文:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 这篇文章的主题就是我的标题,RL不过是让Base Model朝向一个更能给到正确答案的方向结题罢了,但实际上Base Model不会的题可能永远不会,会的偶尔能做对,RL能增加这个做对的概率。 Key Insights 尽管RL后的模型能够在pass@k(k=1)的情况下超越Base模型,但是Base Model在k的大小不做限制情况下,可能比RL后的模型pass率还高; RL优化的,只是Bas...

阅读更多

【AI】多模态大模型在医疗中的应用

多模态大模型在医疗领域的进展 主要应用方向 前几天刚进行了体检,其中有个项目是AI眼底检测,说白了就是根据眼底的成像图,使用大模型进行解读,并三甲医生人工检查结果,并给到一个报告。我觉得这个方向很有意思,任何人或多或少都会有医疗的需求,市场潜力本身就很大。我私以为,医疗是一个经验科学,见过的疑难杂症越多,越有可能做出正确的诊断。而任何医生都不可能有大模型见过的数据多,所以这肯定是一个非常有潜力的方向。同时最近也是看到几篇关于医疗领域的多模态大模型的论文,就借机会讲一下。 技术路径 Agent-based 问诊机器人: 比如MedAgent-Pro这篇文章,就结合了Agent和Reasoning Model到问诊的流程中,从而在降低了问诊幻觉的同时,给到真实情况下医生可能的建议...

阅读更多

【AI】OmniAlign - 上海Ai Lab的VLM工作

字节DAPO解决了很多我对R1的困惑 困惑来自哪里 在最开始,我比较质疑deepseek的tech report上Response length的test-time scaling曲线,我认为仅在Format reward和acc reward的作用下,很难学习到这样的曲线,除非数据就是这样组织的(base Model能力足够强),训练只是从数据中学习到了这样的pattern而已; 但紧接着第二个问题,假设训练数据中就存在这样的pattern,则RL算法就无关轻重,只要是有效的RL算法,能学习到训练数据的pattern即可;重要的还是组织reasoning的数据; 但GRPO是一个能学到这种pattern的算法吗? 首先考虑reward func...

阅读更多

【AI】OmniAlign - 上海Ai Lab的VLM工作

OmniAlign - 模型自己调,数据我给你 TLDR 标题:OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference 时间:2025.02.06 作者团队:上海AI Lab 有用指数:⭐️⭐️⭐️⭐️⭐️ 简单评价: 优点:开源界的老实人,搞了SFT和RL的数据,还放出来一个Human Alignment的Benchmark,数据和模型都开源给你,剩下的自己训练去吧。 Existing Gap 现在的Benchmark,都是在基础能力上测试,但是在人类对齐上(广义的inst...

阅读更多

【Blog】Deepseek R1 Sharing

trainer.py determine epochs 如果能拿到dataset length,则立刻改变Train epochs # trainer.py #2205 if has_length(train_dataloader): len_dataloader = len(train_dataloader) num_update_steps_per_epoch = len_dataloader // args.gradient_accumulation_steps num_update_steps_per_epoch = max(num_update_steps_per_epoch, 1) ...

阅读更多

【Blog】Deepseek R1 Sharing

Deepseek R1 Sharing TLDR 打破LLM训练从Generalist到Reasoner的常规思路,使用RL先得到Reasoner,再经过SFT成为Generalist; GRPO算法的高效性,让RL大规模训练取得了效果; SFT with CoT数据的训练结果在原文中并未给出,但从最近一些复现工作和R1 distilled Qwen结果来看,SFT的作用可能比RL还大。 好的Base模型本身就有Aha Moment,但是是Superfacial的reflection,不具有提升Accuracy的能力,RL可以增强该能力。 R1-Zero是如何成为Reasoner的? 一句话:大基座(671B MoE模型) + Rule-based Rewa...

阅读更多

【Blog】李飞飞最新模型S1给我们哪些思考?

李飞飞最新模型S1给我们哪些思考? TLDR 论文:s1: Simple test-time scaling 在MATH和AIME24的Benchmark上,通过在1k数据上纯SFT with CoT trace带来了27%的提升。并且观测到了Test-time scaling现象。并且数据不能多了,如果把所有SFT with CoT Trace都用上,效果反而很差。 这进一步说明了RL和SFT with CoT trace在模型推理能力的提升上消融实验做的还不够,认知有待继续提升。 他们的目标是什么? 尝试通过一些手段实现Test time scaling。 他们做了什么 在Qwen2.5-32B-Instruct模型上,用1K根据规则筛选出的有CoT Trace...

阅读更多