主页

【Blog】Deepseek没写的技术细节 - part2

DeepSeek R1的细节更正 1. 通用任务的Reward是否有区别? 确实是存在的,原文中有提到,复用了在Deepseek-v3的Pipeline中的Reward。 首先,R1的训练过程如下 ==SFT冷启动==:使用数千条(具体数量文中没有提及)训练Deepseek-V3-Base,这几千条数据的特征是,few-shot prompting with a long CoT,使用Reflection和Verification生成。主要提升可读性和RL潜力。 ==Reasoning RL训练==:使用RL对有明确反馈信号的任务进行训练,主要是Coding,math,science和logic reasoning。因为这些问题是有明确对错Reward...

阅读更多

【Blog】Deepseek没写的技术细节

Deepseek没写的技术细节-RL可能是烟雾弹 不同任务的Reward设计 编程的数学的Reward比较好设计,有编译器和最终结果。但R1不仅是数学和编程,R1的开放式问题回答得都非常好(思路清晰,结构完善),作为对比,Openai的O3的==非数学和编程问题==回答的和4o基本上没区别。开放式回答仅靠Format Reward就能达到如此好的效果吗?考虑到R1的冷启动阶段经过了SFT,理论上Format不会有任何问题,所以Format Reward的结果可能全是1,这里肯定还有别的Reward。比如,开放式回答让模型生成尽量全面结果的Accuracy Reward。 RL作用的粒度 如果只作用于结果,而不作用于reasoning,是没有理由画出来第8页的推理时间随训练时间逐...

阅读更多

【Blog】2024大模型年终总结

2024 大模型年终复盘 个人情况 个人情况:我是业务部门的大模型算法,主要负责在业务场景下应用大模型技术,优化之前的业务流或者实现新的业务功能。 工作职责: 从大模型视角设计全套技术解决方案,不止包含大模型本身。比如模型本身是多模态或者单模态大模型,我的工作需要考虑系统的业务流程,设计数据流、模型组合方案、模型训练、serving策略、结果评估等。 从业时间:从其他算法转行大模型时间1年2个月。 工作总结 效果评估:以终为始 如果我能重来一次,我肯定要先和业务方明确下游任务类型,并确定非常详细的评估标准,比如幻觉、准确度、多样性等业务指标。如果是美学标准,可以定义美学分数。然后以最快的速度拉齐一...

阅读更多

Binary Loss

Got it! If your dataset consists of independent samples where each sample is either a positive (correct next token) or negative (incorrect next token) example, you can still leverage these negative samples effectively in training your model. Here’s how you can handle this scenario: 1. Binary Classification Approach: Since each sample is either...

阅读更多

【AI】The Advancement of Vision Encoders in VLMs

Vision Encoder in VLM Survey TLDR 目标:本文主要关注VLM中Encoder的发展和最新进展,主要围绕Vision Transformer这个架构介绍; 主要脉路 CNN和ViT的基础架构 CLIP和SigLip两种让ViT架构实现zero-shot inference的训练思路 NaViT和其他扩展ViT支持动态分辨率或者节约训练成本的训练方法 ViT和VLM的结合(未完待续) 核心目标 本文主要关注VLM中的Vision Encoder,其核心目标是如何学习到图片的语义表征,并能低成本和Transforme...

阅读更多

【AI】VLLM Survey

VLM Survey 总览 多模态大模型(Vision Large Models)主要是能感知多模态输入(目前主要是图片和视频)并产出语言输出(也有直接的多模态输出架构)。目前常见的VLM架构有两种, Type A: Visual Encoder -> Cross Modality Connector -> LLM Type B: VQ-VAE -> Transformer 第一种能够利用到单模态训练时候的语言能力,具有计算资源需求少,且能达到较好效果的程度;缺点是基本只能语言模态输出,无法输出多模态内容;第二种能够直接把图片模态和文本模态进行tokenization,在decode的过程中可以直接产出多模态输出,但是VQ-VAE的训练难度比较大,...

阅读更多

【AI】MiniCPM-V:端侧图像大模型

MMEvol: 构造牛逼的instruction数据集 标题:MMEVOL: EMPOWERING MULTIMODAL LARGE LANGUAGE MODELS WITH EVOL-INSTRUCT 时间:2024.09.10 作者团队:阿里巴巴 作者:Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin ...

阅读更多

【AI】大模型训练方法汇总

MiniCPM-V:端侧图像大模型 标题:MiniCPM-V: A GPT-4V Level MLLMonYourPhone 时间:2024.8.03 作者团队:面壁智能 作者:Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️ 简单评价:主攻低参数大模型领域,提出了一个基于图片分片和压缩的处理方法,属于deep-fusion的一类模型。但训练过程较为复杂,光pretrain就分了三个训练阶段。

阅读更多