主页 - Chengru's Blog

混合精度训练 ==方法提出的背景是什么？== 模型参数的增加，带来了准确度上的提升，Benchmark的提升，但是训练要求的显存也显著增大。如何在模型参数变多下，减小训练内存的使用，同时保证一定的训练精度？必要背景知识 AdamW优化器原本的Adam优化器是AdamW的前身，它是RMSprop和Stochastic Gradient Descent (SGD) with momentum1这两个方法的结合版。 Adam优化器如何工作 \[m_t = β_1 * m_{t-1} + (1 - β_1) * g_t \\ v_t = β_2 * v_{t-1} + (1 - β_2) * g_t^2 \\ m_\hat{t} = m_t / (1 - β_...

DeepSpeed 这篇文章主要回答 DeepSpeed要解决什么问题？ DeepSpeed如何解决的问题？如何部署DeepSpeed进行训练？相比于其他训练方式DeepSpeed有什么优势？还有哪些训练框架？ DeepSpeed要解决什么问题为了解决千亿甚至万亿大模型的训练问题，因为这种大模型训练通常需要占用巨大的显卡内存，因此很可能拥有的设备根本训练不起来，即使训练起来了，也可能速度很慢。如何对训练的效率进行衡量？训练的内存占用如何计算 1.5B参数量的大模型，如果精度是FP16(单个参数占用2bytes)，则模型内存占用为2x1.5=3B，如果用Adam Optimizer + 混合精度训练1，模型存储自身参数+梯度，就变成了3B...

🚀【揭秘】Llama-3：开源界的新星，性能如何？ 🎉近年来，AI领域的发展可谓日新月异，而Llama-3的开源无疑给这个领域带来了新的惊喜。SuperBench团队对其进行了全面评测，结果如何呢？让我们一探究竟！ 🔍Llama-3在语义理解、代码能力、对齐、智能体以及安全等方面展现了出色的性能。SuperBench的评测结果，不仅展示了Llama-3的实力，也凸显了SuperBench的权威性和速度。史蒂夫乔布斯曾经说过，“任何对软件有极致追求的公司，都应该制造自己的硬件”。用户体验的提升，从来都不会只依赖一部分的提升，而是这个流程中的所有环节的提升。同样，在大模型时代，对用户体验追求极致的公司或产品，都应该考虑制定自己的评价标准，最大程度对齐到用户的真实体验。 Meta的...

LLaVA多图训练启动脚本 bash scripts/v1_5/finetune.sh > test.log 2>&1 主要改动 conversation预处理支持多图 def get_prompt(self): messages = self.messages if len(messages) > 0 and type(messages[0][1]) is tuple: messages = self.messages.copy() init_role, init_msg = messages[0].cop...

LLaVA Mistral Multiple Images SFT LLaVA是2023年4月提出的针对多模态场景的，可多轮图文问答ChatBot模型。LLaVA通过简单地把1024维输出的CLIP特征用projector和语言模型的embedding拼接起来，就能实现该效果。但是，在原文章中，作者是针对单图问答场景进行的训练，如果想实现一个多图输入场景的任务，应该如何改造结构以及构造训练数据呢？下面我们一起来看一下。代码结构启动命令 bash llava/scripts/v1_5/finetune.sh 训练入口 llava/train/train.py 训练框架训练框架使用了Huggingface下的Trainer，Trainer是专门为了T...

LLaVA Microsoft Research LLaVA - 202304 - MS Research Existing Gap: 之前的大部分工作都在做模态对齐，做图片的representation learning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化。 Contribution：这篇工作已经在BLIP-2之后了，所以Image的理解能力不是LLaVA希望提升的重点，LLaVA是想提升多模态模型的Instruction-Following ability，也就是特定的多轮QA场景。构造了三种Instruction的数据，包括多轮对话，图片描述和复杂推理。其中...

BLIP-2- Salesforce - 202302 Existing Gap 之前的训练方法会导致LM的Catastrophic Forgetting（如果训练时候更新LM的Params）；作者假设，在Pretrain阶段下，多模态大模型最重要的问题是解决模态对齐（Modality Alignment）。（为什么？因为文本生成能力依赖语言模型，所以让语言模型理解Image Token是很重要的。这里的模态对齐与CLIP的区别是什么？CLIP里面只有Encoder，没有Text Generation，可以把BLIP看做CLIP的带Text Generation的改良版。为什么可以做出这个假设？比较符合直觉，因为图片问答和文本问答最大的区别就...

Flamingo - Deepmind - 202204 Existing Gap CLIP模型无法做文字生成，只能做分类，从已有数据中做选择；能够用image作为language generation的condition来构造这个任务从而完成image caption，image QA这样的任务呢？ Contribution 提出了一个可以做few-shots来帮助LM做image caption和image QA任务的方法；具有生成能力。提出了一个量化VLM能力的benchmark。 Method ...

主页

【AI】Mixed Precision Training

【AI】Deepspeed Training

【AI】智谱AI

【AI】LLaVA Multiple Images Training Code

【AI】LLaVA Multiple Images SFT

【AI】LLaVA MS Research

【AI】BLIP-2 Salesforce

【AI】Flamingo