Home

GPT-4o 分析

MiniGPT-4 详解时间：2023.4.20 作者团队：King Abdullah University of Science and Technology 作者：一作朱德尧，现在字节，一直做的都是视频/图像内容理解相关工作。有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️ 简单评价：这篇文章的方法没什么特别大创新，但是做了非常多实验，总结了非常多的经验，虽然有选取对自己有利的评估结果的嫌疑，但瑕不掩瑜，Ablation做的还是非常好的，对未来发展方向有两个特别大的Learning ==高质量数据非常关键，质量 » 数量==； ==模态对齐模块不一定要复杂，数据才是关键...

Internlm-xcomposer 2结构详解有用指数：⭐️⭐️ 贡献程度：⭐️ 简单评价：引入了新的架构进行模态对齐，该模块的intuitive没讲清楚，没有详实的ablation分析，现有问题分析不够明确，改进不够有针对性，看上去是没想清楚的暴力尝试，比如提升分辨率可能有用？改对齐模块可能有用？最终可能是都没用，就是暴力加数据最有用。原文地址：https://arxiv.org/pdf/2401.16420 Existing Gap 作者认为，现在的VLLM任务还有一个没怎么探索明白的方向，就是怎么做模态对齐。目前业界对齐模态时对待Visual Tokens通常有两种方法，作者认为他们各自都有弊端。平等对待Vi...

混合精度训练 ==方法提出的背景是什么？== 模型参数的增加，带来了准确度上的提升，Benchmark的提升，但是训练要求的显存也显著增大。如何在模型参数变多下，减小训练内存的使用，同时保证一定的训练精度？必要背景知识 AdamW优化器原本的Adam优化器是AdamW的前身，它是RMSprop和Stochastic Gradient Descent (SGD) with momentum1这两个方法的结合版。 Adam优化器如何工作 \[m_t = β_1 * m_{t-1} + (1 - β_1) * g_t \\ v_t = β_2 * v_{t-1} + (1 - β_2) * g_t^2 \\ m_\hat{t} = m_t / (1 - β_...

DeepSpeed 这篇文章主要回答 DeepSpeed要解决什么问题？ DeepSpeed如何解决的问题？如何部署DeepSpeed进行训练？相比于其他训练方式DeepSpeed有什么优势？还有哪些训练框架？ DeepSpeed要解决什么问题为了解决千亿甚至万亿大模型的训练问题，因为这种大模型训练通常需要占用巨大的显卡内存，因此很可能拥有的设备根本训练不起来，即使训练起来了，也可能速度很慢。如何对训练的效率进行衡量？训练的内存占用如何计算 1.5B参数量的大模型，如果精度是FP16(单个参数占用2bytes)，则模型内存占用为2x1.5=3B，如果用Adam Optimizer + 混合精度训练1，模型存储自身参数+梯度，就变成了3B...

🚀【揭秘】Llama-3：开源界的新星，性能如何？ 🎉近年来，AI领域的发展可谓日新月异，而Llama-3的开源无疑给这个领域带来了新的惊喜。SuperBench团队对其进行了全面评测，结果如何呢？让我们一探究竟！ 🔍Llama-3在语义理解、代码能力、对齐、智能体以及安全等方面展现了出色的性能。SuperBench的评测结果，不仅展示了Llama-3的实力，也凸显了SuperBench的权威性和速度。史蒂夫乔布斯曾经说过，“任何对软件有极致追求的公司，都应该制造自己的硬件”。用户体验的提升，从来都不会只依赖一部分的提升，而是这个流程中的所有环节的提升。同样，在大模型时代，对用户体验追求极致的公司或产品，都应该考虑制定自己的评价标准，最大程度对齐到用户的真实体验。 Meta的...

LLaVA多图训练启动脚本 bash scripts/v1_5/finetune.sh > test.log 2>&1 主要改动 conversation预处理支持多图 def get_prompt(self): messages = self.messages if len(messages) > 0 and type(messages[0][1]) is tuple: messages = self.messages.copy() init_role, init_msg = messages[0].cop...

LLaVA Mistral Multiple Images SFT LLaVA是2023年4月提出的针对多模态场景的，可多轮图文问答ChatBot模型。LLaVA通过简单地把1024维输出的CLIP特征用projector和语言模型的embedding拼接起来，就能实现该效果。但是，在原文章中，作者是针对单图问答场景进行的训练，如果想实现一个多图输入场景的任务，应该如何改造结构以及构造训练数据呢？下面我们一起来看一下。代码结构启动命令 bash llava/scripts/v1_5/finetune.sh 训练入口 llava/train/train.py 训练框架训练框架使用了Huggingface下的Trainer，Trainer是专门为了T...

【AI】GPT-4o详解

【AI】MiniGPT-4详解

【AI】Internlm-xcomposer 2

【AI】Mixed Precision Training

【AI】Deepspeed Training

【AI】智谱AI

【AI】LLaVA Multiple Images Training Code

【AI】LLaVA Multiple Images SFT