主页

【AI】MiniGPT-4详解

MiniGPT-4 详解 时间:2023.4.20 作者团队:King Abdullah University of Science and Technology 作者:一作朱德尧,现在字节,一直做的都是视频/图像内容理解相关工作。 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️ 简单评价:这篇文章的方法没什么特别大创新,但是做了非常多实验,总结了非常多的经验,虽然有选取对自己有利的评估结果的嫌疑,但瑕不掩瑜,Ablation做的还是非常好的,对未来发展方向有两个特别大的Learning ==高质量数据非常关键,质量 » 数量==; ==模态对齐模块不一定要复杂,数据才是关键...

阅读更多

【AI】Internlm-xcomposer 2

Internlm-xcomposer 2结构详解 有用指数:⭐️⭐️ 贡献程度:⭐️ 简单评价:引入了新的架构进行模态对齐,该模块的intuitive没讲清楚,没有详实的ablation分析,现有问题分析不够明确,改进不够有针对性,看上去是没想清楚的暴力尝试,比如提升分辨率可能有用?改对齐模块可能有用?最终可能是都没用,就是暴力加数据最有用。 原文地址:https://arxiv.org/pdf/2401.16420 Existing Gap 作者认为,现在的VLLM任务还有一个没怎么探索明白的方向,就是怎么做模态对齐。目前业界对齐模态时对待Visual Tokens通常有两种方法,作者认为他们各自都有弊端。 平等对待Vi...

阅读更多

【AI】Mixed Precision Training

混合精度训练 ==方法提出的背景是什么?== 模型参数的增加,带来了准确度上的提升,Benchmark的提升,但是训练要求的显存也显著增大。如何在模型参数变多下,减小训练内存的使用,同时保证一定的训练精度? 必要背景知识 AdamW优化器 原本的Adam优化器是AdamW的前身,它是RMSprop和Stochastic Gradient Descent (SGD) with momentum1这两个方法的结合版。 Adam优化器如何工作 \[m_t = β_1 * m_{t-1} + (1 - β_1) * g_t \\ v_t = β_2 * v_{t-1} + (1 - β_2) * g_t^2 \\ m_\hat{t} = m_t / (1 - β_...

阅读更多

【AI】Deepspeed Training

DeepSpeed 这篇文章主要回答 DeepSpeed要解决什么问题? DeepSpeed如何解决的问题? 如何部署DeepSpeed进行训练? 相比于其他训练方式DeepSpeed有什么优势? 还有哪些训练框架? DeepSpeed要解决什么问题 为了解决千亿甚至万亿大模型的训练问题,因为这种大模型训练通常需要占用巨大的显卡内存,因此很可能拥有的设备根本训练不起来,即使训练起来了,也可能速度很慢。 如何对训练的效率进行衡量? 训练的内存占用如何计算 1.5B参数量的大模型,如果精度是FP16(单个参数占用2bytes),则模型内存占用为2x1.5=3B,如果用Adam Optimizer + 混合精度训练1,模型存储自身参数+梯度,就变成了3B...

阅读更多

【AI】智谱AI

🚀【揭秘】Llama-3:开源界的新星,性能如何? 🎉近年来,AI领域的发展可谓日新月异,而Llama-3的开源无疑给这个领域带来了新的惊喜。SuperBench团队对其进行了全面评测,结果如何呢?让我们一探究竟! 🔍Llama-3在语义理解、代码能力、对齐、智能体以及安全等方面展现了出色的性能。SuperBench的评测结果,不仅展示了Llama-3的实力,也凸显了SuperBench的权威性和速度。 史蒂夫乔布斯曾经说过,“任何对软件有极致追求的公司,都应该制造自己的硬件”。用户体验的提升,从来都不会只依赖一部分的提升,而是这个流程中的所有环节的提升。同样,在大模型时代,对用户体验追求极致的公司或产品,都应该考虑制定自己的评价标准,最大程度对齐到用户的真实体验。 Meta的...

阅读更多

【AI】LLaVA Multiple Images Training Code

LLaVA多图训练 启动脚本 bash scripts/v1_5/finetune.sh > test.log 2>&1 主要改动 conversation预处理支持多图 def get_prompt(self): messages = self.messages if len(messages) > 0 and type(messages[0][1]) is tuple: messages = self.messages.copy() init_role, init_msg = messages[0].cop...

阅读更多

【AI】LLaVA Multiple Images SFT

LLaVA Mistral Multiple Images SFT LLaVA是2023年4月提出的针对多模态场景的,可多轮图文问答ChatBot模型。LLaVA通过简单地把1024维输出的CLIP特征用projector和语言模型的embedding拼接起来,就能实现该效果。 但是,在原文章中,作者是针对单图问答场景进行的训练,如果想实现一个多图输入场景的任务,应该如何改造结构以及构造训练数据呢?下面我们一起来看一下。 代码结构 启动命令 bash llava/scripts/v1_5/finetune.sh 训练入口 llava/train/train.py 训练框架 训练框架使用了Huggingface下的Trainer,Trainer是专门为了T...

阅读更多

【AI】LLaVA MS Research

LLaVA Microsoft Research LLaVA - 202304 - MS Research Existing Gap: 之前的大部分工作都在做模态对齐,做图片的representation learning,而没有针对ChatBot(多轮对话,指令理解)这种场景优化。 Contribution:这篇工作已经在BLIP-2之后了,所以Image的理解能力不是LLaVA希望提升的重点,LLaVA是想提升多模态模型的Instruction-Following ability,也就是特定的多轮QA场景。 构造了三种Instruction的数据,包括多轮对话,图片描述和复杂推理。其中...

阅读更多