主页

【AI】VQ-VAE

VQ-VAE 详解 时间:2017.11.2 作者团队:DeepMinds 作者:Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价:开山鼻祖之作 背景知识 VAE详解:https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73 VAE Encoder-Decoder架构 Ilya曾说,压缩即智能。如果你能找到一个方法,有效地进行知识的压缩与还原,那么其本质与智能...

阅读更多

【AI】Make A Scene - Meta的T2I核心解析

Meta T2I方案解析 时间:2022.3.24 作者团队:FAIR at Meta(Meta的AI研究团队) 作者:Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman 有用指数:⭐️ 贡献程度:⭐️ 简单评价: 原文标题:Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors Existing Gap 生成细节的可控性很低:有些控制能精准被语言描述,但有更多是很难被语言描述的,后者的控制非常难。 ...

阅读更多

【AI】Chameleon - Meta全模态大模型

Chameleon Meta全模态大模型 时间:2024.5.17 作者团队:FAIR at Meta(Meta的AI研究团队) 作者: 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️ 简单评价: 多模态大模型,常规来看有两个思路。第一是之前流行的,把==视觉模块对齐到语言模块==,一般会用到一个预训练的视觉特征提取模型和一个语言模型,中间用一些全连接或者Q-former结果连接,使用一些图像和文本对数据集进行对齐;第二种是全模态统一大模型,神经网络的输入和输出都使用相同的tokenizer,用一个Transformer的结构来处理这些全模态token,并输出多模态token来解码。 第二种显然是大家正在发力...

阅读更多

【AI】MiniGPT-4详解

MiniGPT-4 详解 时间:2023.4.20 作者团队:King Abdullah University of Science and Technology 作者:一作朱德尧,现在字节,一直做的都是视频/图像内容理解相关工作。 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️ 简单评价:这篇文章的方法没什么特别大创新,但是做了非常多实验,总结了非常多的经验,虽然有选取对自己有利的评估结果的嫌疑,但瑕不掩瑜,Ablation做的还是非常好的,对未来发展方向有两个特别大的Learning ==高质量数据非常关键,质量 » 数量==; ==模态对齐模块不一定要复杂,数据才是关键...

阅读更多

【AI】Internlm-xcomposer 2

Internlm-xcomposer 2结构详解 有用指数:⭐️⭐️ 贡献程度:⭐️ 简单评价:引入了新的架构进行模态对齐,该模块的intuitive没讲清楚,没有详实的ablation分析,现有问题分析不够明确,改进不够有针对性,看上去是没想清楚的暴力尝试,比如提升分辨率可能有用?改对齐模块可能有用?最终可能是都没用,就是暴力加数据最有用。 原文地址:https://arxiv.org/pdf/2401.16420 Existing Gap 作者认为,现在的VLLM任务还有一个没怎么探索明白的方向,就是怎么做模态对齐。目前业界对齐模态时对待Visual Tokens通常有两种方法,作者认为他们各自都有弊端。 平等对待Vi...

阅读更多

【AI】Mixed Precision Training

混合精度训练 ==方法提出的背景是什么?== 模型参数的增加,带来了准确度上的提升,Benchmark的提升,但是训练要求的显存也显著增大。如何在模型参数变多下,减小训练内存的使用,同时保证一定的训练精度? 必要背景知识 AdamW优化器 原本的Adam优化器是AdamW的前身,它是RMSprop和Stochastic Gradient Descent (SGD) with momentum1这两个方法的结合版。 Adam优化器如何工作 \[m_t = β_1 * m_{t-1} + (1 - β_1) * g_t \\ v_t = β_2 * v_{t-1} + (1 - β_2) * g_t^2 \\ m_\hat{t} = m_t / (1 - β_...

阅读更多

【AI】Deepspeed Training

DeepSpeed 这篇文章主要回答 DeepSpeed要解决什么问题? DeepSpeed如何解决的问题? 如何部署DeepSpeed进行训练? 相比于其他训练方式DeepSpeed有什么优势? 还有哪些训练框架? DeepSpeed要解决什么问题 为了解决千亿甚至万亿大模型的训练问题,因为这种大模型训练通常需要占用巨大的显卡内存,因此很可能拥有的设备根本训练不起来,即使训练起来了,也可能速度很慢。 如何对训练的效率进行衡量? 训练的内存占用如何计算 1.5B参数量的大模型,如果精度是FP16(单个参数占用2bytes),则模型内存占用为2x1.5=3B,如果用Adam Optimizer + 混合精度训练1,模型存储自身参数+梯度,就变成了3B...

阅读更多