主页 - Chengru's Blog

好的模型都是类似的，差的模型各有各的不幸时间：2024.05.13 作者团队：MIT 作者：Minyoung Huh, Brian Cheung, TongzhouWang, Phillip Isola 有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️⭐️⭐️ 简单评价：用一个简洁的假设解释了很多问题，也预测了一些趋势，其中不乏较为详实的说明和严谨的推论。对于还在疑惑为什么大模型可以work的朋友，是一个很好的知识补充。出发点科学的发展总是基于一些可证伪的假设的证明或推翻，例如经典力学解释不了的现象，在微观粒度会有量子力学的理论进行支撑。某些看似不可能改变的理论，也仅在某些时空维度下是成立的。这篇文章...

VAE - 图像生成的Transformer 时间：作者团队：作者：有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️⭐️⭐️ 简单评价：开山鼻祖之作

VQ-VAE 详解时间：2017.11.2 作者团队：DeepMinds 作者：Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu 有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️⭐️⭐️ 简单评价：开山鼻祖之作背景知识 VAE详解：https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73 VAE Encoder-Decoder架构 Ilya曾说，压缩即智能。如果你能找到一个方法，有效地进行知识的压缩与还原，那么其本质与智能...

Meta T2I方案解析时间：2022.3.24 作者团队：FAIR at Meta（Meta的AI研究团队）作者：Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman 有用指数：⭐️ 贡献程度：⭐️ 简单评价：原文标题：Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors Existing Gap 生成细节的可控性很低：有些控制能精准被语言描述，但有更多是很难被语言描述的，后者的控制非常难。 ...

Chameleon Meta全模态大模型时间：2024.5.17 作者团队：FAIR at Meta（Meta的AI研究团队）作者：有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️ 简单评价：多模态大模型，常规来看有两个思路。第一是之前流行的，把==视觉模块对齐到语言模块==，一般会用到一个预训练的视觉特征提取模型和一个语言模型，中间用一些全连接或者Q-former结果连接，使用一些图像和文本对数据集进行对齐；第二种是全模态统一大模型，神经网络的输入和输出都使用相同的tokenizer，用一个Transformer的结构来处理这些全模态token，并输出多模态token来解码。第二种显然是大家正在发力...

GPT-4o 分析

MiniGPT-4 详解时间：2023.4.20 作者团队：King Abdullah University of Science and Technology 作者：一作朱德尧，现在字节，一直做的都是视频/图像内容理解相关工作。有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️ 简单评价：这篇文章的方法没什么特别大创新，但是做了非常多实验，总结了非常多的经验，虽然有选取对自己有利的评估结果的嫌疑，但瑕不掩瑜，Ablation做的还是非常好的，对未来发展方向有两个特别大的Learning ==高质量数据非常关键，质量 » 数量==； ==模态对齐模块不一定要复杂，数据才是关键...

Internlm-xcomposer 2结构详解有用指数：⭐️⭐️ 贡献程度：⭐️ 简单评价：引入了新的架构进行模态对齐，该模块的intuitive没讲清楚，没有详实的ablation分析，现有问题分析不够明确，改进不够有针对性，看上去是没想清楚的暴力尝试，比如提升分辨率可能有用？改对齐模块可能有用？最终可能是都没用，就是暴力加数据最有用。原文地址：https://arxiv.org/pdf/2401.16420 Existing Gap 作者认为，现在的VLLM任务还有一个没怎么探索明白的方向，就是怎么做模态对齐。目前业界对齐模态时对待Visual Tokens通常有两种方法，作者认为他们各自都有弊端。平等对待Vi...

主页

【AI】The Platonic Representation Hypothesis

【AI】Variational Auto Encoder

【AI】VQ-VAE

【AI】Make A Scene - Meta的T2I核心解析

【AI】Chameleon - Meta全模态大模型

【AI】GPT-4o详解

【AI】MiniGPT-4详解

【AI】Internlm-xcomposer 2