【AI】The Platonic Representation Hypothesis
好的模型都是类似的,差的模型各有各的不幸
时间:2024.05.13
作者团队:MIT
作者:Minyoung Huh, Brian Cheung, TongzhouWang, Phillip Isola
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:用一个简洁的假设解释了很多问题,也预测了一些趋势,其中不乏较为详实的说明和严谨的推论。对于还在疑惑为什么大模型可以work的朋友,是一个很好的知识补充。
出发点
科学的发展总是基于一些可证伪的假设的证明或推翻,例如经典力学解释不了的现象,在微观粒度会有量子力学的理论进行支撑。某些看似不可能改变的理论,也仅在某些时空维度下是成立的。这篇文章...
【AI】Variational Auto Encoder
VAE - 图像生成的Transformer
时间:
作者团队:
作者:
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:开山鼻祖之作
【AI】VQ-VAE
VQ-VAE 详解
时间:2017.11.2
作者团队:DeepMinds
作者:Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:开山鼻祖之作
背景知识
VAE详解:https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73
VAE
Encoder-Decoder架构
Ilya曾说,压缩即智能。如果你能找到一个方法,有效地进行知识的压缩与还原,那么其本质与智能...
【AI】Make A Scene - Meta的T2I核心解析
Meta T2I方案解析
时间:2022.3.24
作者团队:FAIR at Meta(Meta的AI研究团队)
作者:Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman
有用指数:⭐️
贡献程度:⭐️
简单评价:
原文标题:Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
Existing Gap
生成细节的可控性很低:有些控制能精准被语言描述,但有更多是很难被语言描述的,后者的控制非常难。
...
【AI】Chameleon - Meta全模态大模型
Chameleon Meta全模态大模型
时间:2024.5.17
作者团队:FAIR at Meta(Meta的AI研究团队)
作者:
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️
简单评价:
多模态大模型,常规来看有两个思路。第一是之前流行的,把==视觉模块对齐到语言模块==,一般会用到一个预训练的视觉特征提取模型和一个语言模型,中间用一些全连接或者Q-former结果连接,使用一些图像和文本对数据集进行对齐;第二种是全模态统一大模型,神经网络的输入和输出都使用相同的tokenizer,用一个Transformer的结构来处理这些全模态token,并输出多模态token来解码。
第二种显然是大家正在发力...
【AI】MiniGPT-4详解
MiniGPT-4 详解
时间:2023.4.20
作者团队:King Abdullah University of Science and Technology
作者:一作朱德尧,现在字节,一直做的都是视频/图像内容理解相关工作。
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️
简单评价:这篇文章的方法没什么特别大创新,但是做了非常多实验,总结了非常多的经验,虽然有选取对自己有利的评估结果的嫌疑,但瑕不掩瑜,Ablation做的还是非常好的,对未来发展方向有两个特别大的Learning
==高质量数据非常关键,质量 » 数量==;
==模态对齐模块不一定要复杂,数据才是关键...
【AI】Internlm-xcomposer 2
Internlm-xcomposer 2结构详解
有用指数:⭐️⭐️
贡献程度:⭐️
简单评价:引入了新的架构进行模态对齐,该模块的intuitive没讲清楚,没有详实的ablation分析,现有问题分析不够明确,改进不够有针对性,看上去是没想清楚的暴力尝试,比如提升分辨率可能有用?改对齐模块可能有用?最终可能是都没用,就是暴力加数据最有用。
原文地址:https://arxiv.org/pdf/2401.16420
Existing Gap
作者认为,现在的VLLM任务还有一个没怎么探索明白的方向,就是怎么做模态对齐。目前业界对齐模态时对待Visual Tokens通常有两种方法,作者认为他们各自都有弊端。
平等对待Vi...
共计 142 篇文章,18 页。