主页

【AI】Vision Transformer

ViT - 拼接图片 标题:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(Vision Transformer) 时间:2020.10.22 作者团队:Google 作者:Alexey Dosovitskiy 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价:Transformer在视觉领域的应用,把image patch拼接成Sequence,实现类似NLP中的Next token prediction的效果,也是目前很多多模态大模型的Vision Encoder。 出发点 Tra...

阅读更多

【AI】Why attention, why transformer

Why Attention, why Transformer 时间:2024.05.13 作者团队:MIT 作者:Minyoung Huh, Brian Cheung, TongzhouWang, Phillip Isola 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价:用一个简洁的假设解释了很多问题,也预测了一些趋势,其中不乏较为详实的说明和严谨的推论。对于还在疑惑为什么大模型可以work的朋友,是一个很好的知识补充。 上一篇,The Platonic Hypothesis,主要讲了好的大模型表征都在收敛这个结论。虽然整体都很精彩,但整体上还是会提出几个疑问 收敛的原因是否也和...

阅读更多

【AI】The Platonic Representation Hypothesis

好的模型都是类似的,差的模型各有各的不幸 时间:2024.05.13 作者团队:MIT 作者:Minyoung Huh, Brian Cheung, TongzhouWang, Phillip Isola 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价:用一个简洁的假设解释了很多问题,也预测了一些趋势,其中不乏较为详实的说明和严谨的推论。对于还在疑惑为什么大模型可以work的朋友,是一个很好的知识补充。 出发点 科学的发展总是基于一些可证伪的假设的证明或推翻,例如经典力学解释不了的现象,在微观粒度会有量子力学的理论进行支撑。某些看似不可能改变的理论,也仅在某些时空维度下是成立的。这篇文章...

阅读更多

【AI】VQ-VAE

VQ-VAE 详解 时间:2017.11.2 作者团队:DeepMinds 作者:Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价:开山鼻祖之作 背景知识 VAE详解:https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73 VAE Encoder-Decoder架构 Ilya曾说,压缩即智能。如果你能找到一个方法,有效地进行知识的压缩与还原,那么其本质与智能...

阅读更多

【AI】Make A Scene - Meta的T2I核心解析

Meta T2I方案解析 时间:2022.3.24 作者团队:FAIR at Meta(Meta的AI研究团队) 作者:Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman 有用指数:⭐️ 贡献程度:⭐️ 简单评价: 原文标题:Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors Existing Gap 生成细节的可控性很低:有些控制能精准被语言描述,但有更多是很难被语言描述的,后者的控制非常难。 ...

阅读更多

【AI】Chameleon - Meta全模态大模型

Chameleon Meta全模态大模型 时间:2024.5.17 作者团队:FAIR at Meta(Meta的AI研究团队) 作者: 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️ 简单评价: 多模态大模型,常规来看有两个思路。第一是之前流行的,把==视觉模块对齐到语言模块==,一般会用到一个预训练的视觉特征提取模型和一个语言模型,中间用一些全连接或者Q-former结果连接,使用一些图像和文本对数据集进行对齐;第二种是全模态统一大模型,神经网络的输入和输出都使用相同的tokenizer,用一个Transformer的结构来处理这些全模态token,并输出多模态token来解码。 第二种显然是大家正在发力...

阅读更多