Home

BLIP-2- Salesforce - 202302 Existing Gap 之前的训练方法会导致LM的Catastrophic Forgetting（如果训练时候更新LM的Params）；作者假设，在Pretrain阶段下，多模态大模型最重要的问题是解决模态对齐（Modality Alignment）。（为什么？因为文本生成能力依赖语言模型，所以让语言模型理解Image Token是很重要的。这里的模态对齐与CLIP的区别是什么？CLIP里面只有Encoder，没有Text Generation，可以把BLIP看做CLIP的带Text Generation的改良版。为什么可以做出这个假设？比较符合直觉，因为图片问答和文本问答最大的区别就...

Flamingo - Deepmind - 202204 Existing Gap CLIP模型无法做文字生成，只能做分类，从已有数据中做选择；能够用image作为language generation的condition来构造这个任务从而完成image caption，image QA这样的任务呢？ Contribution 提出了一个可以做few-shots来帮助LM做image caption和image QA任务的方法；具有生成能力。提出了一个量化VLM能力的benchmark。 Method ...

CLIP - OpenAI - 2021 Initiative 在Text领域，pre-train模型可以在不改变任何模型结构，通过prompting的方式泛化到下游任务，Image领域是否能有这样的模型？当前进展 NLP领域，只用webtext做训练，不用labelled数据集就能实现上面的目标，Image领域呢？原来有类似的工作，但是他们学习到的Image representation是在一些有label的数据集上，而这些label是非常少的；所以一个新的想法是，能否找到更大量的数据集上预训练一个能学习到representation的？这样的数据集，网络上有很多图，这些图是有文...

Decoder-only Transformer Decoder-only的Transformer网络结构式2017年GPT系列的第一篇文章带火的。Decoder-only最大的特点是，我称之为打直球，即直接针对Input预测下一个Token的概率分布，从概率分布中sample一个Token，就直接给结果了，然后再进行下一次生成，也即Auto regressive。例如Input是，A quick brown fox，那么模型会给出下一个Token是j，在下次给出Token是u，循环N次知道生成结束Token [EOS]，本次生成结束，你会得到A quick brown fox jumps over the lazy dog.[EOS]这样的输出。下图的左边就是GPT系列的基础架...

大模型21：多模态大模型分类图 https://whimsical.com/mlm-8adiZwwDifpxwNxz4qFPKZ Timeline 分类模型时间团队 Summary language<>image pretrain CLIP 202103 OpenAI VLP pretrain Flamingo 202204 DeepMind vision-lang pre...

基于Transformer的大语言模型共有三种架构，分别是Encoder-only Model，Encoder-Decoder Model和Decoder-only Model。三者的本质区别：大模型的输出是文本还是Embedding。后者需要改模型结构才能适配其他下游任务。 Encoder-only： Input是Encoder Transformer，Output是Transformer结构的最后一层Hidden states，需要再加一层MLP才能适应到不同的下游任务。主要应用是训练高效的Embedding和各种文本分类问题。代表作：BERT。 Encoder-Decoder：Input是语言，经过Transformer Encoder变成Embedding，再由...

Encoder-Decoder Transformer 关于Transformer的三种架构的区别，可移步什么是Encoder-only Transformer这篇文章。本文主要讲Encoder-Decoder Transformer结构，其原始论文是最经典的Attention is all you need. 模型介绍 Encoding：文本输入会把文本Encode成一种数字形式，也就是Tokenization，比如asynchronous会被encode成数字28，GPT使用的是BPE encoding方法，这个不赘述，感兴趣的话我可以后面再出一篇文章。 b. Encode...

还在纠结这些名词之间的区别吗？给你讲清楚 TLDR：主要差别在于训练数据的构造。 Pretrain 无监督的，就纯用语料库来训练，比如webtext，Wikipedia等，预测下一个token的概率分布，并用cross-entropy loss作为loss Function来更新模型的参数； Continuous Pretrain：在一个已经训练好的预训练模型上，用一些数据来进一步加强模型的某些方面的能力，这也是无监督的，数据也没有经过特殊构造，就是原始文本输入进去。 Fine-tune：这是比较大的名词，基本上所有在预训练模型上更新参数的方法都可以叫做Fine-tune。与此相关的名词基本上只有数据构造上的区别。 ...

【AI】BLIP-2 Salesforce

【AI】Flamingo

【AI】CLIP

【AI】Decoder-only Transformer

【AI】多模态总结

【AI】Encoder-only Transformer

【AI】Encoder-decoder Transformer

【AI】SFT，FT，和Multi-task Prompt Tuning还没分清吗