主页

【AI】BLIP-2 Salesforce

BLIP-2- Salesforce - 202302 Existing Gap 之前的训练方法会导致LM的Catastrophic Forgetting(如果训练时候更新LM的Params); 作者假设,在Pretrain阶段下,多模态大模型最重要的问题是解决模态对齐(Modality Alignment)。(为什么?因为文本生成能力依赖语言模型,所以让语言模型理解Image Token是很重要的。这里的模态对齐与CLIP的区别是什么?CLIP里面只有Encoder,没有Text Generation,可以把BLIP看做CLIP的带Text Generation的改良版。为什么可以做出这个假设?比较符合直觉,因为图片问答和文本问答最大的区别就...

阅读更多

【AI】Flamingo

Flamingo - Deepmind - 202204 Existing Gap CLIP模型无法做文字生成,只能做分类,从已有数据中做选择; 能够用image作为language generation的condition来构造这个任务从而完成image caption,image QA这样的任务呢? Contribution 提出了一个可以做few-shots来帮助LM做image caption和image QA任务的方法;具有生成能力。 提出了一个量化VLM能力的benchmark。 Method ...

阅读更多

【AI】CLIP

CLIP - OpenAI - 2021 Initiative 在Text领域,pre-train模型可以在不改变任何模型结构,通过prompting的方式泛化到下游任务,Image领域是否能有这样的模型? 当前进展 NLP领域,只用webtext做训练,不用labelled数据集就能实现上面的目标,Image领域呢? 原来有类似的工作,但是他们学习到的Image representation是在一些有label的数据集上,而这些label是非常少的; 所以一个新的想法是,能否找到更大量的数据集上预训练一个能学习到representation的? 这样的数据集,网络上有很多图,这些图是有文...

阅读更多

【AI】Decoder-only Transformer

Decoder-only Transformer Decoder-only的Transformer网络结构式2017年GPT系列的第一篇文章带火的。Decoder-only最大的特点是,我称之为打直球,即直接针对Input预测下一个Token的概率分布,从概率分布中sample一个Token,就直接给结果了,然后再进行下一次生成,也即Auto regressive。例如Input是,A quick brown fox,那么模型会给出下一个Token是j,在下次给出Token是u,循环N次知道生成结束Token [EOS],本次生成结束,你会得到A quick brown fox jumps over the lazy dog.[EOS]这样的输出。 下图的左边就是GPT系列的基础架...

阅读更多

【AI】多模态总结

大模型21:多模态大模型 分类图 https://whimsical.com/mlm-8adiZwwDifpxwNxz4qFPKZ Timeline 分类 模型 时间 团队 Summary language<>image pretrain CLIP 202103 OpenAI   VLP pretrain Flamingo 202204 DeepMind   vision-lang pre...

阅读更多

【AI】Encoder-only Transformer

基于Transformer的大语言模型共有三种架构,分别是Encoder-only Model,Encoder-Decoder Model和Decoder-only Model。 三者的本质区别:大模型的输出是文本还是Embedding。后者需要改模型结构才能适配其他下游任务。 Encoder-only: Input是Encoder Transformer,Output是Transformer结构的最后一层Hidden states,需要再加一层MLP才能适应到不同的下游任务。主要应用是训练高效的Embedding和各种文本分类问题。代表作:BERT。 Encoder-Decoder:Input是语言,经过Transformer Encoder变成Embedding,再由...

阅读更多

【AI】Encoder-decoder Transformer

Encoder-Decoder Transformer 关于Transformer的三种架构的区别,可移步什么是Encoder-only Transformer这篇文章。 本文主要讲Encoder-Decoder Transformer结构,其原始论文是最经典的Attention is all you need. 模型介绍 Encoding:文本输入会把文本Encode成一种数字形式,也就是Tokenization,比如asynchronous会被encode成数字28,GPT使用的是BPE encoding方法,这个不赘述,感兴趣的话我可以后面再出一篇文章。 b. Encode...

阅读更多

【AI】SFT,FT,和Multi-task Prompt Tuning还没分清吗

还在纠结这些名词之间的区别吗?给你讲清楚 TLDR:主要差别在于训练数据的构造。 Pretrain 无监督的,就纯用语料库来训练,比如webtext,Wikipedia等,预测下一个token的概率分布,并用cross-entropy loss作为loss Function来更新模型的参数; Continuous Pretrain:在一个已经训练好的预训练模型上,用一些数据来进一步加强模型的某些方面的能力,这也是无监督的,数据也没有经过特殊构造,就是原始文本输入进去。 Fine-tune:这是比较大的名词,基本上所有在预训练模型上更新参数的方法都可以叫做Fine-tune。与此相关的名词基本上只有数据构造上的区别。 ...

阅读更多