主页

【AI】多模态总结

大模型21:多模态大模型 分类图 https://whimsical.com/mlm-8adiZwwDifpxwNxz4qFPKZ Timeline 分类 模型 时间 团队 Summary language<>image pretrain CLIP 202103 OpenAI   VLP pretrain Flamingo 202204 DeepMind   vision-lang pre...

阅读更多

【AI】Encoder-only Transformer

基于Transformer的大语言模型共有三种架构,分别是Encoder-only Model,Encoder-Decoder Model和Decoder-only Model。 三者的本质区别:大模型的输出是文本还是Embedding。后者需要改模型结构才能适配其他下游任务。 Encoder-only: Input是Encoder Transformer,Output是Transformer结构的最后一层Hidden states,需要再加一层MLP才能适应到不同的下游任务。主要应用是训练高效的Embedding和各种文本分类问题。代表作:BERT。 Encoder-Decoder:Input是语言,经过Transformer Encoder变成Embedding,再由...

阅读更多

【AI】Encoder-decoder Transformer

Encoder-Decoder Transformer 关于Transformer的三种架构的区别,可移步什么是Encoder-only Transformer这篇文章。 本文主要讲Encoder-Decoder Transformer结构,其原始论文是最经典的Attention is all you need. 模型介绍 Encoding:文本输入会把文本Encode成一种数字形式,也就是Tokenization,比如asynchronous会被encode成数字28,GPT使用的是BPE encoding方法,这个不赘述,感兴趣的话我可以后面再出一篇文章。 b. Encode...

阅读更多

【AI】SFT,FT,和Multi-task Prompt Tuning还没分清吗

还在纠结这些名词之间的区别吗?给你讲清楚 TLDR:主要差别在于训练数据的构造。 Pretrain 无监督的,就纯用语料库来训练,比如webtext,Wikipedia等,预测下一个token的概率分布,并用cross-entropy loss作为loss Function来更新模型的参数; Continuous Pretrain:在一个已经训练好的预训练模型上,用一些数据来进一步加强模型的某些方面的能力,这也是无监督的,数据也没有经过特殊构造,就是原始文本输入进去。 Fine-tune:这是比较大的名词,基本上所有在预训练模型上更新参数的方法都可以叫做Fine-tune。与此相关的名词基本上只有数据构造上的区别。 ...

阅读更多

【AI】元能力探索:监督微调的能力

大模型时代,数据质量远远大于数据质量。 在解决业务问题时,我们经常需要把大模型适用于各种不同的下游任务。此时一个常用的方法是有监督微调。例如情感识别,输入是,我今天被老师表扬了,输出是,高兴。我们可以构造这样输入输出对,就可以对大模型有监督微调。 那么,多少数据能够让模型以较高的准确率完成指令跟随呢?答案是仅需几百条。 在我们的场景下,我们仅筛选了400条高质量数据,对模型进行有监督微调,就能让这个模型的以较高的准确率完成该任务,更令人震惊的是,其中仅有24条包含某指令,而未来有类似指令的时候,模型也能准确识别到该指令的输入而产生对应的输出。 总结一下,当我们需求仅是指令跟随能力的较为简单的任务时,使用高质量数据远好于多个低质量数据。

阅读更多

【AI】大模型算法如何避免成为Prompt Engineer和数据清洗师

把prompting交给他人:Prompting是提升效果的重要手段,这个步骤是必要的,可以把这步交给产品或者后端,你只用效果最好的Prompt; 只做一次数据清洗:数据对大模型效果有至关重要的作用,这步必须自己做,但这个过程可以结合自己对业务的理解做一次非常全的数据清洗,然后训练一版模型,跑一版benchmark,如果各个指标都有提升,剩下的交给产品或者后端做基于新训练的模型做prompting,自己再同步做别的事情; 理解模型元能力提升的关键:大模型的指令跟随能力,推理能力,上下文学习能力,都是模型的元能力,这些能力是由一些特殊的训练方法和数据习得的,掌握了提升模型元能力的方法,就能对整体效果的把控性更强,也能进阶成更好的大模型算法。可以在第二步中多多探索不同数据对于模型各...

阅读更多

【AI】Scaling multimodal understanding to long videos

https://arxiv.org/pdf/2311.05698.pdf AJ Piergiovanni,Google Research 场景与问题 解决不同模态之间的Heterogenious Input问题是一个重要课题。因为 输入体积上,视频和音频在体积上比文字大得多,因此这两者Input信息量是无法对齐的,需要通过模型对齐。 数据处理上,instruction following的Video QA模型的训练数据中包含提取出的文本信息(标题,简介等)是全局信息,而视频和音频都是和时间对齐的,其本身没有全局属性。 一般思路 Tokenize visual input - LLaVA

阅读更多

【AI】LLM Learning

Pretrain Performance v.s. Data & Size For a given compute budget, the best performances are not achieved by the largest models, but by smaller models trained on more data. – from LLaMA 用更多的数据训练,Size小一点也会有更好的效果。 LLaMA Encoding: BPE Training Data: 1.4T token, Wikipedia和Books Domain训练了两个epochs Epoch meaning: In the context of mac...

阅读更多