主页

【AI】智谱AI

🚀【揭秘】Llama-3:开源界的新星,性能如何? 🎉近年来,AI领域的发展可谓日新月异,而Llama-3的开源无疑给这个领域带来了新的惊喜。SuperBench团队对其进行了全面评测,结果如何呢?让我们一探究竟! 🔍Llama-3在语义理解、代码能力、对齐、智能体以及安全等方面展现了出色的性能。SuperBench的评测结果,不仅展示了Llama-3的实力,也凸显了SuperBench的权威性和速度。 史蒂夫乔布斯曾经说过,“任何对软件有极致追求的公司,都应该制造自己的硬件”。用户体验的提升,从来都不会只依赖一部分的提升,而是这个流程中的所有环节的提升。同样,在大模型时代,对用户体验追求极致的公司或产品,都应该考虑制定自己的评价标准,最大程度对齐到用户的真实体验。 Meta的...

阅读更多

【AI】LLaVA Multiple Images Training Code

LLaVA多图训练 启动脚本 bash scripts/v1_5/finetune.sh > test.log 2>&1 主要改动 conversation预处理支持多图 def get_prompt(self): messages = self.messages if len(messages) > 0 and type(messages[0][1]) is tuple: messages = self.messages.copy() init_role, init_msg = messages[0].cop...

阅读更多

【AI】LLaVA Multiple Images SFT

LLaVA Mistral Multiple Images SFT LLaVA是2023年4月提出的针对多模态场景的,可多轮图文问答ChatBot模型。LLaVA通过简单地把1024维输出的CLIP特征用projector和语言模型的embedding拼接起来,就能实现该效果。 但是,在原文章中,作者是针对单图问答场景进行的训练,如果想实现一个多图输入场景的任务,应该如何改造结构以及构造训练数据呢?下面我们一起来看一下。 代码结构 启动命令 bash llava/scripts/v1_5/finetune.sh 训练入口 llava/train/train.py 训练框架 训练框架使用了Huggingface下的Trainer,Trainer是专门为了T...

阅读更多

【AI】LLaVA MS Research

LLaVA Microsoft Research LLaVA - 202304 - MS Research Existing Gap: 之前的大部分工作都在做模态对齐,做图片的representation learning,而没有针对ChatBot(多轮对话,指令理解)这种场景优化。 Contribution:这篇工作已经在BLIP-2之后了,所以Image的理解能力不是LLaVA希望提升的重点,LLaVA是想提升多模态模型的Instruction-Following ability,也就是特定的多轮QA场景。 构造了三种Instruction的数据,包括多轮对话,图片描述和复杂推理。其中...

阅读更多

【AI】BLIP-2 Salesforce

BLIP-2- Salesforce - 202302 Existing Gap 之前的训练方法会导致LM的Catastrophic Forgetting(如果训练时候更新LM的Params); 作者假设,在Pretrain阶段下,多模态大模型最重要的问题是解决模态对齐(Modality Alignment)。(为什么?因为文本生成能力依赖语言模型,所以让语言模型理解Image Token是很重要的。这里的模态对齐与CLIP的区别是什么?CLIP里面只有Encoder,没有Text Generation,可以把BLIP看做CLIP的带Text Generation的改良版。为什么可以做出这个假设?比较符合直觉,因为图片问答和文本问答最大的区别就...

阅读更多

【AI】Flamingo

Flamingo - Deepmind - 202204 Existing Gap CLIP模型无法做文字生成,只能做分类,从已有数据中做选择; 能够用image作为language generation的condition来构造这个任务从而完成image caption,image QA这样的任务呢? Contribution 提出了一个可以做few-shots来帮助LM做image caption和image QA任务的方法;具有生成能力。 提出了一个量化VLM能力的benchmark。 Method ...

阅读更多

【AI】CLIP

CLIP - OpenAI - 2021 Initiative 在Text领域,pre-train模型可以在不改变任何模型结构,通过prompting的方式泛化到下游任务,Image领域是否能有这样的模型? 当前进展 NLP领域,只用webtext做训练,不用labelled数据集就能实现上面的目标,Image领域呢? 原来有类似的工作,但是他们学习到的Image representation是在一些有label的数据集上,而这些label是非常少的; 所以一个新的想法是,能否找到更大量的数据集上预训练一个能学习到representation的? 这样的数据集,网络上有很多图,这些图是有文...

阅读更多

【AI】Decoder-only Transformer

Decoder-only Transformer Decoder-only的Transformer网络结构式2017年GPT系列的第一篇文章带火的。Decoder-only最大的特点是,我称之为打直球,即直接针对Input预测下一个Token的概率分布,从概率分布中sample一个Token,就直接给结果了,然后再进行下一次生成,也即Auto regressive。例如Input是,A quick brown fox,那么模型会给出下一个Token是j,在下次给出Token是u,循环N次知道生成结束Token [EOS],本次生成结束,你会得到A quick brown fox jumps over the lazy dog.[EOS]这样的输出。 下图的左边就是GPT系列的基础架...

阅读更多