主页

【AI】VLLM Survey

VLM Survey 总览 多模态大模型(Vision Large Models)主要是能感知多模态输入(目前主要是图片和视频)并产出语言输出(也有直接的多模态输出架构)。目前常见的VLM架构有两种, Type A: Visual Encoder -> Cross Modality Connector -> LLM Type B: VQ-VAE -> Transformer 第一种能够利用到单模态训练时候的语言能力,具有计算资源需求少,且能达到较好效果的程度;缺点是基本只能语言模态输出,无法输出多模态内容;第二种能够直接把图片模态和文本模态进行tokenization,在decode的过程中可以直接产出多模态输出,但是VQ-VAE的训练难度比较大,...

阅读更多

【AI】MiniCPM-V:端侧图像大模型

MMEvol: 构造牛逼的instruction数据集 标题:MMEVOL: EMPOWERING MULTIMODAL LARGE LANGUAGE MODELS WITH EVOL-INSTRUCT 时间:2024.09.10 作者团队:阿里巴巴 作者:Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin ...

阅读更多

【AI】大模型训练方法汇总

MiniCPM-V:端侧图像大模型 标题:MiniCPM-V: A GPT-4V Level MLLMonYourPhone 时间:2024.8.03 作者团队:面壁智能 作者:Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️ 简单评价:主攻低参数大模型领域,提出了一个基于图片分片和压缩的处理方法,属于deep-fusion的一类模型。但训练过程较为复杂,光pretrain就分了三个训练阶段。

阅读更多

【AI】MiniCPM-V:端侧图像大模型

MiniCPM-V2.6:面壁智能端侧图像大模型 标题:MiniCPM-V: A GPT-4V Level MLLMonYourPhone 时间:2024.8.03 作者团队:面壁智能 作者:Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价: 优点:代码完备,基本无缝在自建场景开启训练;可配置化图片占据的token数量,如果场景需要建模视频,可直接配置减少一张图片token数量。 缺点:目前只有和Qwen2对齐的节点,实际训练结果有些许不理想。...

阅读更多

【AI】UMT - Video foundation model建模

UMT - 长序列视频理解建模 标题:Unmasked Teacher: Towards Training-Efficient Video Foundation Models 时间:2023.3.28 作者团队:上海人工智能实验室 作者:Kunchang Li, Yali Wang, Yizhuo Li, Yi Wang, Yinan He, Limin Wang, Yu Qiao 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价:在视觉编码器领域,主要有Knowledge distillation和mask modelling两个做法,这篇文章是较早提出这种方法的工作,给视频内容建模提供了一个比...

阅读更多

【AI】No free launch:Guided Generation 严重降低推理能力

Speculative decoding: 加速大模型生成速度 类别:推理 一句话总结:Speculative decoding(推测解码)是利用小模型生成的草稿(Draft)并验证该草稿正确性(verify)实现的推理加速。 Existing Gap 目前超大模型的生成速度非常慢,有没有什么办法能加速? Proposed method 打个比方,现在有个学霸,在做n道计算题,这第n道计算题只在前n-1道题都做完且做对的情况下,才会给到该学霸。现在有个学渣,也要做n道题,正确率很低,但做的速度非常快。现在想让这个学霸做的快点怎么办?这里给的方法是让学霸偷个懒,假设学霸做了一道题,学渣做完了4道,学霸会检查第4道题的正确性,如果第4道题做对了,学...

阅读更多

【AI】No free launch:Guided Generation 严重降低推理能力

No free lunch: Guided Gen严重降低推理能力 类别:推理 一句话总结:Guided generation可以强制让模型生成固定格式的输出,但是会严重降低推理能力。一个不错的解决方法是,采用两步策略,先让模型生成随意的output,再交互一轮生成带格式的输出。 Existing Gap Guided Generation能够强制模型生成固定格式,具体原理可以参考这篇文章:https://hypercool.cn/ai_concepts/ai_inference/ai/ai_algorithms/2024/08/19/guided-decoding.html。但是Guided Generation有什么问题吗?可以在下图看到JSO...

阅读更多

【AI】输出如何严格按照格式?Guided Generation

输出如何严格按照格式?Guided Generation 类别:推理 一句话总结:Guided generation能够根据限制条件的格式(比如regex,JSON等),在一个vocab的子集上选择要解码的tokens,从而让结果严格遵循输出格式。 Existing Gap 在业务场景或者需要用到LLM的场景下,很多结果必须生成固定的格式才能被解析,被其他应用使用。一个naive approach是,直接在instruction里面放入相应的格式指令和样例输出,但这还是有概率产生解析错误。所以如何严格让结果按照期待的格式生成? Proposed solution 传统解码过程 首先我们理解,LLM的解码过程是next token predic...

阅读更多