主页 - Chengru's Blog

Got it! If your dataset consists of independent samples where each sample is either a positive (correct next token) or negative (incorrect next token) example, you can still leverage these negative samples effectively in training your model. Here’s how you can handle this scenario: 1. Binary Classification Approach: Since each sample is either...

Vision Encoder in VLM Survey TLDR 目标：本文主要关注VLM中Encoder的发展和最新进展，主要围绕Vision Transformer这个架构介绍；主要脉路 CNN和ViT的基础架构 CLIP和SigLip两种让ViT架构实现zero-shot inference的训练思路 NaViT和其他扩展ViT支持动态分辨率或者节约训练成本的训练方法 ViT和VLM的结合（未完待续）核心目标本文主要关注VLM中的Vision Encoder，其核心目标是如何学习到图片的语义表征，并能低成本和Transforme...

VLM Survey 总览多模态大模型（Vision Large Models）主要是能感知多模态输入（目前主要是图片和视频）并产出语言输出（也有直接的多模态输出架构）。目前常见的VLM架构有两种， Type A: Visual Encoder -> Cross Modality Connector -> LLM Type B: VQ-VAE -> Transformer 第一种能够利用到单模态训练时候的语言能力，具有计算资源需求少，且能达到较好效果的程度；缺点是基本只能语言模态输出，无法输出多模态内容；第二种能够直接把图片模态和文本模态进行tokenization，在decode的过程中可以直接产出多模态输出，但是VQ-VAE的训练难度比较大，...

MMEvol: 构造牛逼的instruction数据集标题：MMEVOL: EMPOWERING MULTIMODAL LARGE LANGUAGE MODELS WITH EVOL-INSTRUCT 时间：2024.09.10 作者团队：阿里巴巴作者：Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin ...

MiniCPM-V：端侧图像大模型标题：MiniCPM-V: A GPT-4V Level MLLMonYourPhone 时间：2024.8.03 作者团队：面壁智能作者：Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui 有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️ 简单评价：主攻低参数大模型领域，提出了一个基于图片分片和压缩的处理方法，属于deep-fusion的一类模型。但训练过程较为复杂，光pretrain就分了三个训练阶段。

MiniCPM-V2.6：面壁智能端侧图像大模型标题：MiniCPM-V: A GPT-4V Level MLLMonYourPhone 时间：2024.8.03 作者团队：面壁智能作者：Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui 有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️⭐️⭐️ 简单评价：优点：代码完备，基本无缝在自建场景开启训练；可配置化图片占据的token数量，如果场景需要建模视频，可直接配置减少一张图片token数量。缺点：目前只有和Qwen2对齐的节点，实际训练结果有些许不理想。...

UMT - 长序列视频理解建模标题：Unmasked Teacher: Towards Training-Efficient Video Foundation Models 时间：2023.3.28 作者团队：上海人工智能实验室作者：Kunchang Li, Yali Wang, Yizhuo Li, Yi Wang, Yinan He, Limin Wang, Yu Qiao 有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️⭐️⭐️ 简单评价：在视觉编码器领域，主要有Knowledge distillation和mask modelling两个做法，这篇文章是较早提出这种方法的工作，给视频内容建模提供了一个比...

Speculative decoding: 加速大模型生成速度类别：推理一句话总结：Speculative decoding（推测解码）是利用小模型生成的草稿（Draft）并验证该草稿正确性（verify）实现的推理加速。 Existing Gap 目前超大模型的生成速度非常慢，有没有什么办法能加速？ Proposed method 打个比方，现在有个学霸，在做n道计算题，这第n道计算题只在前n-1道题都做完且做对的情况下，才会给到该学霸。现在有个学渣，也要做n道题，正确率很低，但做的速度非常快。现在想让这个学霸做的快点怎么办？这里给的方法是让学霸偷个懒，假设学霸做了一道题，学渣做完了4道，学霸会检查第4道题的正确性，如果第4道题做对了，学...

主页

Binary Loss

【AI】The Advancement of Vision Encoders in VLMs

【AI】VLLM Survey

【AI】MiniCPM-V：端侧图像大模型

【AI】大模型训练方法汇总

【AI】MiniCPM-V：端侧图像大模型

【AI】UMT - Video foundation model建模

【AI】No free launch：Guided Generation 严重降低推理能力