主页

【AI】UMT - Video foundation model建模

UMT - 长序列视频理解建模 标题:Unmasked Teacher: Towards Training-Efficient Video Foundation Models 时间:2023.3.28 作者团队:上海人工智能实验室 作者:Kunchang Li, Yali Wang, Yizhuo Li, Yi Wang, Yinan He, Limin Wang, Yu Qiao 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价:在视觉编码器领域,主要有Knowledge distillation和mask modelling两个做法,这篇文章是较早提出这种方法的工作,给视频内容建模提供了一个比...

阅读更多

【AI】No free launch:Guided Generation 严重降低推理能力

Speculative decoding: 加速大模型生成速度 类别:推理 一句话总结:Speculative decoding(推测解码)是利用小模型生成的草稿(Draft)并验证该草稿正确性(verify)实现的推理加速。 Existing Gap 目前超大模型的生成速度非常慢,有没有什么办法能加速? Proposed method 打个比方,现在有个学霸,在做n道计算题,这第n道计算题只在前n-1道题都做完且做对的情况下,才会给到该学霸。现在有个学渣,也要做n道题,正确率很低,但做的速度非常快。现在想让这个学霸做的快点怎么办?这里给的方法是让学霸偷个懒,假设学霸做了一道题,学渣做完了4道,学霸会检查第4道题的正确性,如果第4道题做对了,学...

阅读更多

【AI】No free launch:Guided Generation 严重降低推理能力

No free lunch: Guided Gen严重降低推理能力 类别:推理 一句话总结:Guided generation可以强制让模型生成固定格式的输出,但是会严重降低推理能力。一个不错的解决方法是,采用两步策略,先让模型生成随意的output,再交互一轮生成带格式的输出。 Existing Gap Guided Generation能够强制模型生成固定格式,具体原理可以参考这篇文章:https://hypercool.cn/ai_concepts/ai_inference/ai/ai_algorithms/2024/08/19/guided-decoding.html。但是Guided Generation有什么问题吗?可以在下图看到JSO...

阅读更多

【AI】输出如何严格按照格式?Guided Generation

输出如何严格按照格式?Guided Generation 类别:推理 一句话总结:Guided generation能够根据限制条件的格式(比如regex,JSON等),在一个vocab的子集上选择要解码的tokens,从而让结果严格遵循输出格式。 Existing Gap 在业务场景或者需要用到LLM的场景下,很多结果必须生成固定的格式才能被解析,被其他应用使用。一个naive approach是,直接在instruction里面放入相应的格式指令和样例输出,但这还是有概率产生解析错误。所以如何严格让结果按照期待的格式生成? Proposed solution 传统解码过程 首先我们理解,LLM的解码过程是next token predic...

阅读更多

【AI】防止OOM的利器:Gradient checkpointing & Gradient Accumulation

防止OOM的利器:Gradient checkpointing 类别:训练 效果:Gradient checkpointing在能够容纳10x模型大小不OOM的情况下,只增加20%的训练时间。是一个tradeoff训练时间且比较高效的方法。 Existing Gap 大家训练的时候都遇到过OOM的问题,这里面有很大一部分原因是需要存储运算的中间结果Activations。在Mixed Precision Training里提到过,我们再以Adamw优化器为例,回顾下训练时候总的内存占用。 训练时内存保存的状态是,Activation,Gradients和Weights。我们假设训练的BatchSize是$B$,模型的大小是$N$,模型的层数是$L...

阅读更多

【AI】Flash Attention - 两倍速你的训练过程

Flash Attention - 两倍速你的训练过程 类别:训练 效果:训练时候的上下文长度越长,训练加速的效果越明显。15% end-to-end wall-clock speedup on BERT-large (seq. length 512) compared to the MLPerf 1.1 training speed record, 3× speedup on GPT-2 (seq. length 1K), and 2.4× speedup on long-range arena (seq. length 1K-4K). 核心假设 在Transformer训练的时候,没有根据Attention的计算规律考虑到SRAM(on-chi...

阅读更多

【AI】Pretrain的Scaling law是什么

Scaling Law研究,到底指的是什么? 可能很多研发在做模型的应用和与业务结合的部分,这部分内容往往涉及到模型在新业务场景的对齐调优(Alignment Tuning)。对齐调优一般有两类,一类是SFT,另一类的Preference对齐,可能使用DPO或者PPO。前者和预训练的区别不大,只是把数据改成了instruction+output的形式,后者需要构造pair-wise结果对比的数据。但这两者的共同特征是,都不需要较大规模的训练的数据,往往很少的数据就能在业务表现上提升一个层次。 Scaling law则更关注在预训练的过程中,应该如何平衡计算资源,数据量大小和模型大小之间的平衡,从而能在预训练之前就对成本和效果有预估,这样才有信心投入更多的训练资源,达到SOTA效果。...

阅读更多

【AI】RoPE - Roformer

RoPE - 扩展context长度的利器 标题:RoFormer: Enhanced Transformer with Rotary Position Embedding 时间:2021.4.20 作者团队:追一科技,现在已经快倒闭了,只做NLP的一家公司 作者:Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu 有用指数:⭐️⭐️⭐️⭐️⭐️ 贡献程度:⭐️⭐️⭐️⭐️⭐️ 简单评价:用旋转矩阵做了相对位置编码,从而提升了模型的外推性。 知识前提 大模型的Transformer架构中,是通过Positional Emb...

阅读更多