主页 - Chengru's Blog

No free lunch: Guided Gen严重降低推理能力类别：推理一句话总结：Guided generation可以强制让模型生成固定格式的输出，但是会严重降低推理能力。一个不错的解决方法是，采用两步策略，先让模型生成随意的output，再交互一轮生成带格式的输出。 Existing Gap Guided Generation能够强制模型生成固定格式，具体原理可以参考这篇文章：https://hypercool.cn/ai_concepts/ai_inference/ai/ai_algorithms/2024/08/19/guided-decoding.html。但是Guided Generation有什么问题吗？可以在下图看到JSO...

输出如何严格按照格式？Guided Generation 类别：推理一句话总结：Guided generation能够根据限制条件的格式（比如regex，JSON等），在一个vocab的子集上选择要解码的tokens，从而让结果严格遵循输出格式。 Existing Gap 在业务场景或者需要用到LLM的场景下，很多结果必须生成固定的格式才能被解析，被其他应用使用。一个naive approach是，直接在instruction里面放入相应的格式指令和样例输出，但这还是有概率产生解析错误。所以如何严格让结果按照期待的格式生成？ Proposed solution 传统解码过程首先我们理解，LLM的解码过程是next token predic...

防止OOM的利器：Gradient checkpointing 类别：训练效果：Gradient checkpointing在能够容纳10x模型大小不OOM的情况下，只增加20%的训练时间。是一个tradeoff训练时间且比较高效的方法。 Existing Gap 大家训练的时候都遇到过OOM的问题，这里面有很大一部分原因是需要存储运算的中间结果Activations。在Mixed Precision Training里提到过，我们再以Adamw优化器为例，回顾下训练时候总的内存占用。训练时内存保存的状态是，Activation，Gradients和Weights。我们假设训练的BatchSize是$B$，模型的大小是$N$，模型的层数是$L...

Flash Attention - 两倍速你的训练过程类别：训练效果：训练时候的上下文长度越长，训练加速的效果越明显。15% end-to-end wall-clock speedup on BERT-large (seq. length 512) compared to the MLPerf 1.1 training speed record, 3× speedup on GPT-2 (seq. length 1K), and 2.4× speedup on long-range arena (seq. length 1K-4K). 核心假设在Transformer训练的时候，没有根据Attention的计算规律考虑到SRAM（on-chi...

Scaling Law研究，到底指的是什么？可能很多研发在做模型的应用和与业务结合的部分，这部分内容往往涉及到模型在新业务场景的对齐调优（Alignment Tuning）。对齐调优一般有两类，一类是SFT，另一类的Preference对齐，可能使用DPO或者PPO。前者和预训练的区别不大，只是把数据改成了instruction+output的形式，后者需要构造pair-wise结果对比的数据。但这两者的共同特征是，都不需要较大规模的训练的数据，往往很少的数据就能在业务表现上提升一个层次。 Scaling law则更关注在预训练的过程中，应该如何平衡计算资源，数据量大小和模型大小之间的平衡，从而能在预训练之前就对成本和效果有预估，这样才有信心投入更多的训练资源，达到SOTA效果。...

RoPE - 扩展context长度的利器标题：RoFormer: Enhanced Transformer with Rotary Position Embedding 时间：2021.4.20 作者团队：追一科技，现在已经快倒闭了，只做NLP的一家公司作者：Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu 有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️⭐️⭐️ 简单评价：用旋转矩阵做了相对位置编码，从而提升了模型的外推性。知识前提大模型的Transformer架构中，是通过Positional Emb...

ViT - 拼接图片标题：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(Vision Transformer) 时间：2020.10.22 作者团队：Google 作者：Alexey Dosovitskiy 有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️⭐️⭐️ 简单评价：Transformer在视觉领域的应用，把image patch拼接成Sequence，实现类似NLP中的Next token prediction的效果，也是目前很多多模态大模型的Vision Encoder。出发点 Tra...

Why Attention, why Transformer 时间：2024.05.13 作者团队：MIT 作者：Minyoung Huh, Brian Cheung, TongzhouWang, Phillip Isola 有用指数：⭐️⭐️⭐️⭐️⭐️ 贡献程度：⭐️⭐️⭐️⭐️⭐️ 简单评价：用一个简洁的假设解释了很多问题，也预测了一些趋势，其中不乏较为详实的说明和严谨的推论。对于还在疑惑为什么大模型可以work的朋友，是一个很好的知识补充。上一篇，The Platonic Hypothesis，主要讲了好的大模型表征都在收敛这个结论。虽然整体都很精彩，但整体上还是会提出几个疑问收敛的原因是否也和...

主页

【AI】No free launch：Guided Generation 严重降低推理能力

【AI】输出如何严格按照格式？Guided Generation

【AI】防止OOM的利器：Gradient checkpointing & Gradient Accumulation

【AI】Flash Attention - 两倍速你的训练过程

【AI】Pretrain的Scaling law是什么

【AI】RoPE - Roformer

【AI】Vision Transformer

【AI】Why attention, why transformer