【AI】Pretrain的Scaling law是什么
Scaling Law研究,到底指的是什么?
可能很多研发在做模型的应用和与业务结合的部分,这部分内容往往涉及到模型在新业务场景的对齐调优(Alignment Tuning)。对齐调优一般有两类,一类是SFT,另一类的Preference对齐,可能使用DPO或者PPO。前者和预训练的区别不大,只是把数据改成了instruction+output的形式,后者需要构造pair-wise结果对比的数据。但这两者的共同特征是,都不需要较大规模的训练的数据,往往很少的数据就能在业务表现上提升一个层次。
Scaling law则更关注在预训练的过程中,应该如何平衡计算资源,数据量大小和模型大小之间的平衡,从而能在预训练之前就对成本和效果有预估,这样才有信心投入更多的训练资源,达到SOTA效果。...
【AI】RoPE - Roformer
RoPE - 扩展context长度的利器
标题:RoFormer: Enhanced Transformer with Rotary Position Embedding
时间:2021.4.20
作者团队:追一科技,现在已经快倒闭了,只做NLP的一家公司
作者:Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:用旋转矩阵做了相对位置编码,从而提升了模型的外推性。
知识前提
大模型的Transformer架构中,是通过Positional Emb...
【AI】Vision Transformer
ViT - 拼接图片
标题:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(Vision Transformer)
时间:2020.10.22
作者团队:Google
作者:Alexey Dosovitskiy
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:Transformer在视觉领域的应用,把image patch拼接成Sequence,实现类似NLP中的Next token prediction的效果,也是目前很多多模态大模型的Vision Encoder。
出发点
Tra...
【AI】Why attention, why transformer
Why Attention, why Transformer
时间:2024.05.13
作者团队:MIT
作者:Minyoung Huh, Brian Cheung, TongzhouWang, Phillip Isola
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:用一个简洁的假设解释了很多问题,也预测了一些趋势,其中不乏较为详实的说明和严谨的推论。对于还在疑惑为什么大模型可以work的朋友,是一个很好的知识补充。
上一篇,The Platonic Hypothesis,主要讲了好的大模型表征都在收敛这个结论。虽然整体都很精彩,但整体上还是会提出几个疑问
收敛的原因是否也和...
【AI】The Platonic Representation Hypothesis
好的模型都是类似的,差的模型各有各的不幸
时间:2024.05.13
作者团队:MIT
作者:Minyoung Huh, Brian Cheung, TongzhouWang, Phillip Isola
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:用一个简洁的假设解释了很多问题,也预测了一些趋势,其中不乏较为详实的说明和严谨的推论。对于还在疑惑为什么大模型可以work的朋友,是一个很好的知识补充。
出发点
科学的发展总是基于一些可证伪的假设的证明或推翻,例如经典力学解释不了的现象,在微观粒度会有量子力学的理论进行支撑。某些看似不可能改变的理论,也仅在某些时空维度下是成立的。这篇文章...
【AI】Variational Auto Encoder
VAE - 图像生成的Transformer
时间:
作者团队:
作者:
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:开山鼻祖之作
【AI】VQ-VAE
VQ-VAE 详解
时间:2017.11.2
作者团队:DeepMinds
作者:Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu
有用指数:⭐️⭐️⭐️⭐️⭐️
贡献程度:⭐️⭐️⭐️⭐️⭐️
简单评价:开山鼻祖之作
背景知识
VAE详解:https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73
VAE
Encoder-Decoder架构
Ilya曾说,压缩即智能。如果你能找到一个方法,有效地进行知识的压缩与还原,那么其本质与智能...
【AI】Make A Scene - Meta的T2I核心解析
Meta T2I方案解析
时间:2022.3.24
作者团队:FAIR at Meta(Meta的AI研究团队)
作者:Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman
有用指数:⭐️
贡献程度:⭐️
简单评价:
原文标题:Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
Existing Gap
生成细节的可控性很低:有些控制能精准被语言描述,但有更多是很难被语言描述的,后者的控制非常难。
...
共计 154 篇文章,20 页。