https://arxiv.org/pdf/2311.05698.pdf
AJ Piergiovanni,Google Research
场景与问题
解决不同模态之间的Heterogenious Input问题是一个重要课题。因为
- 输入体积上,视频和音频在体积上比文字大得多,因此这两者Input信息量是无法对齐的,需要通过模型对齐。
- 数据处理上,instruction following的Video QA模型的训练数据中包含提取出的文本信息(标题,简介等)是全局信息,而视频和音频都是和时间对齐的,其本身没有全局属性。
一般思路
- Tokenize visual input - LLaVA
上篇AI算法