从Post-Train角度思考VLM模型变化,应用发展
前言
上个季度开源release了非常多评分很高的模型,比如Qwen3-VL,Ovis-2.5,Mimo-VL等,这些模型本身的能力得到了非常大幅度的提升,在数学和推理类的任务上提升非常显著。作为从业者,我其实不禁会思考两个问题
- 对于模型Reasoning训练,最高效的方法到底是什么?
- 这些模型的应用场景在哪里,从业者有什么机会?
模型能力的思考
对于Late fusion类的VLM来说,目前架构上的创新其实不多,或者更直白一点,有能力做架构创新的,不太多。核心原因就是算力。一个标准的Late fusion VLM由三部分组成,ViT、connector和LLM。融合的方式从比较简单的LLaVA系列,直接MLP做connection,到最新的Qwen-VL系列,通过Deepstack更深度融合ViT的Feature(其实是有点LLaMA adapter的文艺复兴)+ 文本标注视频帧,还有一些做Vision token的方案,例如Ovis。
这些方法不仅是架构的简单到难,更是算力的从少到多。LLaVA最开始的架构只需要150k就可以完成训练,且更新的参数较少,不需要更大的训练资源。资源紧缺情况下,甚至可以只训练connector,都不需要打开ViT和LLM的参数。
而改完架构之后想做好深度融合,肯定少不了大量的训练,从ViT到LLM都需要专门的优化。很多人可能试过,如果把Qwen本身的ViT替换掉,训练不充分的话,无论如何也训练不出来Qwen本身的效果。
所以,模型能力提升,除了基模Pretrain和Post-train组,有千卡万卡资源,大部分算法优化模型效率最高的还是数据、训练方法或者直接做应用。如果做应用算法的话,我们至少应该了解,哪些应用场景比较适合落地,我们又该怎么准备?
VLM应用的思考
模型应用一直是基础模型的老大难,尤其是VLM;LLM最大的落地目前是coding和chatbot,VLM落地很多大组织,包括我个人都认为,这些方向就包含具身智能,Browser Use和computer use等,但browser use又是一个更基础的能力,作为具身智能的一部分存在。
为什么呢?作为从业者,大家可能没有我们观察仔细,我们认真研究了Qwen3-VL官方仓库的所有展出的测试用例,其中Qwen第一个展示的,就是Android use,整个模型能够通过观察整个界面和给定的指令,通过Reasoning,定位到操作的位置,做出相应的行为,并完成整体的操作。
结合上最近的新闻,阿里的夸克再曝新动作,提前透露了“C计划”,准备打造一个专门的AI浏览器。我相信,这个浏览器肯定不会像现在ChatGPT Atlas或者豆包这么简单,直接把浏览器做成对话式机器人入口,而会是一个更有想象力的方式。我认为应该是一个全面的自动化Agent,不是改变人的使用习惯,把搜索变成对话,而是模拟人进行搜索,并以搜索关键词作为唯一目标,产出搜索结果。
例如,你要定机票,这个智能化AI浏览器,应该可以直接操作一个普通的搜索界面,然后依次点开携程、去哪儿等网站,对比价格后进行提议,并等待用户审核。这个是最像人,也最轻松,使用VLM就能搞定,不用让所有企业都兼容一个Agent Protocol。用户说要定从A到B的机票,整个夸克AI浏览器就开始像人一样执行,用户躺着看就行了。
下一步
作为从业者,可以思考下VLM的Agent场景,如何能在有图片的情况下支持Long Context训练,是一个非常有意思的话题,也期待夸克能给大家打个样,展示下真正的AI浏览器。