【AI】Ovis-2.5 细节深挖
深挖Ovis-2.5技术细节
前言
阿里发布的基于Qwen3 LLM backbone的VLM,9B模型创下了40B大小下的SOTA指标。这种涨点一般来自于两个方面,首先LLM的升级,一般都能带来视觉推理类任务的提升;其次,数据和训练方式的升级也能带来提升。虽然技术报告一般不会透露过多细节,但一般来说看下还是能带来一些新的启发,细节是魔鬼,做好细节就能成功。
模型架构
和QwenVL的有所不同,Ovis没有把NaViT的结果直接做pooling投射到LLM的embedding space,而是把Qwen25VL的PatchMerger变成VisualEmbeddingTable,转化为Vision tokens(默认的vocab_size为65536)。
代码区别:
Q...
【AI】RL到底怎么涨点?
VLM RL如何涨点 - 实践和思考part-2
前言
过去的一个月在比较高强度做RL,最近终于有了一些阶段性成果,整理了一下整体的迭代思路和最近踩过的坑,分享出来,与各位共勉。结果上,部分Benchmark取得了同size 模型1-2个点的涨幅,最高的单项能有8-10个点的涨幅。这个过程最大的感触是
No Silver bullet,从目标出发规划,做对10件小事,比做1件大事重要的多;
没做好数据基础就开始研究新算法的,要小心了,很可能长期做不出结果;
基础的RL算法,就能有较为明确的涨点,即使目标是做开源SOTA,也可以从最简单但正确的事情做起,千里之行,始于足下。
RL的目标
关于RL,我们不是第一批吃螃蟹的人,有很多前人的工作可以追溯,所以是站在巨人...
【AI】小米MiMo大模型 - 做好数据,全是细节
小米多模态大模型 - 全是细节
结论
[!NOTE]
经过测试,MIMo会优先出reasoning,但是部分任务,例如OCR、Grounding,会直接跳过reasoning出结果,是否reason无法通过template控制,但调整prompt可能可以控制;
RL并非对所有任务都有用,实际上部分OCR任务存在掉点情况,在做Post-train时候的指标变化情况可以借鉴。
Architecture
MiMo完全就是Qwen2VL的架构,甚至官方repo里面的inference代码都是用的QwenVLConditionalGeneration,这个无可厚非,Qwen确实是基座框架比较优秀的一批,选择这个框架做数据scaling训练也是很多...
【AI】Qwen3 - 基模搞得好,变现少不了
SAP跟阿里合作,因为千问基模更好?
Qwen最新新闻
看到最近SAP(思爱普)要和阿里巴巴合作有感而发,AI大模型的发展到现在如火如荼,整体在内的从业者也获得了丰厚的汇报,但是这里一直笼罩着一层乌云就是,基础大模型的发展方向到底在哪里?未来从事基础模型研究的人员能否在更长期的发展上获得保障?企业选择做基础模型更倾向闭源模型还是开源?我看到通义千问的发展,和最近看到的新闻,我觉得阿里把千问大模型开源做对了,这就是真是硬通货。
最新的合作,会把通义千问接入SAP应用及云上合作拓展,全球最大企业软件接入通义。现在有非常多的企业,在做基于AI的企业转型甚至是业务转型,这是一个大趋势,因为不接入生成式AI的企业未来是死路一条。
SAP这次的合作方向有两个:第一是会把现在对外提供的核心业...
【AI】看完Seed-1.5-VL技术报告,立刻可尝试的几件事
看完Seed-1.5-VL,立刻要尝试的一些操作
结论
单独Pretrain ViT模块
ViT蒸馏:使用大的CLIP模型蒸馏一个小CLIP模型,直接用用两个模型的output features的cos距离作为loss,能极大提升模型的文档理解和OCR能力;
ViT Pretrain with 2D RoPE:使用SigLip loss和SuperClass loss 对ViT进行Pretrain;
全模态ViT Pretrain:提到了MiCo的训练框架,即把视频,音频,depth信息都用ViT统一Encode,和文本Encoder进行contrastive learning
...
【AI】RL给不了新知识,只是激发了Base Model的能力罢了
RL给不了新知识,只是激发了Base Model的能力罢了
今天的思考来自于这篇论文:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 这篇文章的主题就是我的标题,RL不过是让Base Model朝向一个更能给到正确答案的方向结题罢了,但实际上Base Model不会的题可能永远不会,会的偶尔能做对,RL能增加这个做对的概率。
Key Insights
尽管RL后的模型能够在pass@k(k=1)的情况下超越Base模型,但是Base Model在k的大小不做限制情况下,可能比RL后的模型pass率还高;
RL优化的,只是Bas...
【AI】多模态大模型在医疗中的应用
多模态大模型在医疗领域的进展
主要应用方向
前几天刚进行了体检,其中有个项目是AI眼底检测,说白了就是根据眼底的成像图,使用大模型进行解读,并三甲医生人工检查结果,并给到一个报告。我觉得这个方向很有意思,任何人或多或少都会有医疗的需求,市场潜力本身就很大。我私以为,医疗是一个经验科学,见过的疑难杂症越多,越有可能做出正确的诊断。而任何医生都不可能有大模型见过的数据多,所以这肯定是一个非常有潜力的方向。同时最近也是看到几篇关于医疗领域的多模态大模型的论文,就借机会讲一下。
技术路径
Agent-based 问诊机器人:
比如MedAgent-Pro这篇文章,就结合了Agent和Reasoning Model到问诊的流程中,从而在降低了问诊幻觉的同时,给到真实情况下医生可能的建议...
共计 145 篇文章,19 页。