【AI】多模态大模型在医疗中的应用

 

多模态大模型在医疗领域的进展

主要应用方向

前几天刚进行了体检,其中有个项目是AI眼底检测,说白了就是根据眼底的成像图,使用大模型进行解读,并三甲医生人工检查结果,并给到一个报告。我觉得这个方向很有意思,任何人或多或少都会有医疗的需求,市场潜力本身就很大。我私以为,医疗是一个经验科学,见过的疑难杂症越多,越有可能做出正确的诊断。而任何医生都不可能有大模型见过的数据多,所以这肯定是一个非常有潜力的方向。同时最近也是看到几篇关于医疗领域的多模态大模型的论文,就借机会讲一下。

技术路径

Agent-based 问诊机器人:

比如MedAgent-Pro这篇文章,就结合了Agent和Reasoning Model到问诊的流程中,从而在降低了问诊幻觉的同时,给到真实情况下医生可能的建议。

image-20250422225638386

这篇文章整体思路还是比较直白的,作者将诊断流程分为了两个Agent,第一个Agent负责Document的召回和planning,在这里的Document主要就是过往的诊断记录,然后马上衔接上一个Planning Module,形成比较合理的诊断执行操作。比如,炎症的诊断需要根据抽血化验结果来看,那这个planing Module里面就会存在查看验血记录这个环节。作者把查看验血记录这些行为都看做了可执行操作的Agent。实际上,作者在进行case诊断时候,会综合多个智能体的结果。

指挥智能体(Orchestrator Agent)

  • 功能:负责对患者的多模态信息进行初步分析,并确定诊断计划的执行步骤。
  • 采用技术:采用了 GPT - 4o

工具智能体(Tool Agents)

  • 包括多种用于完成诊断计划中不同任务的工具智能体,具体如下:
    • 分类模型(Classification Models)
      • 功能:使用图像分类模型来分析一些量化指标。使用了一般的分类模型如 BioMedclip
    • 分割模型(Segmentation Models)
      • 功能:使用 Medical SAM Adapter 进行分割,
    • 视觉问答模型(Vision Question Answering, VQA)
      • 功能:利用 VQA 模型生成医学图像的视觉描述,这里是LLaVa - Med。暂不进行复杂推理。
    • 编码智能体(Coding Agent)
      • 功能:设计该模块用于从视觉模型(如分割掩码)的原始输出中生成计算额外指标的简单代码。使用 GPT - o1,因其强大的编码能力。
    • 总结智能体(Summary Agent)
      • 功能:由于大语言模型(LLM)输出往往很长,引入该智能体将 LLM 决策的响应提炼成简单的 “是” 或 “否” 用于准确性评估,还将 VQA 工具的输出提炼成 “是”、“否” 或 “不确定”。采用 GPT - 4o。
    • 决策智能体(Decider Agent)
      • 功能:负责根据前几步获得的指标做出最终诊断。最终诊断的时候会使用大模型进行归纳,分类和总结。

AI智能硬件

现在有很多企业院线机构在🏥健康领域有很大的潜力。以可穿戴式心电监测设备为例,Magic Pulse做的就是AI+硬件的心率监测,是把多模态理解能力用到了心电图的检测中,结合AI-ECG技术进行动态心电图监测。

近期特别关注AI在医疗健康领域的应用,尤其是日常可穿戴监测设备。因为工作强度大加上新冠后遗症,我发现自己的心肺功能大不如前。

自用的Magic Pulse心电贴能长程动态监测心脏异常情况,由海量数据训练的AI模型作为智能核心,搭载的AI-ECG人工智能心电辅助诊断技术,自动识别ST-T改变、室早、房颤等62种心律异常,主动抓取心律异常问题进行重点解读,提供专业的健康报告帮助医生精准诊断,实现居家就能进行医疗级的动态心电图检测;

联合4500多家知名院线落地应用,通过400万条真实大规模临床数据验证,经过2000w+小时的双盲实验对照调优,AI自动分析结果和三甲院线高年资医生结论的一致性高达98.18%,而且还在持续进步~创可贴式设计即贴即测,洗澡或运动时戴着也能持续监测,遇到异常波动会及时震动提醒。

有次熬夜工作后设备提示我心率变异性异常和心脏健康风险情况,针对不同的心率指标做了详细的分析,结合它给出的健康建议调整作息,确实感觉恢复得更快些。穿戴式心电记录仪可以长时间分析心电信号并给出详尽的报告和健康指导建议;帮助医生进行疾病诊断和治疗,有效减轻医生的工作负担。