轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告

2025-02-12 发布 · 浏览117次 · 点赞0次 · 收藏0次

图片

编辑丨coisini

多模态生成式人工智能的最新进展已将生物医学应用扩展到同时处理文本和图像,在视觉问答和放射学报告生成等任务中展现出潜力。然而,这些模型在临床实现中面临挑战,特别是大型模型在计算成本等方面带来了部署难题。小型多模态模型(SMM)虽然更高效,但与大型模型相比仍存在显著性能差距。此外,缺乏可访问的开源模型和可靠的事实正确性评估方法,特别是模型幻觉为临床采用设置了重大障碍。

来自微软研究院、华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一种新型小型多模态模型(SMM)——LLaVA-Rad,以及用于事实正确性自动评分的新指标 CheXprompt。

图片

论文地址:https://arxiv.org/pdf/2403.08002

LLaVA-Rad 专注于胸部 X 光(CXR)成像,旨在为医学影像检查自动生成高质量放射学报告。该模型在七个不同来源的数据集上进行了训练,共包含 697435 对放射学图像 - 报告,并在仅有结构化标签时利用 GPT-4 进行报告合成。

值得一提的是,LLaVA-Rad 仅需单个 V100 GPU 进行推理,并使用 8 个 A100 集群在一天内完成训练。

图片

LLaVA-Rad 的架构代表了一种小型多模态模型(SMM)的全新方法,尽管其规模显著小于 Med-PaLM M 等模型,但仍实现了卓越的性能。该模型的设计理念围绕将训练过程分解为不同的阶段:单模态预训练和轻量级跨模态学习。

LLaVA-Rad 的架构采用了一种高效的适配器机制,将非文本模态嵌入到文本嵌入空间中。训练过程分为三个阶段:预训练、对齐和微调。这种模块化方法实现了稳健的单模态模型开发和有效的跨模态适应。

图片

与类似规模的模型(如 LLaVA-Med、CheXagent 和 MAIRA-1,均为 70 亿参数)相比,LLaVA-Rad 表现出卓越的性能。并且,尽管规模显著较小,但 LLaVA-Rad 在关键指标上超越了 Med-PaLM M 模型,在放射学文本评估中,ROUGE-L 提高了 12.1%,F1-RadGraph 提高了 10.1%。

图片

LLaVA-Rad 在多个数据集(包括 CheXpert 和 Open-I)上均保持了优异性能,即使在测试未见过数据时也是如此。这归功于 LLaVA-Rad 的模块化设计和数据高效架构。LLaVA-Rad 的整体性能和计算效率使其在实际应用中极具实用性。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。