首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM
近日,法国阿维尼翁大学(Avignon Université )、南特大学(Nantes Université)和 Zenidoc 的研究团队开发了 BioMistral,一个专为生物医学领域量身定制的开源 LLM,利用 Mistral 作为其基础模型,并在 PubMed Central 上进行了进一步的预训练。
研究人员根据由 10 项既定的英语医学问答 (QA) 任务组成的基准对 BioMistral 进行了全面评估。还探索通过量化和模型合并方法获得的轻量级模型。
结果证明了 BioMistral 与现有开源医疗模型相比具有卓越的性能,并且与专有模型相比具有竞争优势。
最后,为了解决英语以外的数据有限的问题,并评估医学 LLM 的多语言泛化能力,自动将该基准翻译和评估为 7 种其他语言。这标志着医学领域 LLM 的首次大规模多语言评估。
相关研究以「BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains」为题,发布在预印平台 arXiv 上。
研究人员将实验中获得的数据集、多语言评估基准、脚本和所有模型都免费发布。
BLOOM 和 LLaMA 等开源 LLM,促进了其在医学等专业领域的创新使用。
然而,将 LLM 融入医疗保健和医学带来了独特的挑战和机遇。
开源医疗模型的采用受到限制,主要是由于缺乏允许商业使用,且性能可与大型或专有模型相媲美的轻量级模型。为了解决这一差距,需要开发基于开源基础模型的专用模型,例如 GPT-Neo、LLaMa 2 或 Mistra,并在保持性能的同时优化它们,以便在消费级设备上使用。
在此,研究团队提出了 BioMistral 7B,这是一种专为生物医学领域量身定制的专业 LLM,源自 Mistral 7B Instruct v0.1,并在 PubMed Central 上进一步进行了预训练。
研究贡献包括:
BioMistral 7B 的构建,这是生物医学领域第一个基于 Mistral 的开源模型,包括对不同评估策略的分析,例如少样本上下文学习和监督微调。
一项原创研究,引入了 10 项英语医学问答 (QA) 任务的基准,自动翻译成其他 7 种语言(西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语和中文),促进对现有最先进的开源医学 LLM 的评估,并揭示了其在不同语言背景下的多语言潜力和稳健性。
对模型在多语言环境下的真实性和校准性进行大量深入的定量分析。
对通过各种有效量化方法导出的一套轻量级模型进行严格评估。
探索 Mistral 7B Instruct 和 BioMistral 7B 模型之间的新颖模型合并技术,允许利用专业和通用 LLM 的常识推理技能。
BioMistral 7B 结合了量化和合并的模型变体,与其他开源 7B 模型相比,在多语言医学评估基准上展示了最先进的性能。
研究人员表示:「我们未来的研究旨在通过人工评估来评估 BioMistral 7B 的生成质量。此外,我们计划在前人进行的实验的基础上,使用监督微调和直接偏好优化技术来增强其多语言和聊天功能。最后,我们打算通过在进一步的预训练过程中整合 Jeffrey 散度或 Platt 缩放等技术来提高模型的校准和可靠性。」
声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。