首个评估MLLMs对地质图理解的基准集,以及专为地质图理解设计的Agent

2025-03-25 发布 · 浏览53次 · 点赞0次 · 收藏0次

图片


编辑 | ScienceAI

地质图作为地质科学的核心工具,不仅揭示了地球地下及地表结构的关键信息,还在灾害预警、矿产资源勘探、工程建设以及环境保护等多个领域有着广泛的应用。

例如,在灾害预警中,地质图有助于预测和防范如地震、滑坡等地质灾害;在矿产资源勘探中,矿产地质图可以分析研究矿床形成的地质背景、成矿条件、矿床类型和分布规律;在工程建设时,工程地质图对于判断区域稳定性至关重要,能够保障建筑物的安全性;而在环境保护方面,水文地质图则有助于分析水文条件和污染源分布。

地质图的理解具有极高的门槛。地质图中包含大量的空间信息和复杂的地质现象,这就要求解读者具备深厚的专业知识和丰富的实践经验。此外,地质数据复杂且涉及大量的外部知识,即便是经验丰富的地质学家也可能需要耗费大量时间和人力来全面关联地质、地理和地震等相关数据。而且人工分析还可能出现遗漏或错误,主观偏差也可能会影响判断的准确性。

尽管现有的多模态大语言模型(MLLMs)在通用图像识别任务上表现出色,但在特定领域的应用如地质图的理解上,则遇到了诸如图片分辨率过高、依赖专业领域知识、区域繁多且相互关联等挑战,导致它们的表现远未达到专业标准。

为了帮助地质学领域更好地解读地质图,微软亚洲研究院推出了首个用于评估多模态大语言模型在地质图理解方面的基准集 GeoMap-Bench。同时,研究员们还借助微软 Azure OpenAI 服务中的多模态大模型技术,设计并开发了一个专门的智能体 GeoMap-Agent,以提高地质图理解的准确率和效率

通过使用 MLLMs 增强对地质图整体理解(empowering geologic map holistic understanding,PEACE)的能力,研究员们为人工智能在地质学领域的应用打开了一扇新的大门。目前两项成果均已在 GitHub 上开源。相关论文已被 CVPR 2025 接收。

GeoMap-Bench:定义地质图理解的基准与挑战

在地质学领域,人工智能的应用研究尚处于起步阶段。为了使人工智能更好地服务于地质图的解读,首先需要明确定义地质图理解的问题。为此,微软亚洲研究院的研究员们与中国地质科学院和武汉大学遥感信息工程学院地理信息工程系的领域专家进行了深入交流,基于专家的经验,确立了地质图理解所需的五大关键能力:提取、定位、指代、推理和分析

  • 提取:评估模型从地质图中准确获取基本信息的能力,如标题、比例尺和地理坐标。

  • 定位:衡量模型根据组件名称或意图,精确定位地图上特定元素的能力。

  • 指代:评估模型将名称与其对应属性关联起来的技能。

  • 推理:评估执行需要跨组件连接信息或融合外部知识的高级逻辑任务的能力。

  • 分析:评估模型对地质图上给定主题进行全面理解,并能从不同角度提供详细且有意义见解的能力。

通过一系列讨论,研究员们基于中国地质调查局(CGS)的 1,000 多幅地图,以及美国地质勘探局(USGS)的 6,000 多幅地图,定义了五个关键能力下的 25 种不同任务,并挑选了 100 余张有代表性的地质图,创建了 3,000 多个带有标准答案的问题的基准集 GeoMap-Bench。

图片

图1:GeoMap-Bench 中25种任务类型的问题分布图

GeoMap-Bench 为地质学领域的人工智能应用研究提供了一个起点,有助于推动该领域更深入的研究和发展。武汉大学遥感信息工程学院地理信息工程系主任桂志鹏表示:「如果人工智能模型能够实现更精准的地质图解读,将对测绘地理信息、地图学、导航位置服务乃至无人驾驶领域产生重大影响。这意味着,那些过去只有专业人士才能解读的图表将不再是专业人员特有的技能。同时,这还将有助于提升地质学领域的自动化和智能化水平,从而更好地保存大量纸质和电子地图中的地质信息,促进它们的集成应用,例如知识发现,甚至激发新时代的地理大发现。」

GeoMap-Agent:加速地质图智能解析与精准分析

研究员们在 GeoMap-Bench 基准集上测试了现有主流的多模态大模型,进一步明确了这些模型在地质图理解与分析中的局限性:

  • 高分辨率需求:地质图通常具有很高的分辨率,有的甚至达到 10,000×10,000 像素,图像中还包含大量细节信息,部分局部信息需要放大解读。因此,要从全局来解读地质图,对模型的性能提出了更高的要求。

  • 领域知识密集:地质图由复杂且符号化的地质体对象构成,众多元素和组件相互关联,理解它们需要丰富的专业知识。例如,要读懂一幅地质图,首先要理解其图例,知道每种颜色、每种纹理所代表的具体含义。

  • 多样化视觉表现:地质图不仅包含文本信息,还涉及多样化的视觉元素,如不同类型的图形符号。这要求人工智能具备一系列能力,包括但不限于检测、分类、分割、光学字符识别(OCR)、理解和推理等。

「地质学家们迫切需要的是数字化地质图,这是一个侧重于产品开发的目标,技术实现相对容易。但我们希望更进一步,让大模型不仅能解析地质图上的已有地质信息,还能对与地质图相关的下游应用问题进行分析,例如评估特定地质区域的地震灾害风险等。为了提供综合、全面且准确的问题解答,我们需要将地质图作为媒介,联系并整合不同的知识领域。」微软亚洲研究院高级研发工程师黄杨昱说。

为此,研究员们设计了 GeoMap-Agent,这是首个专门用于地质图理解和分析的智能体。GeoMap-Agent 不仅满足了地质学家对于地质图数字化的需求,还在处理高分辨率图像、复杂关联组件以及领域知识方面做出了显著改进,从而能够高效全面地分析大量地质图。

图片

图2:GeoMap-Agent 框架图

GeoMap-Agent 的主要架构如图 2 所示,由三个核心模块组成:层级信息提取(HIE)、领域知识注入(DKI)和增强提示问答(PEOA)。

  • 层级信息提取(Hierarchical Information Extraction, HIE):为了充分理解地质图上的语义信息并将其数字化,层级信息提取模块采用了“分而治之”的策略。具体来说,HIE 模块将整个地质图按照层次结构划分为多个子图像,然后应用基础模型逐个处理这些子图像,从中提取局部信息并整合为全局数字化信息。

  • 领域知识注入(Domain Knowledge Injection, DKI):DKI 模块负责为 GeoMap-Agent 注入外部关联的知识,特别是地质学家的经验知识,这对于需要推理和分析的问题尤为关键。该过程分为两步:首先,对于给定的问题,基础模型会与专家组中的每位 AI 专家确定是否需要特定类型的领域知识;一旦确定了所需的知识类型,基础模型会查询并连接工具池中的 AI 工具来获取相关知识。此外,另一些知识会通过 HIE 模块中提取的经纬度范围进行关联。

  • 增强提示问答(Prompt Enhanced Question Answering, PEOA):除了上述两个模块提供的文本知识外,地质图还包含大量视觉层面的信息。PEOA 模块会融合文本与视觉信息作为提示,以提升大模型对问题的理解。这是一个动态选择的过程,它允许 GeoMap-Agent 针对不同问题选择地质图中特定部分的文本和视觉信息作为提示,从而有针对性地生成答案。

图片

表 1:不同方法在 GeoMap-Bench 上的评估结果

表 1 展示了 GeoMap-Agent 在 GeoMap-Bench 上的评估结果,相较于其它多模态大模型(MLLMs),GeoMap-Agent 的得分更高,其在地质图理解上的表现更为出色。

以地震风险分析为例,GeoMap-Agent 会基于给定地质图提取与地震风险相关的信息,结合不同类型专家的知识(如地质学家、地理专家、地震学专家等),并在视觉上选择与问题相关的特定区域,将三者融合形成增强的提示来推理、解答问题。

在这个过程中,GeoMap-Agent 不需要理解全部地质图信息,只需关注主图和图例,以及岩性表这一外部知识,而无需地震相关的知识,展现了智能代理动态分析的能力。

图片

图3:GeoMap-Agent(右)和 GPT-4o(中)对地震风险分析(左)分别给出的答案。相比之下,GeoMap-Agent 的回答更清晰、全面。

「GeoMap-Agent 通过自动化读取、分析和解读地质图,大幅提高了解读效率和准确性,给地质领域相关人员带来了巨大便利。借助 GeoMap-Agent,地质学家将可以快速识别地质图中的关键地质单元,如岩层、岩性、断层等,并提供相应的数据支持;矿产勘探人员将能够迅速提取矿藏分布信息,降低人工判断的误差,提升勘探效率和准确性;工程师将可以更高效地评估地质风险,支持决策者更好地理解地质条件,确保工程建设的安全性。人工智能工具大大缩短了人工分析的时间,减少了人为误差,可以更全面地分析问题,使地质图的应用变得更加高效、准确和综合。」中国地质科学院高级工程师宋洋表示。

开源 GeoMap-Bench 和 GeoMap-Agent,
构建地质领域 AI 应用的通用范式

专题地图如地质图、气象图、降雨分布图等,是地理事件、现象及规律的图形化、抽象化表达,符号化、综合化与尺度相关是这类图共有的特性。

GeoMap-Agent 解决地质图解读核心问题的成功经验,可以推广到其他类似的专题地图中,有助于加速地理和地球系统科学的知识发现,深化对自然与人类社会、城市系统运行机制的理解,从而更好地解决城市建设与可持续发展中遇到的各类问题。

人工智能技术在地质学领域的深入应用离不开跨学科的合作。地质问题往往具有强烈的地方性特征,某些细微的地质特征需要基于经验才能识别,仅靠人工智能难以捕捉到这些细节。因此,要确保人工智能技术的有效应用,必须有地理领域专家、计算机科学家、数据分析师等多方的密切配合。

该团队希望与地质学领域的专家持续合作,扩展 GeoMap-Bench 的任务类型,并提升 GeoMap-Agent 的性能,使之成为解读各类专题地图的通用范式。

GeoMap-Bench 和 GeoMap-Agent 已分别在 HuggingFace 和 GitHub 上开源,欢迎全球科研人员、开发者和爱好者共同推动人工智能在地质学领域的应用。

PEACE 论文地址:https://arxiv.org/pdf/2501.06184

GeoMap-Bench 数据地址:https://huggingface.co/datasets/microsoft/PEACE

GeoMap-Agent 代码地址:https://github.com/microsoft/PEACE

首个评估MLLMs对地质图理解的基准集,以及专为地质图理解设计的Agent - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。