为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

2024-07-25 发布 · 浏览624次 · 点赞0次 · 收藏0次

编辑 | ScienceAI

问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。

尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。

其一，数据形式较为单一，大多数为多项选择题（multiple-choice questions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答(openQA)可以更加全面地评估模型的能力，但缺乏合适的评估指标。

其二，现有数据集的内容很多来源于大学及以下等级的教科书，难以评估LLM在实际学术研究或生产环境中的高层次知识保持能力。

其三，这些基准数据集的创建依赖人类专家标注。

应对这些挑战对建立更全面的QA数据集至关重要，也有利于对科学LLM的更精准评估。

图示：从科学文献中生成高质量科学问答对的SciQAG框架。

为此，美国Argonne国家实验室、芝加哥大学Ian Foster 教授（2002年戈登贝尔奖得主）团队、澳大利亚新南威尔士大学Bram Hoex教授UNSW AI4Science团队、AI4Science 公司GreenDynamics 与香港城市大学揭春雨教授团队联合提出了 SciQAG，第一个基于大语言模型（LLM）从大型科学文献语料库中自动生成高质量科学开放性问答对的新型框架。

论文链接：https://arxiv.org/abs/2405.09939

github链接：https://github.com/MasterAI-EAM/SciQAG

基于SciQAG，研究人员构建了一个大规模、高质量、开放式的科学QA数据集 SciQAG-24D ，包含从24个科学领域的22,743篇科学论文中提取的188,042 个QA对，旨在服务LLM的微调和科学问题解答能力评估。

实验证明，在 SciQAG-24D 数据集上对 LLM 进行微调可以显著提高它们在开放式问题解答和科学任务中的性能。

数据集、模型和评估代码已经开源(https://github.com/MasterAI-EAM/SciQAG)，以促进AI for Science社区对开放式科学问答的共同开发。

SciQAG框架与SciQAG-24D基准数据集

SciQAG由QA生成器和QA评估器组成，旨在大规模快速生成基于科学文献的多样化开放式问答对。首先，生成器将科学论文转换为问答对，然后评估器过滤掉不符合质量标准的问答对，从而获得高质量的科学问答数据集。

QA生成器

研究人员经过对比实验设计了两步提示词（prompt），令LLM先提取关键词，再基于关键词生成问答对。

由于生成的问答数据集采用「闭卷」模式，即不提供原始论文，只关注提取出的科学知识本身，prompt要求生成的问答对不依赖或参考原始论文中的特有信息（例如不得出现代称如「本/该论文」，「本/该研究」等字样，或向文中表格/图片提问）。

为了平衡性能和成本，研究人员选择微调一个开源LLM作为生成器。SciQAG用户可以根据自身情况选择任何开源或闭源LLM作为生成器，既可以使用微调，也可以使用提示词工程。

QA评估器

评估器用于完成两个目的：（1）评估生成的问答对质量；（2）基于设定标准摒弃低质量的问答对。

研究人员开发了一个综合评估指标 RACAR，它由五个维度组成：相关性（relevance）、不可知性（agnosticism）、完整性（completeness）、准确性（accuracy）和合理性（reasonableness）。

在本研究中，研究人员直接使用 GPT-4 作为 QA 评估器，按照RACAR对生成的 QA 对进行评估，评估等级为 1-5（1 表示不可接受，5 表示完全可以接受）。

如图所示，为了衡量 GPT-4 与人工评估之间的一致性，两位领域专家使用 RACAR 指标对 10 篇文章（共 100 问答对）进行人工评估。用户可以根据自身需求选择任何开源或闭源LLM作为评估器。

图示：GPT-4 分配分数与专家标注分数之间的 Spearman 和 Pearson 相关性。

SciQAG 框架的运用

该研究从Web of Science (WoS)核心合集数据库中获取了24类高引用论文共计22,743篇，来自材料科学、化学、物理、能源等领域，旨在构建一个可靠、丰富、平衡且具有代表性的科学知识来源。

为了微调开源LLM以形成QA生成器，研究人员从论文集合中随机选择426篇论文作为输入，通过提示GPT-4生成4260个种子QA对。

然后，研究人员在这些种子数据上微调了Vicuna-7b模型，生成提示被转换为指令<instruction>，论文内容填充输入<input>字段，输出<output>为生成的QA对

，以标准监督的方式训练模型生成实例输出。

使用经过训练的QA生成器在剩余论文上进行推理，共生成227,430个QA对（包括种子QA对）。从每个类别中抽取50篇论文（共1,200篇），使用GPT-4计算每个生成的QA对的RACAR分数，过滤掉任一维分数低于3的QA对作为测试集。

对于余下的QA对，则使用基于规则的方法过滤掉所有包含论文特有信息的问答对以形成训练集。

SciQAG-24D 基准数据集

基于以上，研究人员建立了开放式科学 QA 基准数据集 SciQAG-24D，筛选后的训练集包括 21,529 篇论文和 179,511 个 QA 对，而筛选后的测试集包含 1,199 篇论文和 8,531 个 QA 对。

统计显示，99.15%回答中的数据来自原论文，87.29%的问题相似度在0.3以下，且回答对原文内容的覆盖度达到78.26%。

该数据集应用广泛：训练集可用于微调 LLM，为其注入科学知识；测试集可⽤于评估LLM在某特定或整体科学领域中的开放式QA任务表现。由于测试集较大，因此它也可以作为高质量数据用于微调。

图示：SciQAG-24D数据集训练和测试中不同类别的文章比例。

实验结果

研究人员进行了全面的实验以对比不同语言模型之间的科学问答性能差异及探索微调的影响。

零样本设定（zero-shot setting)

研究人员使用 SciQAG-24D 中的部分测试集对五个模型进行了零样本性能对比。其中两个是开源的 LLM：LLaMA1 (7B) 和 LLaMA2-chat (7B)，其余的是闭源 LLM 。

通过API调用：GPT3.5 (gpt-3.5-turbo)、GPT-4 (gpt-4-1106-preview) 和 Claude 3 (claude-3-opus-20240229)。每个模型在测试中被提示了 1000 个问题，并通过 CAR 指标（由RACAR指标调整而来，只关注回答评估）评估其输出，以衡量其在回答科学研究问题方面的零样本能力。

如图所示，在所有模型中，GPT-4 在完备性（4.90）和合理性（4.99）方面得分最高，而 Claude 3 的准确性得分最高（4.95）。GPT-3.5 的表现也非常出色，在所有指标上的得分都紧随 GPT-4 和 Claude 3 之后。

值得注意的是，LLaMA1 在所有三个维度上的得分都最低。相比之下，LLaMA2-chat 模型虽然得分不如 GPT 模型高，但在所有指标上都比原来的 LLaMA1 有了大幅提高。结果表明了商用LLM在回答科学问题方面的卓越性能，同时开源模型（如 LLaMA2-chat）也在这个方面取得了显著进步。