苹果公司以开放词汇去理解图像的多模态大语言模型 Ferret
10月11日发表论文“Ferret: Refer And Ground Anything Any-Where At Any Granularity“,来自哥伦比亚大学和苹果公司。
Ferret,是一种多模态大语言模型(MLLM),能够理解图像中任何形状或粒度的空间引用,并准确地落地开放词汇的描述。 为了统一 LLM 范式中的引用和落地,Ferret 采用了一种混合区域表示,将离散坐标和连续特征联合集成在一起来表示图像中的区域。 为了提取多样(versatile)区域的连续特征,作者提出了一种空间-觉察的视觉采样器,其擅长处理包括不同形状的不同稀疏度。 因此,Ferret 可以接受不同的区域输入,例如点、边框和自由形状。 为了增强 Ferret 的期待功能,作者清洗出GRIT(Ground-and-Refer Instruction-Tuning),一个全面的引用和落地指令调优数据集,有 110 万个样本,包括丰富的分层空间知识,并具有 95K难的负数据以提高模型的鲁棒性。
为了评估,作者引入Ferret-Bench,涵盖三种新类型的任务:引用描述、引用推理和对话落地。 对现有 MLLM 进行了基准测试,发现 Ferret 的性能平均比其中最好的 MLLM 快 20.4%。 此外,Ferret 还展示了减轻目标幻觉的有趣特性。其不仅在经典的引用-和-落地任务性能出群,而且在基于区域和定位-需求的多模态聊天中也大大优于现有的 MLLM。
如图所示:Ferret在引用方面,用户可以引用点、框或任何自由形状的区域或目标。 输入中的 RegionN 在输入 LLM 之前将被混合表示替换。 在落地方面,Ferret 能够准确地落地任何开放词汇描述。 输出中的 boxN 表示预测的边框坐标。
下表是Ferret与最近集成了空间-觉察的 MLLM 进行比较。 “Convention”是指用模板转换的公开可用数据集合,“GPT-Generate”表示用 GPT 生成的引用/落地数据集,“Robustness”表示旨在减轻幻觉和提高稳健性的数据集。
如图是Ferret的模型架构。 (左图)提出的混合区域表示和空间-觉察视觉采样器。 (右图)整体模型架构。 除图像编码器之外的所有参数都是可训练的。
如图是Ferret 模型训练的 GRIT 数据集概述。 它包含三种类型的数据:(i) 转换为跟从指令格式的公共数据集(前 3 行); (ii)通过提示ChatGPT和GPT-4(第4行)生成的数据; (iii) 负样本数据以增强模型的稳健性(最后一行)。
近日,GPT-4向公众发布了其多模态大模型版本,命名为GPT-4V。 在微软对GPT-4V测试的技术报告中“The dawn of lmms: Preliminary explorations with gpt-4v(ision)“(Yang 2023),简要触及了 GPT-4V 的落地能力。 对于引用,GPT-4V 通过以下两种方式提示:(i)参考区域在图像中用红色圆圈/轮廓标记,提出问题去询问红色圆圈/轮廓中的区域。 (ii) 图像是不变的,但Ferret提供相关的图像大小和坐标来引用特定区域。 至于落地,Ferret 遵循(Yang2023)的提示,即“使用边框在图像中定位⟨class⟩。 图像大小为(宽度,高度)”。
正如所观察的,GPT-4V 能够通过图像中的彩色区域或文本中的坐标在一定程度上理解引用。 然而,与 Ferret 相比,GPT-4V 在涉及小区域时缺乏精确理解,例如摩托车中的“减震器(shock absorber)”,参见如图顶部的例子。
另一方面,GPT-4V 更具有常识性,例如,它进一步强调排气管( exhaust pipe)可以降低噪音,这一细微差别可能归因于 GPT-4 增强的语言能力。 关于落地,Ferret用验证码测试了 GPT-4V,这一任务在 (Yang 2023)中也提到过。 在交通灯示例中,Ferret 擅长准确识别大多数交通灯,即使在杂乱的场景中也是如此,如上图底部示例所示。
话虽如此,在一般问答领域,GPT-4V 的表现尤其令人印象深刻。 它不仅可以巧妙地管理最初的问题,还可以处理与特定区域相关的后续询问,并提供深入的答案。 尽管如此,Ferret 尤其在需要精确的落地边框时表现出色,并且适合在较小区域内需要精确定位的应用。 这正是 Ferret 填补空白的地方。
编辑:黄浴
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。