DeepSeek 公布多模态模型技术报告

2026-04-30 发布浏览290次点赞0次收藏0次

感谢网友 Domado 的线索投递！

4 月 30 日消息，DeepSeek 在 GitHub 平台正式发布了其多模态大模型，并同步公开了配套技术报告。该报告提出了一种基于“视觉原语”的创新推理框架，旨在突破当前多模态大语言模型（MLLMs）在空间参照任务中的核心瓶颈。

技术报告指出，尽管多模态大语言模型近年来取得长足进步，但主流的链式思维（CoT）推理范式仍主要局限于语言学领域。现有研究多聚焦于通过高分辨率图像裁剪等技术手段弥合“感知鸿沟”，即提升模型对视觉细节的识别能力。然而，DeepSeek 团队认为，这一思路忽视了一个更为根本的限制：参照鸿沟。

自然语言固有的模糊性使其难以对复杂的空间布局提供精确、明确的指引。当模型需要执行涉及严谨空间参照的任务时，这种语言表达的局限性往往导致推理链条断裂，出现逻辑崩溃。

针对上述问题，DeepSeek 提出了“基于视觉原语的思考”（Thinking with Visual Primitives）框架。该框架将点、边界框等空间标记从单纯的视觉输入元素，提升为推理过程中的“基本思维单元”。通过将这些视觉原语直接嵌入模型的思考链路，DeepSeek 使模型在推理过程中具备了“指代”能力 —— 即能够将抽象的认知轨迹锚定到图像的具体物理坐标上，从而实现对空间关系的精确推演。

技术报告披露，该框架采用了高度优化的模型架构，具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低，DeepSeek 的多模态模型在具有挑战性的计数和空间推理基准测试上，能够与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。这为开发更高效、更具可扩展性的 System-2 类多模态智能指明了方向。

DeepSeek 公布多模态模型技术报告

注意到，DeepSeek 此前已经上线了“识图模式”，该模式和“快速模式”“专家模式”并列，并非简单的 OCR 文字，而是终于具备了多模态识别能力。

DeepSeek 多模态大模型 GPT 大模型 Claude 测试框架

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

DeepSeek 公布多模态模型技术报告

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。