微软发布 Phi-4-Reasoning-Vision-15B 开源模型,能自主决定何时思考的小型多模态 AI

2026-03-05 发布 · 浏览17次 · 点赞0次 · 收藏0次
感谢网友 不一样的体验 的线索投递!

3 月 5 日消息,据微软官方开发者社区博客今日消息,微软发布了一款 Phi-4-Reasoning-Vision-15B 模型,这是一款视觉推理模型。

它结合了高分辨率视觉感知与选择性、任务感知的推理,使其成为 Phi-4 系列中首个同时实现“看得清楚”和“想得深入”的小语言模型(SLM)

传统的视觉模型仅执行被动的感知 —— 识别图像中“有什么”。Phi-4-Reasoning-Vision-15B 更进一步,执行结构化、多步骤的推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可操作的结论。这使开发者能够构建从图表分析到 GUI 自动化的智能应用。

该模型最关键的设计特征是其混合推理行为。它可以根据提示在“推理模式”和“非推理模式”之间切换:

  • 当需要深度推理时(例如数学问题、逻辑分析)→ 启用多步推理链

  • 当快速感知足够时(例如,OCR、元素定位)→ 直接输出以降低延迟

该模型最重要的应用领域之一,就是搭配计算机智能体使用。模型接收一个屏幕截图和自然语言指令后,可输出目标 UI 元素的标准化边界框坐标,其他智能体模型可以执行点击、滚动和其他交互。

以下是 Phi-4-Reasoning-Vision-15B 与其他模型在关键任务上的性能对比:

非推理模式

▲ 非推理模式

推理模式

▲ 推理模式

附开源地址如下:

https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B

微软发布 Phi-4-Reasoning-Vision-15B 开源模型,能自主决定何时思考的小型多模态 AI - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。