阿里云通义千问开源 Qwen3-VL-30B-A3B 模型：智能体任务等领域媲美 GPT-5-Mini

2025-10-04 发布 · 浏览858次 · 点赞0次 · 收藏0次

感谢网友软媒用户389454 的线索投递！

10 月 4 日消息，阿里云通义千问今日宣布开源 Qwen3-VL-30B-A3B-Instruct 与 Thinking 模型，并同步推出 FP8 版本以及超大规模模型 Qwen3-VL-235B-A22B 的 FP8 版本。

官方表示，Qwen3-VL-30B-A3B-Instruct 与 Thinking 体积更小，性能依旧强劲，更实现集 Qwen3-VL 全部能力于一身。仅需 30 亿激活参数，即可在 STEM、视觉问答（VQA）、光学字符识别（OCR）、视频理解、智能体（Agent）任务等多个领域媲美 GPT-5-Mini 和 Claude4-Sonnet，甚至表现更优。

阿里云通义千问开源 Qwen3-VL-30B-A3B 模型：智能体任务等领域媲美 GPT-5-Mini

该模型可在魔搭社区、Hugging Face 免费下载，并已同步上线 Qwen Chat。

以 Qwen3-VL-30B-A3B-Instruct 为例，官方介绍大意如下：

通义千问 3-VL—— 通义千问系列迄今为止最强大的视觉语言模型。
这一代产品在各个方面都进行了全面升级：更卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更强的空间和视频动态理解能力，以及更强大的 Agent 交互能力。
提供从边缘到云端可扩展的密集和 MoE 架构，以及用于灵活、按需部署的 Instruct 和推理增强型 Thinking 版本。
主要增强功能：
视觉代理：操作 PC / 移动端图形用户界面 — 识别元素、理解功能、调用工具、完成任务。
视觉编码增强：从图像 / 视频生成 Draw.io/ HTML / CSS / JS。
高级空间感知：判断对象位置、视角和遮挡；提供更强的 2D 基础，并为空间推理和具身人工智能实现 3D 基础。
长上下文与视频理解：原生 256K 上下文，可扩展至 1M；能够处理书籍和数小时长的视频，具有完整回忆和秒级索引功能。
增强的多模态推理：在 STEM / 数学领域表现出色 —— 能够进行因果分析和提供基于逻辑与证据的答案。
升级的视觉识别：通过更广泛、更高质量的预训练，能够 " 识别一切 "—— 名人、动漫、产品、地标、动植物等。
扩展的 OCR 功能：支持 32 种语言（此前为 19 种）；在低光、模糊和倾斜情况下表现稳健；更好地处理罕见 / 古文字和专业术语；改进了长文档结构解析。
与纯 LLMs 相当的文本理解能力：无缝的文本-视觉融合，实现无损、统一的理解。