字节 Seed 开源 UI-TARS-1.5：基于视觉-语言模型构建的多模态智能体

2025-04-18 发布浏览655次点赞0次收藏0次

4 月 18 日消息，从豆包大模型团队获悉，UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。

有关的链接如下：

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS，通过强化学习进一步增强了模型的高阶推理能力，使模型能够在“行动”前先进行“思考”。

该版本的模型中，团队还展示了一个新的愿景：以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比，游戏更多依赖直观的、常识性的推理，并较少依赖专业知识，因此，游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍，UI-TARS 是一个原生 GUI 智能体，具备真实操作电脑和手机系统的能力，同时，还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作，基于团队在四个维度的技术探索：

字节跳动人工智能智能体测试大模型理想

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！