火山引擎发布豆包音频生成模型 1.0，支持多模态参考生成与长时音色一致性

2026-06-24 发布浏览205次点赞0次收藏0次

感谢网友龙爪槐守望者的线索投递！

6 月 24 日消息，昨天火山引擎正式发布了豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），首次支持参考生成：把文本、音频任一模态作为输入，可以端到端生成目标音频。并且，它能在长时生成场景中保持多角色音色的一致性，大幅减少后期修音工作。

借由豆包音频生成模型 1.0，还可以在单条 Prompt 中编排角色对白、情绪语气、背景音乐、环境氛围等，直接产出具备叙事张力的完整音频作品，改变了过往人声、音效、音乐单独制作再合成剪辑的传统工作流。

火山方舟已开启豆包音频生成模型 1.0 API 邀测，个人用户可以在火山方舟体验中心直接体验，享有 30 分钟的创作额度。面向音频创作者，豆包音频生成模型 1.0 也即将上线剪映、即梦、番茄等产品。

附官方详细介绍如下：

影视级音频创作：全要素生成，告别人工剪辑

过去，一段成片级音频作品意味着对白、音效、配乐等逐条生成、手动对齐、多轨混音，流程繁琐且高度依赖后期技术能力。豆包音频生成模型 1.0 将这一切压缩进一条 Prompt，直接产出具备完整叙事感的成片级音频，省去多轨剪辑、对齐、混音的全部后期工作：

多角色对白：在单条指令中同时定义多个角色的台词、语气和情绪节奏，并保持不同角色的声音一致性。

非语言表达嵌入：笑声、叹息、停顿、方言口音等细节直接写入 Prompt，模型精准还原，让对话充满生命力。

音乐音效一体化：背景音乐、环境音效与人声统一生成，无需额外混编，输出即成品。

一位创作者敲下一段描述，就能收到一段可以直接上线的有声剧、播客节目或品牌音频 —— 这就是从“单句工具”到“音频导演”的跃迁。

长时音色一致性：音频延长，无“串戏”烦恼

长音频创作中，最令创作者头疼的问题从来不是单句质量，而是一致性 —— 角色在第 1 分钟和第 10 分钟听起来是否像同一个人。

对此，豆包音频生成模型 1.0 实现了文生音频与参考音频的深度联动在长音频中保持音色高度统一。创作者不再需要逐段比对、反复修音。前后一致的角色声音，由模型一次性交付，进一步满足了有声书、播客、长剧集等长程生成场景的需求。

当前，豆包音频生成模型 1.0 一次支持 2 分钟的音频创作，以此作为参考输入延长音频，可以在多次音频延长中保持音色的高度一致，实现音色可控。

0 样本多模态音频创造：一切皆可生音频

豆包音频生成模型 1.0 支持文本描述、参考音频等多模态输入，无需额外训练，即可端到端生成高质量目标音频。创作者既可以通过一句文本 prompt 直接定义角色音色与表达风格，也可以结合参考音频快速生成贴合需求的声音效果，大幅降低声音创作门槛。

在 0 样本生成之外，豆包音频生成模型 1.0 还进一步实现了音色与风格的解耦控制。同一音色可以适配不同情绪、语境和表达场景，生成多样化的声音表现；同时，模型还支持“一声多角”的独特能力，让同一个声音在不同角色设定下呈现出差异化表达，显著提升了角色配音、剧情演绎和创意音频生产的灵活性。

豆包音频生成模型火山引擎字节跳动体验 Doubao Seed C

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！