面壁智能 VoxCPM 1.5 语音生成 AI 模型开源:高采样音频克隆,生成效率翻倍

2025-12-10 发布 · 浏览15次 · 点赞0次 · 收藏0次

12 月 10 日消息,面壁智能今日官宣,VoxCPM 1.5 版本正式上线,在持续优化开发者开发体验的同时,也带来了多项核心能力升级。

VoxCPM 是一个 0.5B 参数尺寸的语音生成基座模型,于今年 9 月首次发布

附 VoxCPM 1.5 更新亮点:

  • 高采样音频克隆:AudioVAE 采样率从 16kHz 提升至 44.1kHz,模型可根据高质量音频,克隆效果更佳、细节更丰富的声音;

  • 生成效率翻倍:在模型参数有所增加的前提下,VoxCPM 1.5 仅需 6.25 个 token 即可生成 1 秒音频,较此前版本提高一倍,在保持速度的同时提升了音频生成质量;

  • 开发者友好:新增 LoRA 和全量微调脚本,支持深度定制;

  • 增强稳定性:减少音频伪影,优化长文本音频的生成效果。

目前,VoxCPM 1.5 模型已在 Github、Hugging Face 开源。

面壁智能 VoxCPM 1.5 语音生成 AI 模型开源:高采样音频克隆,生成效率翻倍 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。