AI 中文社区

Qwen-Audio-3.0-ASR-Flash 主要在上下文一致性、行业词识别和热词定制化三个维度做了系统性的优化，同时让模型具备语音润色能力，可直接输出结构化文本。...

2026-07-31 · 浏览26次

在覆盖八大方言区的 16 种方言识别测试中，Fun-ASR-Realtime 字符准确率平均为 88.62%，在 12 类方言上领先。...

2026-07-06 · 浏览175次

阶跃星辰 StepAudio 2.5 ASR 将大语言模型推理加速技术引入语音识别，实现 400% 速度提升与 60% 时延降低，并支持 30 分钟长音频端到端转写，无需分段。新模型定价仅 0.15 元 / 小时，为前代 1/10。#AI ...

2026-04-24 · 浏览349次

阿里千问团队正式开源Qwen3-ASR系列语音识别模型，包括1.7B和0.6B两个版本，支持52种语种与方言的识别，其中1.7B模型在中文、英文及歌唱识别等场景达到SOTA水平。0.6B模型效率惊人，10秒可处理5小时音频。模型已在GitH...

2026-01-30 · 浏览551次

模型推理能力提升，通过深度理解上下文完成精准识别，上下文整体关键词召回率提升 20%；支持多模态视觉识别，不仅“听懂字”还能“看懂图”，通过单图和多图等视觉信息输入让文字识别更精准；支持日语、韩语、德语、法语等 13 种海外语种的精准识别。...

2025-12-05 · 浏览395次

Meta推出全语种自动语音识别系统（Omnilingual ASR），支持1600种语言，其中500种首次被AI覆盖。该系统采用开源协议，助力跨语言沟通与信息可及性。#人工智能# #语音识别#...

2025-11-11 · 浏览454次

该中心首任主任乔纳森·伯奇教授表示，尽管能理解宠物想表达什么听起来令人兴奋，但AI往往倾向于生成讨好用户而非反映真实意图的回答。“如果这项技术被应用于动物福利领域，可能会带来灾难性后果。”...

2025-07-14 · 浏览388次

这一名为MR BreezeASR 25的模型以 Apache 2.0 许可开源公布，不会出现将“发生什么事”听成“花生什么事”等类似识别错误。...

2025-07-03 · 浏览487次

2024年已开始，AI热度不减，以下是几个截止目前比较优秀的开源语音识别引擎。...

2024-01-09 · 浏览7319次