ASR、TTS、Chat均为第一,阿里语音大模型拿下“大满贯”
来源: 紫牛新闻
2026-05-28 13:24:00
5月28日,在全球权威 AI 评测平台 Artificial Analysis的语音排行榜(Speech Arena)上,阿里巴巴语音大模型Fun-Realtime-TTS-Preview 以 1190 分的 Elo 评分位列全球第五、国产第一。
语音大模型的能力可以拆解为三个层次:听得准(ASR,将语音转为文字)、说得好(TTS,将文字转为语音)和聊得棒(Chat,端到端的语音理解与对话)。三者各自独立又相互依赖,共同构成了完整的语音交互体验。一周前,Fun-Realtime-ASR和Fun-Realtime-AudioChat刚刚在Artificial Analysis登顶,超越GPT-Realtime-2等国际顶尖模型,在词错误率、语音推理和对话流畅度三项指标上斩获全球第一。最新的榜单补齐了最后一块拼图,至此,在ASR、Chat以及TTS三个赛道,阿里的语音大模型拿下“大满贯”。
三款模型背后的技术栈不仅应用于阿里生态产品如千问 App、高德地图和钉钉,还服务于汽车、教育、智能硬件等多个行业。此外,阿里语音团队开源的多款模型如FunASR、CosyVoice在GitHub 上累计获得了数万星标,深受海内外开发者关注。
玉蕾 小风