Mistral发布开源TTS模型Voxtral,号称超越ElevenLabs
Available in: 中文
Mistral AI发布了Voxtral TTS,首个专为 enterprise 设计的前沿级开源权重文本转语音模型,让企业在不依赖专有API的情况下完全掌控语音AI。
Mistral以开源权重TTS挑战ElevenLabs
Mistral AI发布了Voxtral TTS,首个专为 enterprise 设计的前沿级开源权重文本转语音模型,让企业在不依赖专有API的情况下完全掌控语音AI。
产品特性
Voxtral TTS是一个30亿参数模型,可在笔记本电脑上运行,速度比实时语音快6倍。架构包含三个组件:
- 34亿参数transformer解码器(基于Ministral 3B)
- 3.9亿参数流匹配声学transformer
- 3亿参数神经音频编解码器(自研)
市场背景
2026年全球语音AI市场规模突破220亿美元,语音AI Agent 预计到2034年将达475亿美元。主要竞争对手包括:
- ElevenLabs + IBM — 刚宣布watsonx合作
- Google Cloud — 扩展Chirp 3 HD语音
- OpenAI — 持续迭代语音合成
开源权重优势
所有主要竞争对手都采用专有API模式,而Mistral发布完整模型权重。企业可自行部署,无需向第三方发送任何音频数据。
Mistral的企业战略
估值138亿美元的Mistral正在构建完整的企业自主AI技术栈:
- Forge — 模型定制平台(Nvidia GTC发布)
- AI Studio — 生产基础设施
- Voxtral Transcribe — 语音转文本(数周前发布)
- Voxtral TTS — 完成端到端语音流水线
Mistral科学副总裁Pierre Stock表示:"我们认为音频是重大赌注,是所有AI模型未来关键甚至唯一的交互界面。"
意义何在
前沿级开源TTS为有严格数据主权要求的企业(医疗、金融、国防)打开了语音AI的大门——这些场景下向第三方API发送音频数据并不可行。
← Previous: China Unveils Next-Generation Robotic Wolf Pack for Urban WarfareNext: Zero Run A10 Launches at 65,800 Yuan, Redefining EV Price Floor in China →
0