Mistral宣布发布了一种名为Voxtral的新音频AI模型。 这家法国人工智能公司表示,该模型是针对企业的,被认为是专注于音频AI的大型语言模型(LLM)的第一个家庭。
根据法国AI公司的说法,Voxtral旨在在现实世界应用中提供实用的语音智能。 AI音频模型的表现优于Whisper大V3,这是顶级开源音频转录模型之一。
Voxtral由大语言模型(LLM)Mistral Small 3.1提供动力。音频AI模型可以理解多种语言,例如英语,法语,西班牙语,葡萄牙语,意大利语,德语,荷兰语,印地语等。
音频模型能够转录30分钟的音频。此外,Voxtral最多可以理解40分钟的音频,这使用户可以轻松交谈并提出相关问题。用户还可以要求它生成音频文件的文本摘要,或提供分析和详细的见解。他们还可以执行其他操作,例如通过API调用运行功能。
Mistral提供了Voxtral的“语音理解模型”,这两种变体称为Voxtral Small和Voxtral Mini。这两种模型均能够与基于语音的提示或音频和基于文本的提示的组合进行交互。
在这两种模型中,Voxtral Small中更强大的具有24B参数 - 用于生产规模部署的理想。 Mistral写道:“ Voxtral Small在所有任务中都与GPT-4O-Mini和Gemini 2.5 Flash具有竞争力。”
Voxtral Mini是带有3B参数的轻巧选择,使其成为本地和边缘部署的tronG选择。它的API版本,即Voxtral Mini Trentcribe,不仅具有成本效益,而且胜过Openai的耳语,价格不到一半的价格。
Voxtral Small(24b)和Voxtral Mini(3B)均可下载和从Hugging Face中进行本地托管。开发人员还可以通过单个API调用将音频模型集成到任何应用程序中。定价为每分钟0.001美元,使转录可扩展。 在接下来的几周内在Web应用程序或移动应用程序中的LE聊天中提供
Mistral是欧洲领先的人工智能公司之一。据报道,该公司成立于2023年,已从Andreessen Horowitz,Nvidia,Samsung和Salesforce等知名公司筹集了超过10亿欧元(约12亿美元)。
2025年DeFi赚取被动收入的新方法。了解更多