Mistral宣佈發佈了一種名爲Voxtral的新音頻AI模型。 這家法國人工智能公司表示,該模型是針對企業的,被認爲是專注於音頻AI的大型語言模型(LLM)的第一個家庭。
根據法國AI公司的說法,Voxtral旨在在現實世界應用中提供實用的語音智能。 AI音頻模型的表現優於Whisper大V3,這是頂級開源音頻轉錄模型之一。
Voxtral由大語言模型(LLM)Mistral Small 3.1提供動力。音頻AI模型可以理解多種語言,例如英語,法語,西班牙語,葡萄牙語,意大利語,德語,荷蘭語,印地語等。
音頻模型能夠轉錄30分鐘的音頻。此外,Voxtral最多可以理解40分鐘的音頻,這使用戶可以輕鬆交談並提出相關問題。用戶還可以要求它生成音頻文件的文本摘要,或提供分析和詳細的見解。他們還可以執行其他操作,例如通過API調用運行功能。
Mistral提供了Voxtral的“語音理解模型”,這兩種變體稱爲Voxtral Small和Voxtral Mini。這兩種模型均能夠與基於語音的提示或音頻和基於文本的提示的組合進行交互。
在這兩種模型中,Voxtral Small中更強大的具有24B參數 - 用於生產規模部署的理想。 Mistral寫道:“ Voxtral Small在所有任務中都與GPT-4O-Mini和Gemini 2.5 Flash具有競爭力。”
Voxtral Mini是帶有3B參數的輕巧選擇,使其成爲本地和邊緣部署的tronG選擇。它的API版本,即Voxtral Mini Trentcribe,不僅具有成本效益,而且勝過Openai的耳語,價格不到一半的價格。
Voxtral Small(24b)和Voxtral Mini(3B)均可下載和從Hugging Face中進行本地託管。開發人員還可以通過單個API調用將音頻模型集成到任何應用程序中。定價爲每分鐘0.001美元,使轉錄可擴展。 在接下來的幾周內在Web應用程序或移動應用程序中的LE聊天中提供
Mistral是歐洲領先的人工智能公司之一。據報道,該公司成立於2023年,已從Andreessen Horowitz,Nvidia,Samsung和Salesforce等知名公司籌集了超過10億歐元(約12億美元)。
鑰匙差線有助於加密品牌突破並快速統治頭條