psdesign1 - Fotolia
Mistral AI lance sa nouvelle génération de modèles de transcription vocale
Voxtral Transcribe 2 est la nouvelle famille de modèles de reconnaissance vocale de Mistral. L’offre se décline en une version batch et une version temps réel, publiée en open weights sous licence Apache 2.0.
Mistral AI enrichit son portefeuille de modèles audio avec Voxtral Transcribe 2. Cette nouvelle génération de solutions de speech-to-text à base d’intelligence artificielle cible les usages par batch (un fichier audio uploadé et retranscrit en différé) et en temps réel.
Voxtral Mini Transcribe et Voxtral Realtime
La famille comprend deux modèles : Voxtral Mini Transcribe V2, conçu pour la transcription de fichiers audio, et Voxtral Realtime, orienté vers les interfaces utilisateurs qui nécessitant une latence réduite. La latence est configurable jusqu’à un seuil inférieur à 200 millisecondes, pour répondre par exemple aux besoins d’agents vocaux ou de sous-titrage en direct.
Voxtral Mini Transcribe V2 vise pour sa part des traitements hors ligne, avec des fonctionnalités plus destinées aux environnements professionnels.
Le modèle intègre la diarisation des locuteurs, des horodatages jusqu’au niveau du mot et un mécanisme de « context biasing » pour ajouter un lexique (acronymes, vocabulaire métier, etc.) et améliorer la transcription.
Les deux modèles prennent en charge le français, mais aussi douze autres langues parmi lesquelles l’anglais, l’espagnol ou l’allemand.
Mistral AI revendique également une amélioration dans la manière de faire abstraction des bruits parasites. L’outil peut par ailleurs traiter des enregistrements longs : jusqu’à trois heures pour la version batch.
Voxtral Realtime open-weight, les deux déployables sur site
Voxtral Realtime est publié en open weights sous licence Apache 2.0 sur la plateforme Hugging Face.
Les deux modèles peuvent être déployés sur des infrastructures locales, en cloud privé voire en edge. Pour Mistral, cette option est importante du fait qu’elle permet de répondre aux contraintes de forte confidentialité et de respecter les exigences réglementaires comme le RGPD ou le Health Insurance Portability and Accountability Act.
Les deux modèles sont également proposés via API, avec une tarification distincte pour la transcription différée et le temps réel : 0,003 dollar par minute pour Voxtral Mini Transcribe, et 0,006 dollar pour Voxtral Realtime. Mistral AI met à disposition un espace de test dans Mistral Studio. Moins orienté dév, ces capacités de retranscription sont également accessibles via Le Chat.
L’éditeur cible plusieurs cas d’usage professionnels, qui vont de la transcription de réunions multilingues à l’automatisation des centres de contact.
De meilleures performances que GPT4 ou Assembly
Mistral AI affirme que son modèle surpasserait, en précision de transcription, des solutions comme GPT-4o mini Transcribe, Gemini 2,5 Flash ou Assembly Universal.
Il revendique un coût par minute inférieur et des temps de traitement plus rapides que ceux de certains acteurs spécialisés, dont ElevenLabs.
Aucun benchmark n’est détaillé pour le modèle Voxtral Realtime.
