psdesign1 - Fotolia

Mistral AI lance sa nouvelle génération de modèles de transcription vocale

Voxtral Transcribe 2 est la nouvelle famille de modèles de reconnaissance vocale de Mistral. L’offre se décline en une version batch et une version temps réel, publiée en open weights sous licence Apache 2.0.

par

Philippe Ducellier, Rédacteur en chef adjoint

Publié le: 05 févr. 2026

Mistral AI enrichit son portefeuille de modèles audio avec Voxtral Transcribe 2. Cette nouvelle génération de solutions de speech-to-text à base d’intelligence artificielle cible les usages par batch (un fichier audio uploadé et retranscrit en différé) et en temps réel.

Voxtral Mini Transcribe et Voxtral Realtime

La famille comprend deux modèles : Voxtral Mini Transcribe V2, conçu pour la transcription de fichiers audio, et Voxtral Realtime, orienté vers les interfaces utilisateurs qui nécessitant une latence réduite. La latence est configurable jusqu’à un seuil inférieur à 200 millisecondes, pour répondre par exemple aux besoins d’agents vocaux ou de sous-titrage en direct.

Voxtral Mini Transcribe V2 vise pour sa part des traitements hors ligne, avec des fonctionnalités plus destinées aux environnements professionnels.

Le modèle intègre la diarisation des locuteurs, des horodatages jusqu’au niveau du mot et un mécanisme de « context biasing » pour ajouter un lexique (acronymes, vocabulaire métier, etc.) et améliorer la transcription.

Les deux modèles prennent en charge le français, mais aussi douze autres langues parmi lesquelles l’anglais, l’espagnol ou l’allemand.

Mistral AI revendique également une amélioration dans la manière de faire abstraction des bruits parasites. L’outil peut par ailleurs traiter des enregistrements longs : jusqu’à trois heures pour la version batch.

Voxtral Realtime open-weight, les deux déployables sur site

Voxtral Realtime est publié en open weights sous licence Apache 2.0 sur la plateforme Hugging Face.

Les deux modèles peuvent être déployés sur des infrastructures locales, en cloud privé voire en edge. Pour Mistral, cette option est importante du fait qu’elle permet de répondre aux contraintes de forte confidentialité et de respecter les exigences réglementaires comme le RGPD ou le Health Insurance Portability and Accountability Act.

Les deux modèles sont également proposés via API, avec une tarification distincte pour la transcription différée et le temps réel : 0,003 dollar par minute pour Voxtral Mini Transcribe, et 0,006 dollar pour Voxtral Realtime. Mistral AI met à disposition un espace de test dans Mistral Studio. Moins orienté dév, ces capacités de retranscription sont également accessibles via Le Chat.

L’éditeur cible plusieurs cas d’usage professionnels, qui vont de la transcription de réunions multilingues à l’automatisation des centres de contact.

De meilleures performances que GPT4 ou Assembly

Mistral AI affirme que son modèle surpasserait, en précision de transcription, des solutions comme GPT-4o mini Transcribe, Gemini 2,5 Flash ou Assembly Universal.

Il revendique un coût par minute inférieur et des temps de traitement plus rapides que ceux de certains acteurs spécialisés, dont ElevenLabs.

Aucun benchmark n’est détaillé pour le modèle Voxtral Realtime.

Mistral AI lance sa nouvelle génération de modèles de transcription vocale

Voxtral Transcribe 2 est la nouvelle famille de modèles de reconnaissance vocale de Mistral. L’offre se décline en une version batch et une version temps réel, publiée en open weights sous licence Apache 2.0.

Voxtral Mini Transcribe et Voxtral Realtime

Voxtral Realtime open-weight, les deux déployables sur site

De meilleures performances que GPT4 ou Assembly

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM

Moment Labs : « AWS est autant un facilitateur de business qu’un fournisseur d’IT »

Le « petit OVH suisse » sort un ChatGPT souverain grâce à l’open weight

Amazon Nova 2 : quatre LLM multimodaux pour rattraper Google Cloud

Mistral AI veut séduire les grands groupes avec Le Chat Enterprise