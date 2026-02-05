Mistral AI enrichit son portefeuille de modèles audio avec Voxtral Transcribe 2. Cette nouvelle génération de solutions de speech-to-text à base d’intelligence artificielle cible les usages par batch (un fichier audio uploadé et retranscrit en différé) et en temps réel.

Voxtral Mini Transcribe et Voxtral Realtime

La famille comprend deux modèles : Voxtral Mini Transcribe V2, conçu pour la transcription de fichiers audio, et Voxtral Realtime, orienté vers les interfaces utilisateurs qui nécessitant une latence réduite. La latence est configurable jusqu’à un seuil inférieur à 200 millisecondes, pour répondre par exemple aux besoins d’agents vocaux ou de sous-titrage en direct.

Voxtral Mini Transcribe V2 vise pour sa part des traitements hors ligne, avec des fonctionnalités plus destinées aux environnements professionnels.

Le modèle intègre la diarisation des locuteurs, des horodatages jusqu’au niveau du mot et un mécanisme de « context biasing » pour ajouter un lexique (acronymes, vocabulaire métier, etc.) et améliorer la transcription.

Les deux modèles prennent en charge le français, mais aussi douze autres langues parmi lesquelles l’anglais, l’espagnol ou l’allemand.

Mistral AI revendique également une amélioration dans la manière de faire abstraction des bruits parasites. L’outil peut par ailleurs traiter des enregistrements longs : jusqu’à trois heures pour la version batch.