sdecoret - stock.adobe.com

Qwen3-Omni : Alibaba mise sur une approche « tout-en-un » de la GenAI

Avec Qwen3-Omni, Alibaba compte bien prouver que son équipe Qwen peut maintenir le rythme face à Anthropic, OpenAI et les autres sur le terrain de la multimodalité. Le fournisseur cloud prévoit par ailleurs d’investir plus de 45 milliards d’euros sur trois ans dans ses infrastructures et l’IA.

En avril 2025, Alibaba avait lancé la collection Qwen 3, huit modèles de langage dont deux adoptant l’architecture Mixture of Experts.

Le fournisseur de cloud chinois présentait alors des modèles de raisonnement hybride. Avec Qwen3-Omni, il tente d’étendre son volet multimodal.

Cette notion renvoie à la capacité d’un modèle à traiter du texte, des images, des fichiers audio et vidéo en entrée. Idéalement, le MLM (Mutimodal Language Model) doit pouvoir générer des réponses sous plusieurs formes.

La plupart des MLM prennent en charge deux ou trois modalités en entrée, souvent deux. Les modèles « open weight » (Apache 2.0) Qwen3-Omni-30B-A3B, eux, supportent toutes celles décrites plus haut. Ils répliquent sous forme de texte et de voix en temps réel. Tout en raisonnant.

« Thinker Talker » : combiner un modèle de raisonnement et un module vocal dans une seule architecture

De loin, Qwen3-Omni s’apparente davantage à un système qu’à un modèle. Au total, il rassemble cinq composants neuronaux. C’est pourtant un seul MLM, une architecture « unifiée ». Le laboratoire de recherche chinois a nommé cette architecture « Thinker Talker ».

Selon ce principe, un LLM, le Thinker est consacré au raisonnement et à la génération de texte, tandis qu’un autre, le Talker, génère des pistes audio vocales. Pour ce faire, le Talker se sert des « représentations cachées » du Thinker pour produire des tokens audio. Les fonctions d’interprétation du langage, des images, des sons, des vidéos sont fonction d’encodeurs annexes.

 C’est une évolution de l’architecture soumise avec Qwen2.5 Omni. D’abord, les chercheurs ont opté pour l’approche Mixture of Experts pour les modèles Thinker et Talker. Au lieu d’employer l’algorithme speech to text Whisper d’OpenAI, ils ont développé un encodeur-décodeur maison, intitulé AuT (Audio Transformer). Celui-ci est doté de 650 millions de paramètres et a été entraîné sur 20 millions d’heures de fichiers audio, dont 80 % sont des enregistrements de voix en chinois et en anglais.

Pour générer des voix plus naturelles, les chercheurs s’appuient sur l’approche « multicodebook ». Ce système utilise plusieurs dictionnaires (codebooks) pour encoder les voix et les sons. Un premier codebook représente les caractéristiques principales d’une voix. Les suivants servent à ajouter des détails et des nuances.

Le modèle Talker génère un « cadre » qui constitue l’information de base pour un segment de parole. Des modules de prédiction multitoken (80 millions de paramètres) engendrent les différentes strates d’une voix.

Pour convertir les mots et les intonations en forme d’ondes audibles, Alibaba exploite un réseau de neurones convolutif, nommé Code2wav (200 millions de paramètres). Le tout est exécuté en parallèle. Qwen2.5 Omni n’utilisait qu’un codec monopiste et des blocs DiT (Diffusion Transformer). Ces changements permettraient de réduire la latence, d’améliorer la qualité sonore et l’efficacité des calculs. Enfin, les chercheurs ont baissé la qualité des entrées et des sorties à 12,5 Hz, afin de gagner en rapidité.

Les modèles de la collection Qwen3 Omni comprennent et génèrent des textes en 119 langues. Ils interprètent en charge 19 langues parlées et génèrent des réponses dans 10 langues, dont l’anglais, l’italien, le français, le chinois, ou encore le japonais. Ils peuvent traiter des fichiers audio de 30 à 40 minutes en entrée.

L’encodeur visuel Qwen3-VL, qui sert à déchiffrer les images et les vidéos en entrée, dispose de 543 millions de paramètres. Il est basé sur SigLIP2-So400m. Pour synchroniser les informations vidéo et audio, Alibaba s’appuie sur un mécanisme de position d’embedding rotatif nommé TM-Rope. Qwen3-VL gère ainsi les dimensions temporelles et spatiales en même temps que la position des mots.

Un cycle d’entraînement complexe

Ce système unifié n’est toutefois pas simple à entraîner. Il y a d’abord trois phases de pré-entraînement. Dans la première, les encodeurs audio et visuels sont entraînés séparément en les « attachant » à un LLM Qwen3 dont les paramètres ont été figés. Les « adapters » – les couches de réseaux de neurones servant d’interface entre les LLM et les encodeurs – sont entraînés en priorité. C’est ensuite au tour des encodeurs. Cette séparation éviterait que les encodeurs « compensent » les limitations des LLM figés.

Lors de la deuxième phase de pré-entraînement, Qwen3-Omni est soumis à environ 2 000 milliards de tokens (texte, audio, audiovisuel, image). Proportionnellement, les fichiers audio et vidéo sont plus nombreux que les documents textuels. Il s’agit là d’améliorer la compréhension des différentes modalités.

Au cours de la troisième phase, les chercheurs ont étendu la fenêtre de contexte de 8 000 à 32 000 tokens, tout en s’assurant d’ajouter davantage de fichiers audio et vidéo longs.

Le modèle Thinker a le droit à un post-entraînement en trois phases. Il s’agit de lui apprendre à suivre les instructions des utilisateurs. Le jeu de données s’appuie sur le format de structuration ChatML, pensé par OpenAI. Ici, le Thinker est soumis des conversations textuelles, vocales, visuelles et mixtes.

La première phase consiste en un apprentissage supervisé « léger ». Puis, les chercheurs réintroduisent la méthode de distillation des connaissances popularisées par DeepSeek. Ici, le travail est divisé en deux étapes intermédiaires. La première vise à produire des réponses avec un modèle enseignant. Lors de la seconde étape, le modèle étudiant génère des résultats qui sont validés à l’aide du modèle enseignant, jouant le rôle de LLM-as-a Judge.

La troisième phase n’est autre qu’un alignement « optimal » des réponses. Ici, des récompenses basées sur des règles sont utilisées pour les tâches vérifiables comme les mathématiques et la programmation. Pour les tâches visuelles et générales, Alibaba a opté pour des récompenses issues de LLM as a Judge (Qwen 3 et Qwen 2.5 VL).

Pour le modèle Talker, Alibaba se veut plus discret et décrit un processus en quatre phases. En premier lieu, il est exposé à des « centaines de millions de données vocales » contextualisées. S’en suit un pré-entraînement continu à l’aide de données de « haute qualité » en vue de réduire les hallucinations vocales. Petit à petit, les chercheurs ont allongé la longueur des contenus soumis à Qwen3-Omni. Un cycle d’optimisation directe des préférences (DPO) à partir d’échantillons multilingues a servi à renforcer la généralisation. Enfin, Alibaba a fine tuné son modèle sur des voix spécifiques pour proposer des résultats circonstanciés à un interlocuteur virtuel féminin ou masculin.

L’entraînement de Qwen3-Omni a réclamé la transcription d’un gros volume de fichiers audio. Pour automatiser cette tâche, les chercheurs ont fine-tuné Qwen3-Omni-30B-A3B avec des audiodescriptions. Le checkpoint qui en résulte, Qwen3-30B-A3B Captionner, est lui aussi « open weight ».

Les déclinaisons de Qwen3-Omni-30BA3B livreraient des scores supérieurs à GPT-4o Transcribe et Gemini 2.5 Pro dans 22 des 32 benchmarks passés par l’équipe d’Alibaba. Des résultats à prendre avec des pincettes.

S’ils n’ont pas été entraînés suivant les mêmes modalités, les composants Qwen3-Omni partageraient des représentations communes. « À notre connaissance, cela fournit la première preuve qu’un apprentissage multimodal entièrement intégré et de bout en bout peut être réalisé sans dégrader les capacités linguistiques fondamentales et d’autres modalités », écrivent les chercheurs.

Des axes d’amélioration déjà identifiés

C’est surtout un pied de nez à OpenAI. La startup derrière ChatGPT cherchait à faire peu ou prou la même chose avec GPT-5. Pour l’instant, OpenAI n’a pas réuni toutes les capacités multimodales dans un seul modèle. En matière de raisonnement, il s’appuie sur un routeur pour rediriger les requêtes suivant leur complexité. Ce sera normalement le cas avec sa prochaine collection de LLM.

L’équipe derrière les modèles Qwen compte poursuivre ses travaux en matière de reconnaissance vocale avec plusieurs intervenants, d’OCR vidéo, d’apprentissage audiovisuel et de prise en charge de capacités agentiques pour ses modèles multimodaux.

Qwen3-Omni n’est pas exempt de défauts. Il faudra améliorer la latence des réponses audio (234 millisecondes actuellement). Les intonations et le débit des voix sélectionnés par Alibaba ne sont pas adaptés à toutes les langues. Le mode « pensée » est lent, voire verbeux. Le fournisseur ne précise pas s’il a appliqué un effort de Red Teaming, et si oui, lequel. La démonstration disponible sur Hugging Face prouve néanmoins que les chercheurs ont réussi à effectuer tous les traitements en parallèle.

Infrastructure et IA : Alibaba Cloud investira plus de 45 milliards d’euros sur trois ans

Alibaba a d’autres outils dans sa besace. Outre une déclinaison « flash » de Qwen3-Omni, le lancement de Qwen3-VL sur Hugging Face, la mise à jour de Qwen3-Coder et Qwen3-Image-Edit, le fournisseur dévoile Qwen3-Max.

Ce modèle de raisonnement propriétaire affiche plus de 1 000 milliards de paramètres. Entraîné sur 36 000 milliards de tokens (!), il égalerait (ou surpasserait suivant les cas) GPT-5, Claude 4 et Grok 4. Qwen3-Max dispose d’une fenêtre de contexte de 1 million de tokens.

« Nous restons déterminés à ouvrir le code source de Qwen et à en faire le “système d’exploitation de l’ère de l’IA” […]. »
Eddie WuCEO, Alibaba Cloud Intelligence

Malgré ce LLM propriétaire, Alibaba Cloud entend conserver son engagement dans l’open source.

« Nous restons déterminés à ouvrir le code source de Qwen et à en faire le “système d’exploitation de l’ère de l’IA”, permettant ainsi aux développeurs du monde entier de créer des applications IA transformatrices », déclare Eddie Wu, CEO d’Alibaba Cloud Intelligence, dans un communiqué de presse.

Dans un même temps, il espère pouvoir convaincre les entreprises d’adopter ses « services d’IA » et ses infrastructures dédiées à « l’entraînement et à l’inférence de grands modèles d’IA ».

« Afin de souligner notre engagement à long terme en faveur du développement de l’IA, nous poursuivrons notre plan d’investissement de 380 milliards de yuans [45,5 milliards d’euros, N.D.L.R.] dans l’IA et l’infrastructure cloud au cours des trois prochaines années », ajoute Eddie Wu.

Pour rappel, Nvidia vient d’annoncer un effort de 100 milliards de dollars en faveur d’OpenAI. Il n’est toutefois pas évident que les entreprises européennes et américaines se tournent vers l’acteur chinois, hormis si elles ciblent les marchés asiatiques.

Pour approfondir sur IA appliquée, GenAI, IA infusée