OpenAI : de nouveaux modèles audios pour les services clients

L’éditeur d’IA générative enrichit son offre avec une nouvelle suite de modèles vocaux dérivés de GPT-4o et GPT-4o-mini. Objectif : automatiser les interactions en centre de contact et affiner le ton des agents virtuels.

par

Esther Shittu, News Writer
Philippe Ducellier, Rédacteur en chef adjoint

Publié le: 25 mars 2025

OpenAI sort une série de nouveaux modèles audio dédiés aux professionnels, et plus particulièrement aux services clients.

Dérivés de GPT-4o et GPT-4o-mini, ces modèles concernent la reconnaissance vocale (speech-to-text) et la synthèse vocale (text-to-speech) de l’API Realtime. L’éditeur a également introduit gpt-4o-transcribe et gpt-4o-mini-transcribe, des modèles qui (dixit OpenAI) auront un taux d’erreur inférieur aux précédents outils de transcription.

Les nouveaux outils auraient par ailleurs une meilleure compréhension des nuances et des fluctuations de la voix.

Côté synthèse vocale, OpenAI lance gpt-4o-mini TTS (text-to-speech) qui permet aux développeurs de contrôler le contenu du discours, mais aussi son intonation et son style.

Des voix adaptées au contexte

Selon OpenAI, ces nouveaux modèles permettent de mieux coller à un contexte. Par exemple, un développeur peut configurer un agent vocal pour qu’il adopte l’attitude d’un conseiller clientèle empathique.

« Le service client est l’un des cas d’usage de l’IA qui connaît la plus forte croissance en entreprise. »

Arun ChandrasekaranAnalyste, Gartner

L’éditeur cible à la fois le B2C et une petite partie du B2B, explique Arun Chandrasekaran, analyste chez Gartner. Certains « tons » intéresseront plus particulièrement les entreprises (les voix plus neutres comme « Professionnel » ou « Calme »).

Ces « personas » permettront par exemple de mieux gérer les échanges les plus houleux avec des clients mécontents. « Le service client est l’un des cas d’usage de l’IA qui connaît la plus forte croissance en entreprise », ajoute Arun Chandrasekaran. « Il n’est donc pas surprenant que tous les acteurs cherchent à s’y adapter pour capter cette manne. »

L’IA au service des centres de contact

Ces nouveaux modèles pourraient réduire le nombre d’agents humains nécessaires pour traiter chaque interaction et accélérer l’automatisation des systèmes de réponse vocale interactive (IVR), estime pour sa part William McKeon-White, analyste chez Forrester.

« Nous avons déjà vu ces technologies être adoptées par plusieurs entreprises qui les intègrent dans leurs propres solutions, et les résultats sont très encourageants », observe-t-il. « Le fait que ces modèles vocaux soient intégrés nativement dans l’offre OpenAI est un vrai avantage pour les entreprises qui jonglent avec de nombreux modèles différents. »

En plus de l’anglais, OpenAI cible particulièrement des langues comme l’espagnol et le français.

Un marché très concurrentiel

Malgré ces avancées, des défis restent à relever. William McKeon-White souligne notamment que les modèles vocaux peinent souvent à bien interpréter les acronymes.

OpenAI doit aussi faire face à une concurrence féroce. Certains éditeurs spécialisés (Sierra AI) se concentrent sur le service client et affinent leurs modèles pour ces cas précis. OpenAI, de son côté, développe de nombreux modèles pour des usages plus variés, compare Arun Chandrasekaran.

Autre défi : les acteurs historiques des centres de contact, comme Genesys, intègrent déjà des solutions d’IA avancées dans leurs offres. Ce faisant, « tous ces éditeurs deviennent des concurrents directs d’OpenAI », estime l’analyste de Gartner.

Enfin, si OpenAI met à disposition des API intéressantes pour créer des applications sur mesure, encore faut-il avoir l’équipe capable de les exploiter, met en garde William McKeon-White.

« La plupart des entreprises ne sont pas prêtes à consommer directement des API telles quelles pour bâtir un système complet », constate-t-il. « Il faut des logiques métier, des intégrations avec les outils existants et une véritable stratégie pour que tout fonctionne », prévient-il.

OpenAI : de nouveaux modèles audios pour les services clients

L’éditeur d’IA générative enrichit son offre avec une nouvelle suite de modèles vocaux dérivés de GPT-4o et GPT-4o-mini. Objectif : automatiser les interactions en centre de contact et affiner le ton des agents virtuels.

Des voix adaptées au contexte

L’IA au service des centres de contact

Un marché très concurrentiel

Pour approfondir sur Gestion de la relation client (CRM)

Pour récupérer des GPU, OpenAI débranchera GPT-4.5 et le remplace par GPT-4.1

Command A : Cohere réduit lui aussi l’empreinte GPU de ses LLM

Mistral AI tente de faire bouger les lignes de l’OCR

GPT-4.5 : un mastodonte sans avenir chez OpenAI