OpenAI sort une série de nouveaux modèles audio dédiés aux professionnels, et plus particulièrement aux services clients.

Dérivés de GPT-4o et GPT-4o-mini, ces modèles concernent la reconnaissance vocale (speech-to-text) et la synthèse vocale (text-to-speech) de l’API Realtime. L’éditeur a également introduit gpt-4o-transcribe et gpt-4o-mini-transcribe, des modèles qui (dixit OpenAI) auront un taux d’erreur inférieur aux précédents outils de transcription.

Les nouveaux outils auraient par ailleurs une meilleure compréhension des nuances et des fluctuations de la voix.

Côté synthèse vocale, OpenAI lance gpt-4o-mini TTS (text-to-speech) qui permet aux développeurs de contrôler le contenu du discours, mais aussi son intonation et son style.

Des voix adaptées au contexte Selon OpenAI, ces nouveaux modèles permettent de mieux coller à un contexte. Par exemple, un développeur peut configurer un agent vocal pour qu’il adopte l’attitude d’un conseiller clientèle empathique. « Le service client est l’un des cas d’usage de l’IA qui connaît la plus forte croissance en entreprise. » Arun ChandrasekaranAnalyste, Gartner L’éditeur cible à la fois le B2C et une petite partie du B2B, explique Arun Chandrasekaran, analyste chez Gartner. Certains « tons » intéresseront plus particulièrement les entreprises (les voix plus neutres comme « Professionnel » ou « Calme »). Ces « personas » permettront par exemple de mieux gérer les échanges les plus houleux avec des clients mécontents. « Le service client est l’un des cas d’usage de l’IA qui connaît la plus forte croissance en entreprise », ajoute Arun Chandrasekaran. « Il n’est donc pas surprenant que tous les acteurs cherchent à s’y adapter pour capter cette manne. »

L’IA au service des centres de contact Ces nouveaux modèles pourraient réduire le nombre d’agents humains nécessaires pour traiter chaque interaction et accélérer l’automatisation des systèmes de réponse vocale interactive (IVR), estime pour sa part William McKeon-White, analyste chez Forrester. « Nous avons déjà vu ces technologies être adoptées par plusieurs entreprises qui les intègrent dans leurs propres solutions, et les résultats sont très encourageants », observe-t-il. « Le fait que ces modèles vocaux soient intégrés nativement dans l’offre OpenAI est un vrai avantage pour les entreprises qui jonglent avec de nombreux modèles différents. » En plus de l’anglais, OpenAI cible particulièrement des langues comme l’espagnol et le français.