Cet article fait partie de notre guide: NLP : des attentes fortes, une réalité contrastée

NLP : l'avenir des assistants vocaux passera par la vraie conversation

Pour que les assistants vocaux soient à la hauteur des attentes qu'ils suscitent, ils vont devoir s'améliorer pour échanger avec l'utilisateur et pas simplement comprendre une seule phrase. Mais s'ils y arrivent, un autre problème pourrait surgir.

En l'espace de quelques années, les interfaces conversationnelles sont devenues très populaires. Mais il reste des points sur lesquels la technologie doit se développer pour que l'avenir des assistants vocaux concrétise le potentiel que l'on aperçoit aujourd'hui.

Certains appellent ce type d'appareils des « enceintes intelligentes ». Mais le meilleur terme est « assistants vocaux », dans la mesure où il définit plus précisément qu'il s'agit d'interfaces jumelées à des backend cloud où réside en grande partie l'intelligence du dispositif.

Les assistants vocaux, comme Amazon Alexa, Google Assistant (Google Home), Siri, Microsoft Cortana, Samsung Bixby et un nombre croissant de nouveaux venus, font désormais partie du quotidien des gens. Ils permettent un large éventail de fonctionnalités, comme répondre à des questions sur des sujets variés, jouer de la musique, exécuter des tâches professionnelles ou personnelles, etc.

Le défis des interactions vocales : les conversations à échanges multiples

Alors que l'adoption des assistants vocaux progresse, les utilisateurs attendent de plus en plus de fonctionnalités. Un domaine clé dans lequel les assistants vocaux doivent s'améliorer est celui des conversations. C'est à dire être capable de relancer ou de comprendre une réponse (de l'utilisateur) à une réponse (de l'assistant).

Les humains se sentent de plus en plus à l'aise lorsqu'ils parlent en langage naturel avec un appareil. Cependant, contrairement à d'autres technologies, le traitement du langage naturel (NLP) n'a pu répondre jusqu'à présent, de manière satisfaisante, qu'à une seule interaction à la fois - par opposition à des interactions multiples, de longue durée, sur un mode ping pong.

Sans cette capacité de tenir des conversations plus longues, les agents virtuels ont du mal à comprendre un contexte et à transférer ce contexte d'une question à une autre. Cela peut sembler simple, mais sans cette interaction « multi-dialogues », il est en fait très difficile pour une machine d'arriver à comprendre une intention derrière des mots.

Un des usages voulus par le public est de ne plus avoir à lancer des « skills » un à un. Les utilisateurs voudraient au contraire aujourd'hui pouvoir lancer plusieurs skills - qui sont essentiellement des applications exécutées par l'assistant vocal - pour divers besoins.

Lors de la conférence Amazon Re:Mars, qui s'est tenue à Las Vegas en juin, Amazon a présenté Alexa Conversations, qui permet de lancer plusieurs skills, le tout au sein d'une seule conversation. Lors d'une démonstration sur l'organisation d'une soirée, Alexa a acheté des billets de cinéma, réservé une table pour le dîner et demandé un Uber.

De son côté, Microsoft a fait l'acquisition l'année dernière de Semantic Machines, une startup spécialiste de l'Intelligence Artificielle qui possède une technologie conversationnelle de nouvelle génération. Microsoft prévoit de l'utiliser pour gérer les interactions à plusieurs échanges pour les utilisateurs métiers. Le but est par exemple de pouvoir réserver une salle de réunion, d'envoyer les invitations en mettant à jour les agendas des différents participants, le tout en une seule phrase.

Google travaille aussi sur le sujet. Lorsqu'ils posent plusieurs questions à la suite, ou activent plusieurs commandes, les utilisateurs de l'assistant de Google n'ont plus besoin de dire "OK, Google" à chaque étape. Ils peuvent poser plusieurs questions en une fois, et Google Assistant répondra à chacune d'entre elles.

Désintermédiation de l'utilisateur

Oui mais voila. Ce progrès - quand il se concrétisera vraiment - va poser une question, voire un problème. Comme ce sont les assistants virtuels qui choisissent les skills - et donc les applications - ceux-ci vont d'une certaine manière « désintermédier » l'utilisateur.

Le contrôle croissant de l'algorithme sur le choix des applications pourrait avoir des répercussions sur les développeurs qui souhaitent, logiquement, toucher un public le plus large possible. Si c'est l'assistant vocal qui choisit les skills à utiliser, sur quels critères le fait-il ?

Par exemple, aujourd'hui, pour commander une pizza, vous devez d'abord télécharger l'application du vendeur de pizza que vous voulez, puis l'activer. Lorsque vous commandez ensuite votre pizza vocalement, vous utilisez le skill que vous avez choisi.

Mais dans la démonstration d'Amazon sur la soirée, Alexa n'a jamais demandé à l'utilisateur quel système de tickets de cinéma il voulait utiliser. Cela signifie-t-il qu'Amazon deviendra, d'une manière ou d'une autre, le juge des skills qui seront élus pour simplifier l'interaction conversationnelle ? Et quelles solutions auront les entreprises qui ne seront pas choisies ?

S'il ne fait aucun doute que les gens veulent avoir des interactions de plus en plus poussées et simples avec les assistants vocaux, il est également clair que nous n'en sommes encore qu'aux balbutiements des vraies conversations et de l'impact qu'elles auront sur l'écosystème. L'avenir des assistants dépendra donc aussi, en grande partie, de la façon dont ces questions seront résolues.

Pour approfondir sur Outils de développement

Close