Qu'est-ce que la reconnaissance vocale et comment fonctionne-t-elle ?
La reconnaissance de la voix ou du locuteur est la capacité d'une machine ou d'un programme à recevoir et à interpréter une dictée ou à comprendre et à exécuter des commandes vocales. La reconnaissance vocale a gagné en importance et en utilisation avec l'essor de l'intelligence artificielle (IA) et des assistants intelligents, tels que Alexa d'Amazon et Siri d'Apple.
Les systèmes de reconnaissance vocale permettent aux consommateurs d'interagir avec la technologie en lui parlant simplement, ce qui permet d'effectuer des demandes mains libres, des rappels et d'autres tâches simples.
La reconnaissance vocale permet d'identifier et de distinguer les voix à l'aide de logiciels de reconnaissance automatique de la parole (RAS). Certains logiciels de reconnaissance vocale automatique exigent que les utilisateurs apprennent d'abord au logiciel à reconnaître leur voix afin d'obtenir une conversion plus précise de la parole au texte. Les systèmes de reconnaissance vocale évaluent la fréquence, l'accent et le débit de la voix.
Bien que l'on parle indifféremment de reconnaissance vocale et de reconnaissance de la parole, il ne s'agit pas de la même chose et une distinction essentielle doit être faite. La reconnaissance vocale identifie le locuteur, alors que la reconnaissance vocale évalue ce qui est dit.
Comment fonctionne la reconnaissance vocale ?
Les logiciels de reconnaissance vocale sur ordinateur nécessitent la conversion de signaux audio analogiques en signaux numériques, ce que l'on appelle la conversion analogique-numérique (A/N). Pour qu'un ordinateur puisse déchiffrer un signal, il doit disposer d'une base de données numérique de mots ou de syllabes ainsi que d'un processus rapide de comparaison de ces données avec les signaux. Les modèles vocaux sont stockés sur le disque dur et chargés dans la mémoire lorsque le programme est exécuté. Un comparateur vérifie ces modèles stockés par rapport à la sortie du convertisseur A/N - une action appelée reconnaissance de modèle.
En pratique, la taille du vocabulaire effectif d'un programme de reconnaissance vocale est directement liée à la capacité de la mémoire vive de l'ordinateur sur lequel il est installé. Un programme de reconnaissance vocale fonctionne beaucoup plus rapidement si l'ensemble du vocabulaire peut être chargé dans la mémoire vive que si l'on recherche une partie des correspondances sur le disque dur. La vitesse de traitement est essentielle, car elle détermine la rapidité avec laquelle l'ordinateur peut rechercher des correspondances dans la mémoire vive.
L'audio doit également être traité pour être clair, de sorte que certains appareils peuvent filtrer les bruits de fond. Dans certains systèmes de reconnaissance vocale, certaines fréquences audio sont accentuées afin que l'appareil puisse mieux reconnaître une voix.
Les systèmes de reconnaissance vocale analysent la parole à l'aide de l'un des deux modèles suivants : le modèle de Markov caché et les réseaux neuronaux. Le modèle de Markov caché décompose les mots parlés en phonèmes, tandis que les réseaux neuronaux récurrents utilisent les résultats des étapes précédentes pour influencer l'entrée de l'étape actuelle.
Au fur et à mesure que les utilisations de la technologie de reconnaissance vocale se développent et que de plus en plus d'utilisateurs interagissent avec elle, les organisations qui mettent en œuvre les logiciels de reconnaissance vocale disposeront de plus de données et d'informations pour alimenter les réseaux neuronaux des systèmes de reconnaissance vocale. Les capacités et la précision des produits de reconnaissance vocale s'en trouvent améliorées.
La popularité des smartphones a permis d'ajouter la technologie de reconnaissance vocale dans les poches des consommateurs, tandis que les appareils domestiques - tels que Google Home et Amazon Echo - ont introduit la technologie de reconnaissance vocale dans les salons et les cuisines.
Utilisations de la reconnaissance vocale
Les utilisations de la reconnaissance vocale se sont rapidement développées à mesure que l'IA, l'apprentissage automatique et l'acceptation par les consommateurs ont mûri. Voici quelques exemples d'utilisation de la reconnaissance vocale :
- Les assistants virtuels. Les assistants virtuels Siri, Alexa et Google utilisent tous un logiciel de reconnaissance vocale pour interagir avec les utilisateurs. La manière dont les consommateurs utilisent la technologie de reconnaissance vocale varie en fonction du produit. Mais ils peuvent l'utiliser pour transcrire la voix en texte, programmer des rappels, effectuer des recherches sur internet et répondre à des questions et des demandes simples, comme jouer de la musique ou partager des informations sur la météo ou la circulation.
- Appareils intelligents. Les utilisateurs peuvent contrôler leur maison intelligente - y compris les thermostats et les haut-parleurs intelligents - à l'aide d'un logiciel de reconnaissance vocale.
- Systèmes téléphoniques automatisés. Les organisations utilisent la reconnaissance vocale avec leurs systèmes téléphoniques pour diriger les appelants vers un service correspondant en prononçant un numéro spécifique.
- Conférences. La reconnaissance vocale est utilisée pour sous-titrer en direct un orateur afin que les autres puissent suivre ce qui est dit en temps réel sous forme de texte.
- Bluetooth. Les systèmes Bluetooth des voitures modernes prennent en charge la reconnaissance vocale pour aider les conducteurs à ne pas quitter la route des yeux. Les conducteurs peuvent utiliser la reconnaissance vocale pour exécuter des commandes telles que "appeler mon bureau".
- Logiciels de dictée et de reconnaissance vocale. Ces outils peuvent aider les utilisateurs à dicter et à transcrire des documents sans avoir à saisir le texte à l'aide d'un clavier physique ou d'une souris.
- Gouvernement. L'Agence nationale de sécurité américaine (NSA) utilise des systèmes de reconnaissance vocale depuis 2006 pour identifier les terroristes et les espions ou pour vérifier l'audio de toute personne s'exprimant.
Avantages de la reconnaissance vocale
La reconnaissance vocale offre de nombreux avantages :
- Les consommateurs peuvent être multitâches en s'adressant directement à leur assistant vocal ou à une autre technologie de reconnaissance vocale.
- Les utilisateurs ayant des problèmes de vue peuvent toujours interagir avec leurs appareils.
- L'apprentissage automatique et les algorithmes sophistiqués permettent à la technologie de reconnaissance vocale de transformer rapidement les mots prononcés en texte écrit.
- Cette technologie permet de capturer la parole plus rapidement que certains utilisateurs ne peuvent taper. Les tâches telles que la prise de notes ou l'établissement de rappels sont ainsi plus rapides et plus pratiques.
Inconvénients de la reconnaissance vocale
- Le bruit de fond peut produire des entrées erronées.
- Bien que les taux de précision s'améliorent, tous les systèmes et programmes de reconnaissance vocale comportent des erreurs.
- Il y a un problème avec les mots qui se ressemblent mais qui sont orthographiés différemment et qui ont des significations différentes - par exemple, hear et here. Ce problème peut être largement résolu en utilisant des informations contextuelles stockées. Toutefois, cela nécessite plus de mémoire vive et des processeurs plus rapides.
Histoire de la reconnaissance vocale
La technologie de la reconnaissance vocale a connu une croissance exponentielle au cours des cinq dernières décennies. En 1976, les ordinateurs ne pouvaient comprendre qu'un peu plus de 1 000 mots. Ce chiffre est passé à environ 20 000 dans les années 1980, lorsque IBM a continué à développer la technologie de reconnaissance vocale.
En 1952, les Laboratoires Bell ont inventé AUDREY (Automatic Digit Recognizer), qui ne pouvait comprendre que les chiffres de zéro à neuf. Entre le début et le milieu des années 1970, le ministère américain de la défense a commencé à contribuer au développement de systèmes de reconnaissance vocale, en finançant la recherche sur la compréhension de la parole de la Defense Advanced Research Projects Agency. Harpy, développé par Carnegie Mellon, était un autre système de reconnaissance vocale à l'époque et pouvait reconnaître jusqu'à 1 011 mots.
En 1990, la société Dragon a lancé le premier produit de reconnaissance du locuteur destiné au grand public, Dragon Dictate. Ce produit a ensuite été remplacé par Dragon Naturally Speaking de Nuance Communications. En 1997, IBM a lancé IBM ViaVoice, le premier produit de reconnaissance vocale capable de reconnaître la parole continue.
Apple a introduit Siri en 2011, et c'est toujours un assistant de reconnaissance vocale de premier plan. En 2016, Google a lancé son Google Assistant pour les téléphones. Les systèmes de reconnaissance vocale sont présents dans des appareils tels que les téléphones, les haut-parleurs intelligents, les ordinateurs portables, les ordinateurs de bureau et les tablettes, ainsi que dans des logiciels tels que Dragon Professional et Philips SpeechLive.
Au cours de cette dernière décennie, plusieurs autres leaders technologiques ont développé des logiciels de reconnaissance vocale plus sophistiqués, comme Amazon Alexa, par exemple. Lancé en 2014, Amazon Alexa fait également office d'assistant personnel qui répond aux commandes vocales. Actuellement, les logiciels de reconnaissance vocale sont disponibles pour les appareils Windows, Mac, Android, iOS et Windows Phone.
