Synthèse vocale : Le W3C standardise la prononciation des mots

La W3C a hissé au rang de recommandation la version 1.0 de PLS, un lexique qui formate de façon standardisée, la prononciations des mots dans le cadre d'une application en ligne. Une grand pas en avant qui vient étayer les travaux du consortium dans le domaine de la reconnaissance vocale.

La reconnaissance vocale sur Internet vient de passer une nouvelle étape. Le consortium W3C, en charge de normaliser le Web, vient de publier la version 1.0 des spécifications qui définissent un lexique de prononciations (Pronounciation lexicon Specifications - PLS) dans le cadre des applications en ligne liées à la reconnaissance ou à la synthèse vocale. Une étape primordiale dans  l'accessibilité des sites Web aux personnes handicapées d'abord, mais également pour tout ce qui concerne les services en ligne pilotés par la voix, comme les centres d'appels ou les standards téléphoniques automatisés, dans le cadre d'applications professionnelles.

Ce projet s'intègre au coeur de l'une des grandes marottes du W3C : donner naissance à un Web universel, dont l'accès serait possible de n'importe quelle solution (mobile ou pas), par n'importe qui et dans n'importe quel environnement - un point sur lequel planche le groupe de travail dédié aux interactions multimodale. Tim Berners Lee, l'inventeur du Web, avait qualifié cette initiative de « One Web ». Avec la multiplication des téléphones portables, la voix constitue à ce titre une porte d'entrée pour nombre de services en ligne. Une évolution naturelle du Web mobile, en somme, qui est devenu un  projet phare du consortium.

Développé par le groupe de travail dédié au « navigateur vocal » (Voice Browser Working group), PLS 1.0 fournit une liste de prononciations – standardisées donc -  de mots ou de groupes de mots destinés à être intégrés dans les moteurs de synthèse vocale ou ceux de reconnaissance vocale. Un élément primordial pour uniformiser les façons d'articuler les termes professionnels ou encore les noms propres, explique le W3C dans la publication des spécifications. PLS s'appuie ainsi sur l'IPA (International Pronounciation Alphabet), un alphabet linguistique universel utilisé pour décrire notamment les phonèmes, les sons, les diphtongues ou triphtongues à l'écrit. Un ficher PLS (au format XML) est  alors appelé en externe pour appliquer la prononciation correcte aux mots décrits par des appels SSLM (Speech Synthesis Markup Language), inclus dans VoiceXML 2.0, autre langage du W3C qui spécifie le rendu vocal aux moteurs de reconnaissance vocale (de type Text-to-speech).

«  La reconnaissance vocale n’est pas encore couramment associée au «  Web visuel  », mais cela évoluera d'une part avec la taille sans cesse réduite des terminaux qui font que les petits claviers sont de moins en moins pratiques à utiliser, et d'autre part avec le développement des téléphones cellulaires dans des régions où le taux d’alphabétisme est bas  », a expliqué James A. Larson qui co-anime le groupe de travail Navigateur vocal.
Outre l'accessibilité, c'est également en termes d'ergonomie que cette spécification devrait agir, en permettant notamment la configuration plus fine et plus localisée des services de messagerie en ligne.

Pour approfondir sur Editeurs

Close