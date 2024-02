Le problème n’est pas nouveau. Il faut dire que les deux lettres accolées ont nourri les imaginaires de longue date et laissent une impression floue.

L’IA n’est pas magique, c’est une famille de méthodes mathématiques Pourtant, l’IA n’est pas magie ou alchimie. Comme nous l’avons déjà écrit dans LeMagIT, l’intelligence artificielle est avant tout un domaine rassemblant « une famille de technologies et de méthodes mathématiques (des algorithmes) qui vise à permettre à des machines de simuler ou de s’inspirer des processus cognitifs des êtres humains pour réaliser des tâches ». Ces tâches sont l’apprentissage, la représentation du savoir, la résolution de problèmes, la compréhension, la perception (vision, ouïe), la planification et la prise de décision, la communication et la production de contenus. Un système d’IA qui serait capable d’accomplir toutes ces tâches mieux qu’un humain pourrait être qualifié d’intelligence artificielle générale. Nous n’y sommes pas encore : la plupart des modèles d’intelligence artificielle sont destinés à effectuer quelques-unes de ces tâches. L’IA générative est considérée comme l’une des dernières nées de cette grande famille qu’est l’intelligence artificielle. Pour être plus précis, il faudrait dire qu’il s’agit d’un sous-domaine d’un sous-domaine d’un sous-domaine de l’IA. Remontons le fil.

Le deep learning, une sous-discipline du machine learning Par convention, dans l’IA, l’on distingue deux grandes branches que sont le machine learning et le deep learning. Le machine learning – ou apprentissage automatique – rassemble plusieurs méthodes d’apprentissage statistique permettant à des systèmes d’effectuer des prédictions à partir de données passées. Il y a deux méthodes principales que sont l’apprentissage supervisé et l’apprentissage non supervisé. Les cas d’usage sont légion : analytique prédictive, maintenance prédictive, prévision, etc. Apprentissage supervisé et apprentissage non supervisé L’apprentissage supervisé consiste à indiquer à un algorithme à travers l’étiquetage des données d’entraînement ce que l’on attend de lui au moment de recevoir des informations inconnues. Cette technique est principalement utilisée pour effectuer deux tâches. Il y a d’abord les opérations de régression, c’est-à-dire le fait de prédire un chiffre à partir d’un autre chiffre connu. Ensuite, elle peut être utilisée pour effectuer des classifications, par exemple quelle est la probabilité que l’information transmise appartienne à la catégorie A ou B d’un tableau. Inversement, un algorithme qui aurait été entraîné avec la méthode de l’apprentissage non supervisé n’est pas « nourri » de données étiquetées : c’est à lui de trouver des motifs, des structures ou des relations. S’ils aident également à classer ou prédire des données, ces modèles servent plus généralement à regrouper des données en catégorie (clustering), à réduire des dimensions (condenser l’information pour la rendre compréhensible ou visible), ou à détecter des anomalies. Quant au deep learning, il est en réalité une sous-discipline du machine learning. Celle-ci vise à développer des réseaux de neurones dits profonds. Ils sont profonds parce qu’ils font interagir plusieurs couches de « neurones » interconnectées – constituées de poids et de fonctions mathématiques –, qui apprennent des représentations de données hiérarchiques. Pendant un peu moins de dix ans, les réseaux de neurones étaient principalement utilisés pour effectuer deux grandes tâches que sont la reconnaissance d’images (computer vision) et la compréhension et le traitement du langage naturel (NLU/NLP), audio ou textuel. Dans le processus d’entraînement des réseaux de neurones, les techniques de machine learning décrites plus haut et d’autres sont exploitées, soit pour réduire les coûts de calcul, soit parce qu’elles sont nécessaires pour constituer ces enchevêtrements de poids et de fonctions mathématiques et traiter de grandes quantités de données.

Qu’est-ce que l’IA générative ? Un produit du deep learning Depuis quelques années, l’attention des chercheurs (et du marché) s’est portée sur ce que l’on nomme désormais l’IA générative. L’expression désigne des modèles, ou des systèmes qui rassemblent plusieurs modèles, capables de générer des textes, des images ou des sons, voire les trois à la fois. L’IA générative est donc issue du deep learning et de ses sous-domaines que sont la computer vision, le NLP et le NLU. Penchons-nous d’abord sur la genèse des modèles d’IA générative. L’expression est née avec l’émergence des réseaux de neurones antagonistes génératifs. Cette catégorie correspond à des réseaux de neurones nés au début des années 2010. Ils étaient originellement entraînés à l’aide d’un apprentissage non supervisé. Les GANs sont davantage décrits comme des frameworks s’appuyant sur plusieurs réseaux de neurones, mis en compétition pour produire de nouvelles données plus désirables à partir de données existantes. Un réseau (le générateur) crée de nouvelles sorties, tandis que le second (le discriminateur) tente de déterminer si les nouvelles données sont réelles ou générées par l’IA. Au fil du temps, la capacité du générateur à créer des données originales s’améliore jusqu’à ce que le discriminateur ne puisse plus distinguer les nouvelles données des données originales. Les premières expérimentations étaient consacrées à la création d’images, des œuvres d’art et des visages totalement factices. De l’autre côté, l’émergence des architectures transformers en 2017 a permis la démocratisation des outils de traduction, de classification et de génération de texte. Ces réseaux de neurones dotés de mécanismes d’auto-attention (self-attention en VO) permettent de traiter en parallèle des données séquentielles, dont des représentations de mots, de phrases ou de textes. Le modèle en question peut donner plus d’importance à des parties d’une séquence de texte en entrée et en conserver le contexte. Les transformers sont désormais utilisés pour propulser des modèles capables de comprendre et de générer du code, du texte, des images et des fichiers audio.