Definition

Qu'est-ce que l'apprentissage supervisé ?

Dans l'apprentissage supervisé, l'objectif est de donner un sens aux données dans le contexte d'une question spécifique. L'apprentissage supervisé est efficace pour les problèmes de régression et de classification, tels que la détermination de la catégorie à laquelle appartient un article de presse ou la prévision du volume des ventes pour une date future donnée. Les organisations peuvent utiliser l'apprentissage supervisé dans des processus tels que la détection des anomalies, la détection des fraudes, la classification des images, l'évaluation des risques et le filtrage des spams.

L'apprentissage non supervisé s'oppose à l'apprentissage supervisé. Dans cette approche, l'algorithme est confronté à des données non étiquetées et est conçu pour détecter des modèles ou des similitudes par lui-même, un processus décrit plus en détail ci-dessous.

Comment fonctionne l'apprentissage supervisé ?

Comme tous les algorithmes d'apprentissage automatique, l'apprentissage supervisé repose sur la formation. Au cours de la phase de formation, le système est alimenté par des ensembles de données étiquetées, qui lui indiquent quelle variable de sortie est liée à chaque valeur d'entrée spécifique. Le modèle formé est ensuite soumis à des données de test. Il s'agit de données qui ont été étiquetées, mais dont les étiquettes n'ont pas été révélées à l'algorithme. L'objectif des données de test est de mesurer la précision des performances de l'algorithme sur des données non étiquetées.

Les étapes générales et fondamentales de la mise en place de l'apprentissage supervisé sont les suivantes :

  • Déterminer le type de données d'apprentissage qui seront utilisées comme ensemble d'apprentissage.
  • Collecter des données de formation étiquetées.
  • Diviser les données de formation en ensembles de données de formation, de test et de validation.
  • Déterminer un algorithme à utiliser pour le modèle ML.
  • Exécuter l'algorithme avec l'ensemble des données d'apprentissage.
  • Évaluez la précision du modèle à l'aide de différentes mesures telles que les scores F1 et logarithmiques. Si le modèle prédit des résultats corrects, il est précis.
  • Contrôler régulièrement les performances du modèle et le mettre à jour si nécessaire. Le modèle peut nécessiter un recyclage avec de nouvelles données pour garantir sa précision et sa pertinence.

Par exemple, un algorithme pourrait être entraîné à identifier des images de chats et de chiens en le nourrissant d'une grande quantité de données d'entraînement constituées de différentes images étiquetées de chats et de chiens. Ces données d'entraînement seraient un sous-ensemble de photos provenant d'un ensemble d'images beaucoup plus vaste. Après l'entraînement, le modèle devrait être capable de prédire si une image en sortie est un chat ou un chien. Un autre ensemble d'images peut être soumis à l'algorithme pour valider le modèle.

Comment fonctionne l'apprentissage supervisé dans les réseaux neuronaux ?

Dans les algorithmes de réseaux neuronaux, le processus d'apprentissage supervisé est amélioré en mesurant constamment les résultats du modèle et en affinant le système pour se rapprocher de la précision visée. Le niveau de précision obtenu dépend de deux éléments : les données étiquetées disponibles et l'algorithme utilisé. En outre, les facteurs suivants influencent le processus :

  • Les données d'entraînement doivent être équilibrées et nettoyées. Les données inutiles ou dupliquées faussent la compréhension de l'IA ; les scientifiques des données doivent donc faire attention aux données sur lesquelles le modèle est entraîné.
  • La diversité des données détermine les performances de l'IA lorsqu'elle est confrontée à de nouveaux cas. Si l'ensemble de données d'entraînement ne contient pas suffisamment d'échantillons, le modèle faiblit et ne parvient pas à fournir des réponses fiables.
  • Paradoxalement, une précision élevée n'est pas nécessairement une bonne indication. Elle peut également signifier que le modèle souffre d'un sur ajustement, c'est-à-dire qu'il est su rajusté par rapport à son ensemble de données d'apprentissage. Un tel ensemble de données peut donner de bons résultats dans les scénarios de test, mais échouer lamentablement lorsqu'il est confronté à des défis réels. Pour éviter le sur ajustement, il est important que les données de test soient différentes des données d'apprentissage afin de s'assurer que le modèle ne tire pas ses réponses de son expérience antérieure, mais que l'inférence du modèle est généralisée.
  • L'algorithme, quant à lui, détermine la manière dont ces données peuvent être utilisées. Par exemple, les algorithmes d'apprentissage profond peuvent être entraînés à extraire des milliards de paramètres de leurs données et atteindre des niveaux de précision sans précédent, comme le démontre le GPT-4 d'OpenAI.

Types d'apprentissage supervisé

Outre les réseaux neuronaux, il existe de nombreux autres algorithmes d'apprentissage supervisé. Ces algorithmes génèrent principalement deux types de résultats : la classification et la régression.

Modèles de classification

Un algorithme de classification vise à classer les données d'entrée dans un nombre donné de catégories - ou classes - sur la base des données étiquetées sur lesquelles il a été formé. Les algorithmes de classification peuvent être utilisés pour des classifications binaires, telles que la classification d'une image en chien ou en chat, le filtrage des courriels en spam ou non, et la catégorisation des commentaires des clients en positif ou négatif.

Voici quelques exemples de techniques de classification ML :

  • Un arbre de décision sépare les points de données en deux catégories similaires, depuis le tronc de l'arbre jusqu'aux branches, puis aux feuilles, créant ainsi des catégories plus petites à l'intérieur des catégories.
  • La régression logistique analyse les variables indépendantes pour déterminer un résultat binaire qui peut être classé dans l'une des deux catégories.
  • Une forêt aléatoire est un ensemble d'arbres de décision qui rassemblent les résultats de plusieurs prédicteurs. Elle est plus efficace en termes de généralisation, mais moins facile à interpréter que les arbres de décision.
  • Une machine à vecteur de support trouve une ligne qui sépare les données d'un ensemble particulier en classes spécifiques pendant la formation du modèle et maximise les marges de chaque classe. Ces algorithmes peuvent être utilisés pour comparer les performances financières relatives, la valeur et les gains d'investissement.
  • Naive Bayes est un algorithme de classification très répandu, utilisé pour des tâches impliquant la classification de textes et de grands volumes de données.

Modèles de régression

Les tâches de régression sont différentes, car elles attendent du modèle qu'il produise une relation numérique entre les données d'entrée et de sortie. Parmi les exemples d'algorithmes de régression en ML, on peut citer la prédiction des prix de l'immobilier en fonction du code postal, la prédiction des taux de clics dans les publicités en ligne en fonction de l'heure de la journée et la détermination du montant que les clients seraient prêts à payer pour un certain produit en fonction de leur âge.

Les algorithmes couramment utilisés dans les programmes d'apprentissage supervisé sont les suivants :

  • La logique bayésienne analyse les modèles statistiques tout en intégrant les connaissances antérieures sur les paramètres du modèle ou le modèle lui-même.
  • La régression linéaire permet de prédire la valeur d'une variable en fonction de la valeur d'une autre variable.
  • La régression non linéaire est utilisée lorsqu'un résultat n'est pas reproductible à partir d'entrées linéaires. Dans ce cas, les points de données partagent une relation non linéaire ; par exemple, les données peuvent avoir une tendance non linéaire et courbe.
  • Un arbre de régression est un arbre de décision dans lequel des valeurs continues peuvent être prises à partir d'une variable cible.
  • La régression polynomiale permet de modéliser des relations plus complexes entre les caractéristiques d'entrée et la variable de sortie en ajustant une équation polynomiale aux données.

Le choix d'un algorithme d'apprentissage supervisé doit tenir compte de plusieurs éléments. Le premier est le biais et la variance qui existent au sein de l'algorithme, car la frontière est mince entre une flexibilité suffisante et une flexibilité excessive. Un autre facteur est la complexité du modèle ou de la fonction que le système tente d'apprendre. Comme indiqué, l'hétérogénéité, la précision, la redondance et la linéarité des données doivent également être analysées avant de choisir un algorithme.

Apprentissage supervisé ou non supervisé

La principale différence entre l'apprentissage supervisé et non supervisé réside dans la manière dont l'algorithme apprend.

Dans l'apprentissage non supervisé, l'algorithme reçoit des données non étiquetées comme ensemble d'apprentissage. Contrairement à l'apprentissage supervisé, il n'y a pas de valeurs de sortie correctes ; l'algorithme détermine les modèles et les similitudes au sein des données au lieu de les relier à une mesure externe. En d'autres termes, les algorithmes peuvent fonctionner librement pour en apprendre davantage sur les données et découvrir des résultats intéressants ou inattendus que les êtres humains ne recherchaient pas.

L'apprentissage non supervisé est très répandu dans les algorithmes de regroupement - l'action de découvrir des groupes dans les données - et d'association - l'action de prédire les règles qui décrivent les données.

Étant donné que le modèle d'apprentissage non supervisé travaille seul pour découvrir des modèles dans les données, il peut ne pas effectuer les mêmes classifications que dans le cadre de l'apprentissage supervisé. Dans l'exemple des chats et des chiens, le modèle d'apprentissage non supervisé peut identifier les différences, les similitudes et les modèles entre les chats et les chiens, mais ne peut pas les étiqueter en tant que chats ou chiens.

Cependant, il est important de noter que les deux approches offrent des avantages spécifiques et sont souvent utilisées conjointement pour optimiser les résultats. Par exemple, l'apprentissage non supervisé peut aider à prétraiter les données ou à identifier les caractéristiques qui peuvent être utilisées dans les modèles d'apprentissage supervisé.

Avantages et limites de l'apprentissage supervisé

Les modèles d'apprentissage supervisé présentent certains avantages par rapport à l'approche non supervisée, mais ils ont aussi des limites. Les avantages de l'apprentissage supervisé sont les suivants :

  • Les systèmes d'apprentissage supervisé sont plus susceptibles de porter des jugements auxquels les humains peuvent s'identifier parce que les humains ont fourni la base des décisions.
  • Les critères de performance sont optimisés grâce à une aide expérimentée supplémentaire.
  • Il peut effectuer des tâches de classification et de régression.
  • Les utilisateurs contrôlent le nombre de classes utilisées dans les données d'apprentissage.
  • Les modèles peuvent produire des résultats prédictifs sur la base d'expériences antérieures.
  • Les classes d'objets sont étiquetées en termes exacts.
  • Elle convient aux tâches dont les résultats sont clairs et les variables cibles bien définies, car elle implique l'apprentissage d'un modèle sur des données dont les entrées et les résultats ou étiquettes correspondants sont connus.

Les limites de l'apprentissage supervisé sont les suivantes :

  • Dans le cas d'une méthode basée sur la récupération, les systèmes d'apprentissage supervisé ont du mal à traiter les nouvelles informations. Si un système catégorisant les chats et les chiens se voyait présenter de nouvelles données, par exemple un zèbre, il devrait les classer à tort dans l'une ou l'autre catégorie. Toutefois, si le système d'IA était génératif, c'est-à-dire non supervisé, il ne saurait peut-être pas ce qu'est le zèbre, mais il serait capable de le reconnaître comme appartenant à une catégorie distincte.
  • En outre, l'apprentissage supervisé nécessite généralement de grandes quantités de données correctement étiquetées pour atteindre des niveaux de performance acceptables, et ces données ne sont pas toujours disponibles. L'apprentissage non supervisé ne souffre pas de ce problème et peut également fonctionner avec des données non étiquetées.
  • Les modèles supervisés peuvent prendre beaucoup de temps, car ils doivent être entraînés avant d'être utilisés.
  • Les algorithmes d'apprentissage supervisé ne peuvent pas apprendre de manière autonome et nécessitent une intervention humaine pour valider la variable de sortie.

Apprentissage semi-supervisé

Dans les cas où l'apprentissage supervisé est nécessaire, mais où les données de qualité sont insuffisantes, l'apprentissage semi-supervisé peut être la méthode d'apprentissage appropriée. Ce modèle d'apprentissage se situe entre l'apprentissage supervisé et l'apprentissage non supervisé ; il accepte des données partiellement étiquetées, c'est-à-dire que la plupart des données sont dépourvues d'étiquettes.

Voici quelques-uns des principaux avantages de l'apprentissage semi-supervisé :

  • L'apprentissage semi-supervisé est utile lorsque l'on dispose d'une grande quantité de données non étiquetées, mais qu'il est trop coûteux ou trop difficile de les étiqueter toutes. L'apprentissage semi-supervisé détermine les corrélations entre les points de données - tout comme l'apprentissage non supervisé - et utilise ensuite les données étiquetées pour marquer ces points de données. Enfin, l'ensemble du modèle est formé sur la base des étiquettes nouvellement appliquées.
  • L'apprentissage semi-supervisé permet d'obtenir des résultats précis et s'applique à de nombreux problèmes réels pour lesquels la faible quantité de données étiquetées empêcherait les algorithmes d'apprentissage supervisé de fonctionner correctement. En règle générale, un ensemble de données comportant au moins 25 % de données étiquetées convient à l'apprentissage semi-supervisé. La reconnaissance faciale, par exemple, est idéale pour l'apprentissage semi-supervisé ; le grand nombre d'images de personnes différentes est regroupé par similarité, puis interprété à l'aide d'une image étiquetée, ce qui donne une identité aux photos regroupées.

Parmi les exemples d'apprentissage semi-supervisé, on peut citer la classification de textes, la classification d'images et la détection d'anomalies.

Principaux cas d'utilisation et exemples d'apprentissage supervisé

L'apprentissage supervisé a de nombreux cas d'utilisation dans divers secteurs d'activité. L'un des cas d'utilisation possibles de l'apprentissage supervisé est la catégorisation des informations. Une approche consiste à déterminer la catégorie à laquelle appartient chaque nouvelle, par exemple affaires, finance, technologie ou sport. Pour résoudre ce problème, un modèle supervisé serait le mieux adapté. Les humains présenteraient au modèle divers articles d'actualité et leurs catégories, et le modèle apprendrait quel type d'actualité appartient à chaque catégorie. De cette manière, le modèle devient capable de reconnaître la catégorie de tout article qu'il regarde en se basant sur son expérience de formation antérieure.

Cependant, les humains pourraient également conclure que la classification des nouvelles sur la base des catégories prédéterminées n'est pas suffisamment informative ou flexible, car certaines nouvelles peuvent porter sur les technologies liées au changement climatique ou sur les problèmes de main-d'œuvre dans une industrie. Il existe des milliards d'articles d'actualité, et les classer en 40 ou 50 catégories pourrait être une simplification excessive. Une meilleure approche pourrait consister à trouver les similitudes entre les articles et à les regrouper en conséquence. Il s'agirait plutôt d'examiner les grappes de nouvelles, où les articles similaires seraient regroupés, sans qu'il n'y ait de catégories spécifiques.

D'autres cas d'utilisation courante de l'apprentissage supervisé sont les suivants :

  • Analyse prédictive. L'analyse prédictive est largement utilisée dans l'apprentissage supervisé, car les modèles peuvent être formés sur des données passées dont les résultats sont connus afin de fournir des prédictions sur des données qui n'ont pas été vues auparavant.
  • Analyse de régression. Dans l'analyse de régression, les modèles d'apprentissage supervisé prédisent une variable de sortie continue à partir d'une ou plusieurs variables d'entrée. Cette approche est couramment utilisée pour des tâches telles que la prévision des cours boursiers et l'estimation des salaires en fonction de divers facteurs.
  • Tâches de classification. L'un des principaux cas d'utilisation de l'apprentissage supervisé est celui des tâches de classification. La classification prédit dans quelles catégories ou classes se situent les nouvelles données sur la base de catégories ou de classes prédéfinies. La détection des spams dans les courriers électroniques, la classification des images et l'identification des objets sont quelques exemples de tâches de classification.
  • Détection des fraudes et gestion des risques. L'industrie financière utilise l'apprentissage supervisé pour la gestion de portefeuille, la détection des fraudes et la gestion des risques. Par exemple, il est utilisé dans la détection des fraudes bancaires pour identifier les activités inhabituelles et les transactions en ligne douteuses qui nécessitent des recherches plus approfondies.
  • Recommandations personnalisées. Les plateformes de commerce électronique et de streaming utilisent l'apprentissage supervisé pour fournir aux utilisateurs des recommandations personnalisées basées sur leurs interactions passées et leurs intérêts.
  • Tâches liées aux soins de santé. L'apprentissage supervisé est appliqué dans le domaine des soins de santé pour des tâches telles que le diagnostic des maladies, la prédiction des résultats pour le patient, les plans de traitement personnalisés et les recommandations basées sur les données du patient.
  • Véhicules autonomes. L'apprentissage supervisé est utilisé dans l'industrie automobile pour les fonctions des véhicules autonomes. Par exemple, les données issues des communications entre véhicules et entre véhicules et infrastructures sont utilisées pour évaluer l'état des routes, les schémas de circulation et les dangers potentiels.
  • Reconnaissance de la parole. Dans le contexte de la reconnaissance vocale, l'apprentissage supervisé est utilisé pour comprendre et traiter la parole humaine, en intégrant la grammaire, la syntaxe et la structure des signaux audio et vocaux pour comprendre le langage parlé. Les assistants virtuels tels que Siri et Alexa, ainsi que de nombreux services de transcription, s'appuient sur l'apprentissage supervisé.
  • Analyse du sentiment des clients. Les organisations utilisent des algorithmes de ML supervisés pour extraire et identifier les informations pertinentes - telles que le contexte, l'émotion et l'intention - à partir de grands volumes de données pour l'analyse du sentiment des clients. Cela peut aider les organisations à mieux comprendre les interactions avec les clients et à améliorer les efforts d'engagement de la marque.
  • L'évaluation du crédit. L'apprentissage supervisé est utilisé pour évaluer la solvabilité des demandeurs de prêt. Un ensemble de données étiquetées, qui comprend des informations historiques sur les demandeurs précédents, telles que leurs antécédents en matière de crédit, leurs revenus, leur situation professionnelle et d'autres facteurs pertinents, est utilisé pour former l'algorithme d'apprentissage supervisé.

Pour approfondir sur IA appliquée, GenAI, IA infusée