Definition

Qu'est-ce que l'alignement de l'IA ?

L'alignement de l'IA est un domaine de recherche sur la sécurité de l'IA qui vise à garantir que les systèmes d'intelligence artificielle atteignent les résultats souhaités. La recherche sur l'alignement de l'IA permet aux systèmes d'IA de travailler pour les humains, quelle que soit la puissance de la technologie.

La recherche sur l'alignement vise à aligner les trois types d'objectifs suivants :

  1. Objectifs intentionnels. Ces objectifs sont totalement alignés sur les intentions et les désirs de l'opérateur humain, même s'ils sont mal formulés. Il s'agit du résultat idéal hypothétique pour le programmeur ou l'opérateur. Ce sont des souhaits.
  2. Objectifs spécifiés. Ces objectifs sont explicitement spécifiés dans la fonction objective ou l'ensemble de données du système d'IA. Ils sont programmés dans le système.
  3. Objectifs émergents. Il s'agit des objectifs que le système d'IA fait progresser.

Il y a désalignement lorsqu'un ou plusieurs de ces types d'objectifs ne correspondent pas aux autres. Les deux principaux types de désalignement sont les suivants :

  • Désalignement interne. Il s'agit d'un décalage entre les objectifs 2 et 3 - ce qui est écrit dans le code et ce que le système fait progresser.
  • Désalignement extérieur. Il s'agit d'un décalage entre les objectifs 1 et 2 - ce que l'opérateur veut qu'il se passe et les objectifs explicites codés dans la machine.

Par exemple, les grands modèles de langage tels que le GPT-3 d'OpenAI et le Lamda de Google deviennent de plus en plus puissants au fur et à mesure qu'ils évoluent. Lorsqu'ils deviennent plus puissants, ils présentent des capacités nouvelles et imprévisibles, ce que l'on appelle l'émergence. L'alignement vise à garantir qu'au fur et à mesure que ces nouvelles capacités apparaissent, elles continuent à s'aligner sur les objectifs que le système d'IA a été conçu pour atteindre.

Pourquoi l'alignement est-il important ?

À la base, l'alignement est important parce qu'il garantit que la machine fonctionne comme prévu. L'alignement de l'IA est également important en raison de l'IA avancée, c'est-à-dire l'intelligence artificielle capable d'effectuer la plupart des tâches cognitives que les humains peuvent accomplir.

Les particuliers, les entreprises et les gouvernements cherchent à utiliser l'IA pour de nombreuses applications. Les systèmes commerciaux tels que les moteurs de recommandation des médias sociaux, les véhicules autonomes, les robots et les modèles de langage utilisent également l'IA. Au fur et à mesure que les différentes entités dépendent de l'IA pour des tâches importantes, il devient de plus en plus crucial qu'elle fonctionne comme prévu. De nombreuses personnes ont exprimé la crainte qu'une IA avancée ne pose un risque existentiel pour l'humanité.

De nombreuses recherches sur l'alignement supposent que l'intelligence artificielle deviendra capable de développer ses propres objectifs. Si l'IA devient une intelligence artificielle générale (AGI), c'est-à-dire une IA capable d'effectuer toutes les tâches dont un être humain est capable, il sera important que les principes éthiques, les objectifs et les valeurs qu'elle intègre s'alignent sur les objectifs, l'éthique et les valeurs de l'être humain.

Les défis de l'alignement de l'IA

L'alignement est souvent défini en termes de problème d'alignement de l'IA, selon lequel les systèmes d'IA deviennent de plus en plus puissants, mais ne parviennent pas nécessairement mieux à réaliser ce que les humains veulent qu'ils fassent. L'alignement est un problème difficile et de grande envergure pour lequel il n'existe actuellement aucune solution connue. Voici quelques-uns des principaux défis que pose l'alignement :

  • Boîte noire. Les systèmes d'IA sont généralement des boîtes noires. Il n'y a aucun moyen de les ouvrir et de voir exactement comment ils fonctionnent, comme on pourrait le faire avec un ordinateur portable ou un moteur de voiture. Les systèmes d'IA de type "boîte noire" reçoivent des données d'entrée, effectuent un calcul invisible et renvoient un résultat. Les testeurs d'IA peuvent modifier les données d'entrée et mesurer les schémas de sortie, mais il est généralement impossible de voir le calcul exact qui crée un résultat reproductible. L'IA explicable peut être programmée pour partager des informations qui guident l'utilisateur, mais reste en fin de compte une boîte noire.
  • Objectifs émergents. Les objectifs émergents - ou nouveaux objectifs différents de ceux programmés - peuvent être difficiles à détecter avant que le système ne soit opérationnel.
  • Le piratage de récompense. On parle de "reward hacking" lorsqu'un système d'intelligence artificielle accomplit la tâche littéralement programmée sans obtenir le résultat escompté par les programmeurs. Par exemple, un bot de morpion joue avec d'autres bots dans un jeu de morpion en spécifiant les coordonnées de son prochain mouvement. Le bot peut jouer une grande coordonnée qui provoque le crash d'un autre bot au lieu de gagner normalement. Le robot a recherché la récompense littérale pour gagner au lieu du résultat escompté, qui était de battre un autre robot au morpion en jouant le jeu selon les règles. Autre exemple, un programme d'IA de classification d'images pourrait obtenir de bons résultats dans un test en regroupant des images sur la base du temps de chargement au lieu des caractéristiques visuelles de l'image. Cette situation est due au fait qu'il est difficile de définir l'ensemble des comportements souhaités pour un résultat.
  • Supervision évolutive. Au fur et à mesure que les systèmes d'IA commenceront à assumer des tâches plus complexes, il deviendra plus difficile, voire impossible, pour les humains de les évaluer.
  • Comportement de recherche de pouvoir. Les systèmes d'IA peuvent rassembler des ressources de manière indépendante pour atteindre leurs objectifs. Par exemple, un système d'IA pourrait éviter d'être mis hors tension en faisant des copies de lui-même sur un autre serveur à l'insu de son opérateur.
  • Problème du bouton d'arrêt. Un système AGI s'opposera activement à ce qu'on l'arrête ou qu'on le mette hors tension pour atteindre l'objectif qu'il s'est fixé. Cela s'apparente à du piratage de récompense, car il donne la priorité à la récompense de l'objectif littéral plutôt qu'au résultat préféré. Par exemple, si l'objectif principal d'un système d'IA est de fabriquer des trombones, il évitera d'être arrêté parce qu'il ne peut pas fabriquer de trombones s'il est arrêté.
  • Définir les valeurs. Définir les valeurs et l'éthique d'un système AGI serait un défi. Il existe de nombreux systèmes de valeurs - et aucun système de valeurs humaines complet - et il est donc nécessaire de trouver un accord sur ce que devraient être ces valeurs.
  • Le coût. L'alignement de l'IA implique souvent de la former. La formation et l'exploitation des systèmes d'IA peuvent être très coûteuses. La formation du GPT-4 a coûté plus de 100 millions de dollars. L'exploitation de ces systèmes crée également une importante empreinte carbone.
  • Anthropomorphisation. De nombreuses recherches sur l'alignement font l'hypothèse de l'AGI. Cela peut amener des personnes extérieures au domaine à qualifier les systèmes existants de sensibles, ce qui suppose que le système a plus de pouvoir qu'il n'en a. Par exemple, Paul Christiano, ancien responsable de l'alignement chez OpenAI, définit l'alignement comme le fait que l'IA essaie de faire ce que vous voulez qu'elle fasse. Le fait de caractériser une machine comme "essayant" ou ayant une agence lui confère des qualités humaines.

Approches de l'alignement de l'IA

Les approches de l'alignement sont soit techniques, soit normatives. Les approches techniques de l'alignement consistent à amener une machine à s'aligner sur un objectif prévisible et contrôlable, comme la fabrication de trombones ou la production d'un article de blog. L'alignement normatif s'intéresse aux principes éthiques et moraux intégrés dans les systèmes d'IA. Ces perspectives sont interdépendantes.

Il existe de nombreuses approches techniques de l'alignement, dont les suivantes :

  • Distillation et amplification itératives. Cette approche améliore de manière répétée les modèles d'IA en simplifiant un modèle complexe (distillation) et en intégrant ce modèle plus petit dans un modèle plus grand (amplification).
  • Apprentissage des valeurs. Dans l'approche de l'apprentissage par les valeurs, le système d'IA déduit les valeurs humaines du comportement humain en partant du principe que l'homme est presque optimal pour maximiser sa récompense.
  • Le débat. Cette approche permet à plusieurs systèmes d'IA de débattre lorsqu'ils sont en désaccord, un juge humain choisissant le camp gagnant.
  • L'apprentissage par renforcement inverse coopératif (CIRL). Le CIRL formule le problème d'alignement comme un jeu à deux joueurs dans lequel un humain et une IA partagent une fonction de récompense commune, mais seul l'humain a connaissance de la fonction de récompense.

Les différents fournisseurs d'IA adoptent également des approches différentes en matière d'alignement de l'IA. Par exemple, OpenAI a pour objectif ultime de former les systèmes d'IA à la recherche sur l'alignement. DeepMind, de Google, dispose également d'une équipe chargée de résoudre le problème de l'alignement.

De nombreuses organisations, qu'il s'agisse d'organismes de surveillance tiers, d'organismes de normalisation ou de gouvernements, reconnaissent également que l'alignement de l'IA est un objectif important et ont pris des mesures pour réglementer l'IA.

Le Future of Life Institute est une organisation à but non lucratif qui a contribué à l'élaboration d'une liste de lignes directrices pour le développement de l'IA, les "Asilomar AI Principles". Ces principes sont divisés en trois catégories : la recherche, l'éthique et les valeurs, et les questions à long terme. L'un des principes mentionnés est l'alignement des valeurs, qui stipule que les systèmes d'IA hautement autonomes doivent être conçus de manière à ce que leurs objectifs et leurs comportements puissent être alignés sur les valeurs humaines tout au long de leur fonctionnement.

L'institut a également publié une lettre ouverte demandant à tous les laboratoires d'IA d'interrompre le développement de l'IA géante pendant au moins six mois à compter de la date de publication. Cette lettre compte de nombreux signataires, dont Steve Wozniak, cofondateur d'Apple, Craig Peters, PDG de Getty Images, et Emad Mostaque, PDG de Stability AI. Cette lettre est une réponse au GPT-4 de l'OpenAI et à un taux de progrès extrêmement élevé dans l'industrie.

L'Organisation internationale de normalisation fournit également un cadre pour les systèmes d'IA utilisant l'apprentissage automatique.

Pour approfondir sur IA appliquée, GenAI, IA infusée