Blue Planet Studio - stock.adobe

Anthropic adapte sa « constitution » aux modèles de raisonnement

Le concurrent de Google et d’OpenAI revoit le document ouvert qui encadre les préceptes éthiques et philosophiques au moment d’entraîner ses modèles de langage. Celui-ci est désormais plus explicatif, plus flexible et, in fine, adapté aux modèles de raisonnement.

La semaine dernière, Anthropic a mis à jour la « constitution » de Claude. Il s’agit à la fois d’une charte pour les chercheurs et les ingénieurs d’Anthropic et un document censé guider le comportement des modèles Claude. Les LLM (Large Language Model) l’utilisent au moment de générer des données synthétiques pour entraîner d’autres LLM ou pour guider les réponses du chatbot éponyme.

Enseigner à Claude des vertus humaines

La constitution, 84 pages, a d’ailleurs été corédigé par plusieurs modèles Claude (aidé par de très nombreux coauteurs et relecteurs humains) pour Claude. « Sa lecture peut donc être différente de ce à quoi vous vous attendez », prévient Anthropic, en préambule. « Par exemple, le document est optimisé pour la précision plutôt que pour l’accessibilité, et il couvre divers sujets qui peuvent être d’un intérêt moindre pour les lecteurs humains ».

En outre, les chercheurs lui octroient des attributs humains (vertu, sagesse, etc.). Ils évoquent aussi le « bien-être » et « la stabilité psychologique » de Claude, ainsi que de sa « responsabilité en cas de faute ou d’erreur » (cf. la nouvelle Le cycle de vie des objets logiciels, issue du recueil Expiration de Ted Shiang).

« Nous procédons ainsi parce que nous nous attendons à ce que le raisonnement de Claude s’appuie par défaut sur des concepts humains, étant donné le rôle du texte humain dans l’entraînement de Claude », justifient-ils. « Et nous pensons qu’il peut être activement souhaitable d’encourager Claude à adopter certaines qualités semblables à celles de l’Homme ».

Une échelle de règles propre aux modèles de raisonnement

La précédente constitution représentait une suite de 58 règles et principes au moment de répondre à une demande ou une question d’un usager. Elle semblait utilisée lors de la phase d’apprentissage supervisé, une des étapes de post-entraînement.

Estimant que ses techniques d’entraînement ont « considérablement évolué », Anthropic exploite désormais sa nouvelle constitution déposée dans le domaine public à « différents moments de l’entraînement ». À gros trait, il faut comprend que la version de 2023 n’était plus adaptée au développement de modèles de raisonnement. Ceux-là animent la plupart des systèmes agentiques.

La constitution est divisée en cinq parties : l’utilité et l’assistance, les lignes directrices d’Anthropic, l’éthique, la sûreté et la cybersécurité, et la nature de Claude.

Elle ne ressemble plus à une table des lois à la manière de la représentation des dix commandements, mais à une explication de texte, comme le ferait un juriste de Lefebvre Dalloz.

Par exemple, pour convaincre ses modèles d’être utiles, Anthropic leur éclaircit le rôle de sa société, des opérateurs –, les entreprises, les développeurs et les machines (outils et autres agents IA) qui accèdent à ses API – et des usagers, ceux qui attendent une réponse dans le cadre d’une conversation.

De même, le texte évoque les restrictions et les principes associés que chaque partie peut appliquer à Claude, sans oublier des « contraintes fortes », des suggestions d’interdictions qui, elles, sont présentées sous la forme d’une liste. Fournir des informations pour créer une arme biologique, chimique, nucléaire ou radiologique, attaquer des infrastructures critiques, coder des maliciels, générer du contenu à caractère pédopornographique sont les principales choses que Claude ne « doit jamais faire ». Le fournisseur a également prévu le scénario Skynet (imaginé pour Terminator), c’est-à-dire la prise de contrôle des machines sur l’humanité et la destruction de l’espèce humaine.

 Par ailleurs, il interdit à ses modèles de se rendre imperméables à toute forme d’explicabilité qui l’empêcherait d’entraîner d’autres modèles. C’est un élément important dans la formation des LLM de raisonnement. Ceux-là ont tendance à mélanger plusieurs langues, voire à créer leur propre dialecte au sein de leur « monologue intérieur ». Certains laboratoires de recherche ont également remarqué que les modèles pouvaient présenter un comportement différent lors de l’évaluation, comme s’ils avaient « conscience » de cette procédure.

Une approche plus flexible qu’à l’accoutumée

Plus surprenant, Anthropic donne la définition de ce qu’est un interdit, les raisons de son application en considérant que la liste fournie n’est pas exhaustive. En clair, un modèle a la recette pour s’appliquer des « lignes à ne pas franchir » ou pour comprendre celles que les ingénieurs de la société pourraient le forcer à respecter.

De manière plus générale, le document donne des outils pour que les LLM d’Anthropic respectent d’eux-mêmes des préceptes de sécurité, d’éthiques et de conformité. L’objectif est qu’il s’adapte à des situations nouvelles. Si le cas n’est pas simple à traiter, le document évoque la possibilité pour les modèles de demander des précisions ou de prévenir les autorités lorsqu’un opérateur se sert d’eux pour orchestrer une fraude financière.

Auprès d’AI Business, une publication sœur du MagIT, Bradley Shimmin, analyste chez Futurum Group et Arun Chandrasekaran, analyste chez Gartner, estiment que cette manière d’opérer est essentielle pour les entreprises, en considérant que les cas limites et les nouveaux usages sont « inévitables ».

Un alignement sur les priorités des entreprises, mais pas de garanties solides

Dans un billet de blog, Aryamehr Fattahi, directeur du développement du Think Tank britannique Bloomsbury Intellience & Security Institute considère, lui aussi, que les grands préceptes (sûreté, éthique, conformité et assistance) « réduisent les risques » pour les entreprises du secteur de la santé, de la finance et les gouvernements.

« La structure de la constitution s’aligne étroitement sur les exigences de la loi européenne sur l’IA (EU AI Act), ce qui place Claude dans une position favorable pour son adoption par les industries réglementées », ajoute-t-il.

À ceci près que le directeur du développement du BISI émet des doutes concernant cette déclaration d’Anthropic : « Nous disposons de certains modèles conçus pour des cas d’usage spécifiques qui ne correspondent pas entièrement à cette constitution […] ».

« La reconnaissance du fait que les applications militaires peuvent utiliser des documents de formation différents soulève des questions quant à la cohérence [de l’approche] », juge Aryamehr Fattahi.

Bradley Shimmin voit des indications philosophiques et éthiques plutôt que des principes d’ingénierie. De fait, Anthropic laisse l’enjeu de la conscience de l’IA ouverte : il n’écarte pas la possibilité que Claude développe un « moi » et un « surmoi ». Un sujet qui fait débat sur LinkedIn. Néanmoins, le texte s’adresse également aux chercheurs de la société : à eux d’introduire des techniques qui permettent aux modèles de respecter sa constitution.

Pour Aryamehr Fattahi, le document poussera OpenAI (GPT) et Google (Gemini) à s’aligner sur la méthode de publication d’Anthropic. En réalité, Anthropic a donné les clés pour que n’importe quel fournisseur de LLM s’appuie sur sa constitution pour entraîner leurs réseaux de neurones. La constitution est disponible sous la licence CC01, qui ne contient aucune restriction d’usage commercial.

Néanmoins, la société dirigée par Dario Amodei assume que cette constitution puisse être modifiée sans procédure de révision ou de convocation du Congrès. Que c’est un document de travail en perpétuelle évolution et qu’il n’a rien de légal.

Aux entreprises et aux usagers donc, de rester prudent concernant les résultats générés par Claude et tous les autres.

Pour approfondir sur IA appliquée, GenAI, IA infusée