Pourquoi des données fiables sont essentielles à une IA digne de confiance

En un peu plus de deux ans, l’IA générative a imprégné les solutions de tous les fournisseurs. Il est maintenant temps de faire preuve de raison pour les utiliser.

Cet article est extrait d'un de nos magazines. Téléchargez gratuitement ce numéro de : STORAGE: Storage 39 - IA : pourquoi il va falloir réinvestir dans le stockage

Après des décennies au cours desquelles l’intelligence artificielle (IA) a été largement confinée à des projets de recherche, à des applications de niche ou même à la science-fiction, elle est aujourd’hui devenue un outil courant des métiers.

Sous l’impulsion d’applications telles que Bard (aujourd’hui Gemini), Mistral et ChatGPT, l’IA générative (GenAI) a déjà un impact sur le lieu de travail. Le cabinet d’études Gartner, par exemple, prévoit que 95 % des travailleurs utiliseront régulièrement l’IA générative pour accomplir leurs tâches quotidiennes d’ici à 2026.

Parallèlement, de plus en plus d’entreprises utilisent la GenAI pour alimenter des « chatbots » et d’autres services qui permettent au public d’interagir avec la technologie d’une manière plus naturelle. Les grands modèles de langage (LLM) permettent aux ordinateurs de communiquer avec les utilisateurs dans un langage proche de celui des humains. Et les modèles eux-mêmes peuvent parcourir les vastes ressources d’Internet pour trouver des réponses aux questions les plus obscures. Et c’est là que le bât blesse.

« Avec l’IA, des conséquences involontaires peuvent apparaître rapidement. Nous avons déjà vu quelques exemples de mises en œuvre réussies de la GenAI. »
Alys WoodwardSenior director analyst, Gartner

Sans surprise, l’IA, avec ses risques et ses avantages, a été au cœur de la rencontre Data and Analytics Summit, de Gartner, et de l’événement 2024 Tech.EU Summit, qui se sont tous deux tenus à Londres cette année. Les outils de GenAI sont accusés de produire des résultats biaisés, voire totalement faux. Ces hallucinations ont conduit des entreprises à devoir dédommager leurs clients, ce qui a porté atteinte à leur réputation.

« La gouvernance est d’autant plus importante lorsqu’il s’agit de fournir des produits de données aidés par l’IA », a estimé Alys Woodward, senior director analyst chez Gartner, lors du salon Data and Analytics Summit de l’entreprise. Avec l’IA, des conséquences involontaires peuvent apparaître rapidement. Nous avons déjà vu quelques exemples de mises en œuvre réussies de la GenAI. Ces entreprises déploient la technologie avec des garde-fous appropriés et des cas d’utilisation ciblés, mais nous ne savons jamais quand nos produits de données assistés par l’IA nous mèneront à des problèmes. »

Les entreprises sont déjà tenues pour responsables, par les régulateurs et les tribunaux, des décisions prises à l’aide de l’IA. La loi sur l’IA de l’Union européenne, qui est entrée en vigueur en juin 2024, crée de nouvelles obligations et impose de nouvelles sanctions. Les amendes pour les violations les plus graves de la loi pourront atteindre 7 % du chiffre d’affaires mondial, soit plus que pour les délits liés au RGPD.

Mais si la loi sur l’IA est un signal d’alarme pour les entreprises, les incitant à être plus prudentes et transparentes quant à leur utilisation de l’IA, elle les poussera également à examiner de plus près comment les modèles d’IA parviennent à produire leurs résultats.

Cela dépend de la qualité des données, tant pour l’entraînement des modèles que pendant la phase d’inférence – ou phase opérationnelle – de l’IA. Les grands modèles linguistiques actuels s’appuient principalement sur des données publiques, recueillies sur Internet. Et, bien qu’il soit question de permettre aux entreprises d’utiliser leurs propres données pour l’entraînement et l’inférence, les algorithmes utilisés par les modèles d’IA eux-mêmes restent opaques.

« Presque tout le monde utilise un ou plusieurs outils SaaS, et beaucoup d’entre eux disposent désormais de fonctionnalités d’IA. L’AI Act pointe vers cela et dit que vous devez comprendre, quantifier et assumer ce risque. »
Nader HeneinAnalyste, Gartner

Cette approche « boîte noire » des fournisseurs d’IA a suscité des inquiétudes quant aux préjugés et à la discrimination potentielle, à la fois dans les relations avec les clients et dans des domaines tels que le recrutement. Les entreprises se demanderont également si leurs données propriétaires sont utilisées pour former les modèles – les principaux fournisseurs d’IA affirment qu’ils ne le font plus –, si l’utilisation d’informations sensibles pose des problèmes de confidentialité et si des données (y compris celles saisies dans les prompts) peuvent s’échapper des outils d’IA.

Lors du déploiement de fonctions d’intelligence artificielle (AI) au sein des entreprises, les questions de confiance, de risque et de conformité deviennent primordiales, selon Nader Henein, analyste chez Gartner et spécialisé dans les données privées. Cependant, il a ajouté que les entreprises sont de plus en plus exposées aux risques via les outils d’intelligence artificielle qu’elles externalisent. Ces risques concernent des outils spécifiques tels que Gemini ou ChatGPT, mais aussi les fonctionnalités d’IA intégrées à d’autres applications, qui vont des outils bureautiques, et des navigateurs, aux logiciels conçus pour une entreprise.

« Presque tout le monde utilise un ou plusieurs outils SaaS, et beaucoup d’entre eux disposent désormais de fonctionnalités d’IA », estime Nader Henein. « L’AI Act pointe vers cela et dit que vous devez comprendre, quantifier et assumer ce risque. »

La qualité des données

La problématique consiste à identifier où et comment l’IA est utilisée dans l’entreprise, ainsi que la qualité des données qui l’alimentent, en particulier les données utilisées pour former les modèles. Comme le suggère Nader Henein, l’IA souffre des mêmes problèmes de données que tout autre système d’analyse : « des déchets en entrée conduisent à des déchets en sortie. »

« Des déchets en entrée conduisent à des déchets en sortie. »
Nader HeneinAnalyste, Gartner

Mais avec l’IA, nous sommes encore plus susceptibles d’accepter ses résultats sans esprit critique.

« Les humains ont tendance à favoriser les suggestions émises par les systèmes de prise de décision automatisés, ignorant souvent leur propre jugement, qui est pourtant plus sûr », dit Nader Henein. « Mais cette nouvelle génération d’hallucinations, avec des réponses très détaillées, avec des références et une éloquence extrême, pousse cet automatisme à des excès inédits. »

Le type de décision prise par l’IA est également crucial, certains outils présentant un risque plus élevé que d’autres pour l’entreprise.

« Cette nouvelle génération d’hallucinations, avec des réponses très détaillées, avec des références et une éloquence extrême, pousse cet automatisme à des excès inédits. »
Nader HeneinAnalyste, Gartner

« L’un des aspects les plus difficiles consiste à déterminer où se situe ce risque », lance Tharishni Arumugam, experte en technologies et opérations de confidentialité chez Aon Assurances. « Par exemple, certains veulent être tenus au courant dans la moindre utilisation de l’IA. Mais avez-vous vraiment besoin de savoir qu’une IA de traduction a été utilisée sur tel document ? Dans notre domaine, en réalité, vous n’avez besoin de savoir que l’IA est utilisée que lorsque vos informations de santé ont servi à une IA pour prédire des analyses. »

Le sujet est, selon elle, directement lié à la gouvernance des données. Les entreprises ayant une gouvernance des données mature sont moins susceptibles de tomber dans les pièges de l’IA. Cela couvre la qualité des bases des données, mais aussi, comme le souligne Gartner, des données suffisamment précises et diversifiées pour produire des résultats fiables, exempts de biais et d’hallucinations. Ce type de données est parfois appelé « données prêtes pour l’IA », et Gartner met en garde contre le fait que très peu d’entreprises peuvent réellement prétendre en disposer – pour le moment. 

Perte de confiance

Le problème est aggravé lorsque des modèles d’IA sont connectés tout au long d’un processus décisionnel. Chaque modèle alimentant le suivant, les niveaux de confiance dans les conclusions finales diminuent.

Mais cela peut ne pas être évident pour l’utilisateur ou le consommateur. « Des modèles très volumineux ont accès à d’immenses quantités de données », relève Nader Henein. « Beaucoup de ces données proviennent d’Internet et nous savons tous que les contenus d’Internet ne sont pas aussi soigneusement sélectionnés en matière de qualité qu’on le souhaiterait. »

« Et c’est un problème fondamental, car il est la cause principale des hallucinations », ajoute-t-il. Selon lui, les modèles ne fournissent actuellement aucune indication de leur précision, ni en termes de pourcentage de fiabilité, ni même en étiquetant leur production d’un drapeau vert, orange ou rouge. « Si nous avions cette indication de la précision de la réponse, cela pourrait peut-être apaiser certaines des inquiétudes concernant les hallucinations », affirme-t-il.

La traçabilité des données

La confiance implique également de comprendre la traçabilité des données lorsqu’elles se déplacent entre les systèmes. Cela concerne les données qui passent des systèmes ou des entrepôts de données de l’entreprise à l’IA, ainsi que – potentiellement – les résultats de l’IA réutilisés dans d’autres modèles, voire pour former l’IA. Gartner prévoit que, dans deux ans, trois quarts des entreprises utiliseront l’IA générative pour créer des données synthétiques qui, à leur tour, pourraient être utilisées pour entraîner des modèles d’IA.

Les data scientists doivent également intégrer des garde-fous dans les systèmes d’IA pour réduire les risques et prévenir les abus des outils. Cela pourrait inclure la limitation ou la restriction de l’utilisation de données personnelles identifiables, d’informations sur la santé, de propriété intellectuelle ou même de sources de données non vérifiées et non qualifiées.

« En fin de compte, les données que vous introduisez dans le modèle, les données que vous utilisez pour former vos modèles, sont extrêmement importantes », déclare Junaid Saiyed, directeur technique d’Alation, une société spécialisée dans la gouvernance et l’intelligence des données. « Si vous ne nourrissez pas l’IA en données exactes et fiables, vous obtiendrez des recommandations et des prédictions médiocres. Quel que soit ce que vous recherchez dans votre IA, quels que soient les résultats que vous recherchez dans vos modèles, seules les informations de confiance peuvent vous donner confiance en l’IA. »

« Et il ne s’agit pas seulement d’avoir confiance dans la réponse finale. Il s’agit de savoir quelle confiance vous accordez à l’intégralité du processus. Quelle confiance avez-vous dans les données qui ont été introduites dans le modèle, quelle confiance avez-vous dans le modèle lui-même ? Vous pourriez même préférer utiliser un modèle moins sophistiqué, si ses réponses sont plus fiables. »

Construire la confiance

« Si je construis un pont et que le pont s’effondre, les avocats m’attaqueront moi, pas le LLM. Je dois être certain de la justesse de ce que le LLM produit. »
Daniel Gallego VicoChercheur en IA et Machine learning

Si les responsables de la sécurité et les responsables des données ne peuvent pas construire cette confiance, les utilisateurs seront réticents à utiliser les outils d’IA. Et les clients seront peu enclins à leur faire confiance pour leurs conseils ou recommandations.

« Dans le secteur BtoB, vous devez fournir ce niveau de confiance », lance Daniel Gallego Vico, chercheur en IA et Machine learning, cofondateur de PrivateGPT et du service d’IA Zylon pour les entreprises, à l’occasion duTech.EU Summit.

Par exemple, un ingénieur ne va pas utiliser une recommandation de LLM pour une conception s’il ne fait pas confiance aux données. « Si je construis un pont et que le pont s’effondre, les avocats m’attaqueront moi, pas le LLM », illustre-t-il. « Je dois être certain de la justesse de ce que le LLM produit. »

Pour Daniel Gallego Vico, quelle que soit la capacité de l’outil d’IA, les humains doivent rester impliqués dans la chaîne de traitement. « Vous devez comprendre quelles sont les sources de données que le LLM a utilisées pour générer la réponse », dit Daniel Gallego Vico. « C’est la seule façon pour contre-vérifier un résultat. »

Pour approfondir sur IA Responsable, IA durable, explicabilité, cadre réglementaire