kjekol - Fotolia

RAG : Peut-on faire travailler une IA à partir des sauvegardes ?

Pour nourrir leurs analyses, les IA ont besoin de données complètes, de haute qualité, en grande quantité. Les sauvegardes constituent en ce sens une véritable mine d’or. Mais attention aux écueils.

À mesure que les entreprises intègrent l’IA dans leurs processus métier, elles se rendent compte que les LLM doivent être nourris à partir de données de qualité pour produire des résultats précis. La provenance de ces données varie, mais une option en vogue est d’aller les chercher dans les sauvegardes.

Car, après tout, ces sauvegardes sont simplement là, inexploitées, attendant de jouer un rôle plus intéressant que la simple restauration de documents éventuellement perdus. Mais utiliser les sauvegardes de données pour nourrir des modèles d’IA est-il vraiment une bonne idée ?

Les sauvegardes sont d’abord créées dans le but de se prémunir contre la perte de données. L’IA, de son côté, a besoin de données de haute qualité, ce qui signifie qu’elles doivent être complètes, cohérentes et à jour, au moins. Si une sauvegarde de données n’est qu’une simple copie des données telles qu’elles existent, elle risque de ne pas être complète et donc pas prête à être exploitée par les modèles d’IA.

Les copies de secours ne sont en effet pas forcément mises à jour fréquemment et peuvent nécessiter un temps et des efforts supplémentaires pour nettoyer et transformer leur contenu. De même, les archives peuvent être obsolètes, désorganisées et difficilement accessibles par l’entreprise, ce qui les rend inadaptées à une utilisation conjointe avec une IA.

Cependant, la plupart des entreprises ont désormais compris qu’une seule copie de sauvegarde ne suffit pas pour protéger les données. Au minimum, il est généralement recommandé de suivre la méthode « 3-2-1 », qui prévoit trois copies sur deux types de supports de stockage différents, dont l’une est conservée hors site. Si une entreprise respecte cette règle, elle peut disposer d’une sauvegarde basique stockée hors site pour se prémunir contre une perte totale de données, mais elle devrait également disposer d’au moins une sauvegarde accessible, fréquemment mise à jour et testée, mieux adaptée à l’utilisation par une IA.

Les avantages de l’utilisation des sauvegardes pour nourrir l’IA

À condition que le processus de récupération soit correctement mis en place, l’utilisation des sauvegardes dans un processus de RAG présente plusieurs avantages.

Un démarrage plus rapide. Réunir de vastes réserves de données pertinentes et de haute qualité peut s’avérer difficile. Cependant, les données contenues dans des sauvegardes bien organisées et préparées pour être exploitées constituent peut-être une ressource dont vous disposez déjà. Leur utilisation pourrait vous aider à démarrer plus rapidement un processus de RAG.

Des données mieux protégées. Les données sauvegardées disposent généralement d’une couche de protection intégrée, puisqu’elles sont destinées à remplacer en toute fiabilité les données de production en cas de sinistre ou de cyberattaques. De plus, les données sauvegardées devraient faciliter la mise en conformité en matière de gouvernance des données d’IA : vous saurez exactement quelles données vous utilisez pour nourrir votre modèle, d’où elles proviennent et dans quel état elles se trouvaient au moment de leur utilisation.

Les inconvénients

De nombreuses initiatives en matière d’IA échouent, et l’absence de formation efficace en est une cause majeure. L’utilisation des données de sauvegarde présente des avantages, mais cette démarche nécessite une surveillance rigoureuse. Sans cela, plusieurs problèmes peuvent survenir.

Les données ne sont pas prêtes à être exploitées. Les données doivent être organisées et présentées dans un format que les modèles d’IA peuvent exploiter et analyser, comme un format de séries chronologiques. Si les données de sauvegarde ne sont pas au bon format ou si leur qualité est insuffisante, leur nettoyage, leur préparation et leur transformation nécessiteront beaucoup de temps et d’efforts. Cela peut allonger le processus de mise en route. Et toute erreur dans les données peut affecter la précision — et, par conséquent, l’utilité — du modèle d’IA.

Les données ne sont pas suffisamment diversifiées. Les informations contenues dans votre sauvegarde de données peuvent être très pertinentes pour l’entreprise, mais elles présentent un inconvénient potentiel : votre modèle risque de ne pas disposer d’un éventail suffisamment large de données. Cela peut limiter la précision du modèle, ce qui se traduit par un éventail de résultats plus restreint qui ne prend pas en compte autant de possibilités. Si tel est le cas, vous devrez peut-être intégrer de nouvelles données ou des ensembles de données différents afin d’élargir les capacités de votre IA.

Les données sont obsolètes ou ne sont plus pertinentes. Il existe plusieurs types de sauvegardes de données qu’une entreprise peut utiliser, et certaines sont plus efficaces que d’autres. Si votre entreprise utilise une sauvegarde de données ancienne dans un environnement où les documents évoluent rapidement, le modèle d’IA risque de baser sa réflexion sur des données qui ne sont plus d’une pertinence absolue. Cela peut affecter la qualité des résultats de l’IA et conduire à des prises de décision qui ne reflètent pas la réalité.

Il est primordial d’utiliser les données les plus récentes possibles, ce qui constitue l’un des principaux obstacles à l’utilisation de données de sauvegarde.

Les données sont soumises à des réglementations en matière de conformité. L’utilisation de données de sauvegarde peut soulever des préoccupations en matière de sécurité, de confidentialité et d’éthique, d’autant plus que la gouvernance des données d’IA devient de plus en plus stricte. Si vous envisagez d’utiliser des données de sauvegarde pour le fonctionnement d’une IA, vous devez le signaler. Les clients qui n’en ont pas connaissance ou qui ne donnent pas leur accord pourraient voir leur vie privée et leur confiance compromises, ce qui peut nuire à la réputation de l’entreprise.

Dans ce contexte, il est essentiel de s’assurer que toutes les données de sauvegarde utilisées pour l’entraînement des modèles d’IA respectent les normes de sécurité et les politiques de confidentialité afin de protéger les données, les clients et les informations sensibles ou confidentielles.

Cet article est une adaptation d’un conseil paru en anglais sur SearchDataBackup.

Pour approfondir sur Backup