Getty Images/iStockphoto
Sauvegarde : comment l’IA peut aider à mieux restaurer les données
Les outils de récupération de données actuels intègrent des modèles d'IA pour analyser les systèmes de fichiers, les structures de données, les tendances historiques et les menaces émergentes. Cet article fait le point sur les possibilités.
L'IA est en train de transformer la manière dont la sauvegarde et la restauration des données sont gérées dans les environnements d'entreprise, dans le cloud et dans les centres de données. L'un des principaux avantages de ces technologies réside dans leur capacité à favoriser l'automatisation, améliorant ainsi les opérations d’administration sans nécessiter d'intervention manuelle.
Pourtant, même avec des outils de sauvegarde et de restauration basés sur l'IA, les entreprises manquent souvent de visibilité sur leurs données. Pour les entreprises qui investissent dans des systèmes d'IA générative traitant de grands volumes de données, ce manque de visibilité ajoute à un défi de gestion des données déjà complexe. Dans le contexte concurrentiel actuel, intégrer l'IA dans la gestion du cycle de vie des données, parallèlement à un plan de restauration des données solide, est la clé du succès commercial.
Qu'est-ce que la restauration de données basée sur l'IA ?
Les entreprises ont recours à diverses stratégies de récupération des données pour restaurer les applications, les données et les systèmes de fichiers perdus. Ces approches comprennent la réplication via des copies multiples, les sauvegardes complètes et incrémentielles planifiées, ainsi que des méthodes basées sur des snapshots qui capturent les changements d'état des données afin d'assurer une protection continue.
Les méthodes traditionnelles de récupération des données s'appuient sur la rétro-ingénierie, la coopération des fournisseurs et des processus manuels complexes qui peuvent prendre plusieurs semaines, voire plus, aux spécialistes de la restauration des données. Les outils modernes de récupération de données basés sur l'IA intègrent de plus en plus d'algorithmes de Machine learning et de modèles d'IA pour analyser les systèmes de fichiers, les structures de données, les tendances historiques et les menaces émergentes.
Ces outils recourent à la détection des anomalies dans les sauvegardes pour identifier les changements inhabituels dans la taille ou le comportement des données. Ils utilisent aussi la reconnaissance de formes pour améliorer en permanence la récupération de données par auto-apprentissage et la restauration intelligente des données.
D'ici la fin de cette décennie, 90 % des outils de sauvegarde et de protection intégreront l'IA générative - notamment les chatbots et le traitement du langage naturel - afin d'améliorer les fonctions de gestion et d'assistance, contre moins de 25 % en 2025, selon le rapport de Gartner de juin 2025 sur les plateformes de sauvegarde et de protection des données. De plus, 35 % des entreprises devraient mettre en œuvre des systèmes de sauvegarde autonomes pilotés par une IA agentique, contre moins de 2 % en 2025.
Les entreprises doivent s'assurer que leurs systèmes de sauvegarde capturent et protègent toutes les données critiques, y compris les configurations système, les bases de données, les données des applications SaaS, les sites web et les fichiers utilisateur, afin de pouvoir les restaurer de manière fiable en cas de panne ou d'interruption du système. Malheureusement, de nombreuses organisations mettent en place des systèmes de sauvegarde mais ne les testent pas.
Dans le cadre de ce processus, il est important de détecter les erreurs de configuration ainsi que les fichiers de données corrompus ou incomplets avant que les systèmes et les données ne doivent être restaurés. De nouveaux outils peuvent aider à garantir l'intégrité et la disponibilité des données, afin que les utilisateurs puissent accéder à des informations fiables en cas de besoin.
« Lors d'une restauration, une grande partie du problème consiste à déterminer les priorités parmi les éléments à restaurer rapidement », estime Jon Brown, analyste spécialisé dans la protection des données du cabinet de conseil ESG. Certaines entreprises, a ajouté M. Brown, trouvent que l'IA les aide à prendre des décisions : « dans quel ordre devons-nous effectuer ces opérations ? Que devons-nous restaurer en premier ? L'autre aspect important consiste simplement à pouvoir effectuer davantage de tests, à utiliser l'IA pour tester vos restaurations et à automatiser une partie de ce processus. »
L'utilisation de l'IA pour améliorer la validation automatisée des sauvegardes dans les environnements d'entreprise, SaaS et cloud est essentielle, d'autant plus que les menaces telles que les ransomwares ne montrent aucun signe de ralentissement. L'IA et l'apprentissage automatique sont de plus en plus intégrés aux systèmes de sécurité pour surveiller les environnements et prendre des mesures lorsque des risques tels que des virus et des logiciels malveillants sont détectés.
Plus de la moitié (51 %) des 375 professionnels de l'informatique et des données travaillant pour des PME et des grandes entreprises estiment que l'IA et le Machine learning amélioreront leur capacité à restaurer des données après des attaques de ransomware, selon le rapport 2024 de l'Enterprise Strategy Group intitulé « Réinventer la sauvegarde et la restauration avec l'IA et le ML ».
Les outils d'IA peuvent aider à rationaliser une tâche « désordonnée et compliquée » en permettant aux professionnels de l'informatique d'identifier précisément les infrastructures de données et les systèmes de fichiers compromis, puis de les restaurer dans leur état d'origine, tel qu'il était avant l'attaque. Une attaque par ransomware peut durer des mois sans être détectée, en particulier si l'auteur de la menace crypte discrètement des fichiers plus anciens.
« En général, lors d’une restauration, on se base sur une date : celle à partir de laquelle tout a mal tourné », explique W. Curtis Preston, spécialiste chevronné de la protection des données (alias « Mr. Backup ») et auteur de l’ouvrage Learning Ransomware Response & Recovery, gratuitement consultable en ligne.
« Dans une restauration orchestrée, l’IA peut dire : examinons simplement tous les différents fichiers et sélectionnons automatiquement la version la plus récente de chaque fichier avant qu’il ne soit chiffré », dit M. Preston. « Faire cela manuellement est une véritable corvée, mais le faire automatiquement devrait être une tâche relativement facile. N’essayez pas de restaurer votre système d’exploitation, de reconstruire tout ça. Essayez simplement de restaurer votre base de données et tous vos fichiers. »
Comment l'IA modifie-t-elle le cycle de vie de la restauration des données ?
Le cycle de vie de la restauration des données est un élément clé de la gestion du cycle de vie des données ; une stratégie qui régit le traitement des données, de leur création à leur suppression, par le biais de politiques et de mesures de protection relatives au stockage et à l'utilisation des données. Lors de la récupération des données, les entreprises identifient et évaluent l'ampleur d'un incident de perte de données, puis mettent en œuvre un plan de récupération pour restaurer les données dans leur état d'origine à l'aide de sauvegardes et d'autres outils de récupération.
Le type de restauration — qu'il s'agisse de la restauration du système de fichiers, de la restauration d'une sauvegarde, de la restauration d'un disque ou d'une partition, ou encore de la récupération de données brutes — dépend de la nature et de la gravité de l'incident. Il est essentiel de vérifier que les données restaurées sont complètes, exactes et pleinement fonctionnelles avant de reprendre les opérations. Les entreprises doivent également disposer de systèmes permettant de surveiller et de sécuriser les données, ainsi que de prévenir toute nouvelle perte.
De plus en plus, les outils d'IA permettent aux organisations d'aller au-delà de la restauration de base en anticipant les pannes système, en automatisant les workflows de récupération et en optimisant les stratégies de sauvegarde ainsi que l'allocation des ressources. Bien que bon nombre de ces capacités soient encore en cours d'évolution, les outils basés sur l'IA peuvent faciliter la récupération des données de plusieurs manières.
Prévision des pannes. Les outils de sécurité des données utilisent des données historiques et en temps réel, ainsi que des algorithmes statistiques et d'apprentissage automatique, pour effectuer des analyses prédictives. Ces technologies analysent les journaux, les données historiques, les informations de performance, la documentation et les données de capteurs en temps réel afin de construire des modèles d'équipement et de détecter les risques et pannes potentiels. Les outils basés sur l'IA, tels que les systèmes de récupération prédictive des données, permettent également aux organisations d'automatiser les sauvegardes et les basculements pour protéger les données.
Détection des anomalies. Les outils basés sur l'IA surveillent le trafic réseau à l'aide de l'apprentissage automatique et de l'analyse de données afin d'étudier les comportements et les schémas normaux à partir des données historiques, ce qui permet au logiciel de détecter les écarts pouvant indiquer les signes d'un incident de sécurité potentiel, d'un logiciel malveillant ou d'une violation de données.
« Une grande partie de la capacité à se remettre d'attaques par ransomware réside dans la capacité à les identifier plus tôt », fait remarquer M. Brown. De plus en plus de produits intègrent la détection d'anomalies basée sur l'IA. Il ne s'agit pas seulement d'une IA de détection de ransomware statique, basée sur des signatures, mais d'une analyse dynamique, basée sur le comportement, a-t-il déclaré, ajoutant que les capacités de l'IA s'intègrent aux outils de sécurité pour aider à répondre à des questions cruciales, telles que : « quelqu'un essaie-t-il de s'en prendre à nos données de sauvegarde ? »
Automatisation des processus de restauration. L'IA et l'apprentissage automatique peuvent améliorer la capacité à classer, consulter et restaurer les données de sauvegarde plus efficacement. Le cabinet ESG indique que 46 % des professionnels de l'informatique interrogés s'attendent également à ce que l'IA générative aide à élaborer des plans de récupération des données, rationalisant ainsi ce qui était traditionnellement un processus manuel et chronophage.
Un outil d'IA générative, par exemple, pourrait créer automatiquement un plan de récupération étape par étape en fonction de l'infrastructure de l'entreprise, des politiques de classification des données et de l'activité de sauvegarde récente, en identifiant les systèmes prioritaires, en recommandant des points de restauration et en signalant les lacunes potentielles dans la couverture de sauvegarde.
La plupart de ces plans comportent des indicateurs de performance clés. L'objectif de point de récupération (RPO) définit la perte de données maximale acceptable, tandis que l'objectif de temps de récupération (RTO) fait référence au temps d'indisponibilité qu'une entreprise peut tolérer sans perturbation significative. Au cours du processus de planification, les professionnels de l'informatique peuvent comparer les données agrégées fournies par les fournisseurs, dit M. Brown. Ils peuvent également utiliser des données synthétiques générées par l'IA pour exécuter leur propre plan de reprise après sinistre automatisé à l'aide de scénarios d'IA.
À l'avenir, les outils de restauration basés sur l'IA pourraient orchestrer de manière autonome des workflows de restauration de bout en bout, en sélectionnant les points de restauration optimaux, en provisionnant l'infrastructure, en validant l'intégrité des données et en exécutant le basculement avec un minimum d'intervention humaine.
Optimisation de la planification et de la hiérarchisation des sauvegardes. Les outils d'IA peuvent aider les organisations à allouer leurs ressources plus efficacement en analysant les stratégies de sauvegarde et l'infrastructure, telles que l'utilisation du réseau et le stockage dans le cloud par rapport au stockage sur site, et en les comparant aux indicateurs de performance et aux données provenant des fournisseurs d'applications et de services cloud. Ces stratégies peuvent inclure la déduplication des données, la compression des données et des options de stockage hiérarchisé.
Amazon Web Services, Microsoft Azure et d'autres hyperscalers proposent des services de sauvegarde et de restauration planifiées pour les machines virtuelles, les bases de données et les fichiers, ainsi qu'une prise en charge du stockage hiérarchisé afin d'optimiser les coûts et les performances.
Validation de l'intégrité des données. Les organisations mettent en œuvre divers contrôles, technologies et processus afin de garantir l'intégrité des données tout au long de leur cycle de vie. De nombreuses entreprises suivent le référentiel ISO/IEC 27001, qui met l'accent sur la confidentialité, l'intégrité et la disponibilité des informations.
Pour vérifier l'intégrité des données de sauvegarde avant qu'elles ne soient nécessaires à la restauration, les administrateurs de sauvegarde peuvent déplacer certains fichiers vers un autre emplacement et les comparer aux originaux. Pour vérifier la validité des données une fois qu'elles ont été restaurées, la comparaison de hachages, les sommes de contrôle et les outils de validation par IA permettent de s'assurer que les données sont complètes et exactes.
« Dans les environnements cloud natifs de plus grande envergure, nous commençons à voir l'intelligence artificielle utilisée pour mettre en place automatiquement des environnements de récupération. C'est ce qu'on appelle la réhydratation des données », observe Bill Kleyman, PDG et cofondateur du fournisseur de plateformes d'IA Apolo et président des programmes Informa/AFCOM destinés aux professionnels des centres de données et de l'informatique. Les outils d'IA peuvent aider à restaurer des données archivées ou rarement consultées vers un niveau de performance supérieur, en réhydratant essentiellement les données pour valider leur intégrité.
« En gros, ce qui prenait auparavant des heures à faire manuellement peut désormais être réalisé en quelques minutes : toute l'orchestration d'un site, d'un site périphérique, ou de tout autre élément de ce type », explique M. Kleyman. « L'IA peut signaler les risques. Elle n'est pas là pour remplacer les humains, c'est pourquoi la validation humaine reste essentielle. Il faut qu'un humain reste impliqué dans le processus. On ne peut pas simplement confier entièrement les rênes à l'IA. »
Les enjeux liés à l'IA dans la récupération de données
De nombreuses organisations s'inquiètent des risques liés à la confidentialité des données et à la conformité associés à la récupération de données basée sur l'IA. L'intégration de l'IA dans les processus de récupération de données présente des risques techniques et opérationnels, notamment la nécessité de disposer de données d'entraînement de haute qualité pour garantir la précision, le risque d'« hallucinations » générées par l'IA et des préoccupations concernant les pratiques de sécurité des fournisseurs tiers. Les entreprises peuvent rencontrer plusieurs défis lors de l'adoption d'outils basés sur l'IA, notamment les suivants :
Des données d'entraînement de haute qualité pour les modèles. Comme tous les systèmes d'IA, la récupération de données basée sur l'IA s'appuie sur des algorithmes d'apprentissage automatique et des données d'entraînement de haute qualité, notamment des ensembles de données étiquetés et des scénarios de défaillance réels, afin de garantir que les processus de récupération soient précis, efficaces et fiables.
« S'appuyer sur l'expertise des fournisseurs et leur capacité à analyser des milliers d'environnements constitue une valeur ajoutée », note M. Brown. Le cabinet ESG rapporte que 59 % des professionnels de l'informatique et des données estimaient qu'ils devraient faire face à des coûts élevés pour recréer des modèles d'IA, en raison de pertes de données, de corruption ou de changements d'infrastructure.
Ces problématiques pourraient amener certaines entreprises à réévaluer leurs fournisseurs, en particulier lorsque les systèmes de sauvegarde ne parviennent pas à protéger les données d'entraînement essentielles au maintien et au réentraînement des modèles d'IA.
Risque d'hallucinations de l'IA. Les algorithmes d'apprentissage automatique pourraient inventer ou identifier à tort des données, ce qui conduirait l'outil basé sur l'IA à reconstruire et à restaurer des fichiers de manière inexacte. Si les données d'entraînement du modèle d'apprentissage automatique sont biaisées ou incomplètes, l'outil de récupération de données pourrait apprendre et s'adapter à partir d'entrées erronées.
Les « hallucinations » de l'IA peuvent également conduire à des plans de reprise après sinistre pilotés par l'IA qui accordent la priorité à des processus de sauvegarde des données et de restauration du système inadéquats.
Risques liés à la chaîne d'approvisionnement et à la sécurité des fournisseurs tiers. La récupération des données est plus complexe lorsqu'elle implique des fournisseurs tiers, en particulier si leurs contrôles échouent, entraînant une violation de données ou de conformité. Les entreprises restent responsables des violations de la confidentialité et de la sécurité des données causées par des fournisseurs tiers qui interagissent avec leurs données via des modèles d'IA et des outils connexes.
Déficit de compétences. Outre les coûts matériels et logiciels liés à la mise en œuvre de l'IA pour la sauvegarde et la récupération des données, la mise en place et la maintenance de ces systèmes nécessitent une expertise en IA et en apprentissage automatique — des compétences dont de nombreux professionnels de l'informatique et des centres de données ne disposent pas actuellement. Ce déficit peut constituer un obstacle majeur à l'adoption et à l'utilisation efficace de l'IA dans les stratégies de récupération des données.
Respect de la législation en matière de récupération des données. L'utilisation d'outils de récupération de données basés sur l'IA doit être conforme aux réglementations en matière de protection des données et de conformité. Les entreprises doivent être en mesure d'identifier et de classer les données sensibles et de se conformer aux réglementations sectorielles.
En outre, conformément aux directives strictes établies par la loi européenne sur la résilience opérationnelle numérique (DORA), les organisations doivent satisfaire aux exigences en matière de récupération concernant la sauvegarde, la duplication, la conservation et la suppression des données, ainsi que mettre en œuvre des mesures de redondance pour maintenir leurs opérations en cas de défaillance du système ou de sinistre.
Quel est l'avenir de la restauration des données basée sur l'IA ?
Les fournisseurs intègrent à leurs plateformes, dans les environnements hybrides (systèmes sur site et services de cloud public), des outils basés sur l'IA pour la détection des anomalies, l'analyse prédictive des pannes et l'optimisation des politiques, en utilisant des API pour automatiser et orchestrer la sauvegarde et la restauration.
Gartner a indiqué que 75 % des entreprises utiliseront un système unifié de sauvegarde et de restauration pour les données sur site et dans le cloud d'ici 2029, contre 25 % en 2025. « Nous entrons dans une nouvelle ère de l'information, une ère marquée par les modèles, les points de contrôle et les journaux », dit M. Kleyman. « L'IA ne se contente pas d'alimenter l'activité ; elle a désormais ses propres besoins en matière de sauvegarde et de restauration. »
Les données d'entraînement de l'IA, en particulier pour la GenAI, doivent être sauvegardées afin de se prémunir contre la perte de données et de protéger le développement des modèles.
Mais près des deux tiers des professionnels de l'informatique et des données ont indiqué que leurs entreprises ne sauvegardaient que la moitié de leurs données générées par l'IA, selon ESG. Les principales raisons invoquées pour la sauvegarde de ces données sont la confidentialité, la conformité, la redondance et la possibilité de les valider et de les tester.
Ce déficit en matière de sauvegarde des données d'IA pose de sérieux risques de sécurité, en particulier pour les entreprises qui ne disposent pas d'automatisation des processus, car la perte de données peut entraîner un réentraînement coûteux des modèles.
« Les entreprises planifient essentiellement des choses inconnues en matière de sauvegarde et de restauration », estime M. Brown. La nature de la prochaine attaque ne peut être prédite, dit-il, ajoutant que l'IA peut servir de conseiller de confiance à mesure qu'elle acquiert une expérience pratique et une connaissance institutionnelle approfondie de l’entreprise.
« Le problème, c'est que nous avons en moyenne quatre exercices d'alerte majeurs par an en matière de protection des données », reconnaît M. Brown. « Dans ces situations, il est utile de disposer d'une IA qui a déjà vu cela et qui peut aider à gérer la réponse », conclut-il.
Cet article est initialement paru en anglais sur SearchDataBackup.
