audy_indy - Fotolia

Étude : le stockage de données est l’élément bloquant des infrastructures d’IA

Alors que l'IA semble essentielle dans la stratégie des DSI, une étude du cabinet ESG indique que des lacunes persistantes en matière d'infrastructures de données empêchent les projets de grandir.

Les responsables informatiques restent globalement enthousiastes quant au potentiel des technologies d'IA pour mener à bien la transformation stratégique de leur entreprise, mais beaucoup se heurtent à des difficultés lors de leur mise en œuvre. Cela s'explique en grande partie par une série d’enjeux liés à l'infrastructure des données, comme le révèlent les principales conclusions d'une nouvelle étude menée par le cabinet Enterprise Strategy Group (ESG).

L'enquête, qui s'est concentrée sur les entreprises ayant déjà mis en place des projets d'IA, a permis de valider l'étendue et l'ampleur des problématiques auxquelles sont confrontés les décideurs en matière d'infrastructure informatique lorsqu'ils commencent à intensifier leurs efforts et à adopter de nouvelles approches en matière d'IA.

Le stockage : le plus important obstacle dans les projets d’IA

Commençons par les bonnes nouvelles. Dans l'ensemble, il est clair que l'IA est de plus en plus considérée comme une priorité stratégique. 84 % des personnes interrogées estimant qu'elle est essentielle pour l'avenir de leur entreprise. À mesure que son importance grandit, on prend également conscience que les entreprises devront moderniser leurs infrastructures afin de répondre aux exigences souvent considérables en matière de performances liées à l'exécution des charges de travail IA à grande échelle. Près de neuf répondants sur dix (89 %) ont déclaré qu'ils réalisaient d'importants investissements dans les infrastructures pour soutenir les initiatives en matière d'IA.

Cependant, l'étude a également mis en évidence que les problèmes liés aux données et au stockage font de plus en plus partie d’une problématique : 70 % des entreprises interrogées déclarent que les défis liés au stockage constituaient un obstacle important à la réussite de l'IA, tandis que 83 % ont déclaré qu'elles prévoyaient de mettre à niveau leur stockage au cours des deux prochaines années afin de soutenir les initiatives en matière d'IA.

À quels types de problèmes de stockage les entreprises sont-elles confrontées précisément ? L'étude a identifié toute une série de problèmes, dont la nature et l'ampleur varient en fonction du stade du cycle de vie de l'IA sur lequel les entreprises se concentrent. Par exemple, au stade de la préparation des données, le principal problème est la gestion des données et de la capacité. Cela n'est peut-être pas surprenant si l'on considère que 87 % des personnes interrogées ont déclaré constater que l'IA entraînait déjà une croissance considérable des données dans leur entreprise.

Le problème de la fragmentation des données

Face à cette augmentation rapide du volume de données, les entreprises ont du mal à identifier, localiser et préparer les données dont elles ont besoin pour leurs pipelines d'IA. Ce défi est souvent aggravé par la fragmentation des données entre plusieurs silos de stockage et dans divers emplacements sur site et hors site.

Ainsi, un peu plus d'un tiers des répondants (34 %) déclarent que leurs centres de données sur site sont les principaux emplacements de leur infrastructure pour les initiatives d'IA de leur entreprise. Une proportion similaire (30 %) dit que ce sont les fournisseurs de cloud public. Le reste se répartit entre les fournisseurs spécialisés en services de calcul en ligne, qui louent du temps GPU, les succursales et les datacenters en colocation.

Environ 40 % des personnes interrogées utilisent à la fois des emplacements sur site et dans le cloud pour leurs charges de travail d'IA. Cela signifie que de nombreuses entreprises rechercheront des plateformes capables de gérer efficacement leur environnement d'IA vie des déploiements hybrides.

Le problème des performances du stockage

Dans la phase d'entraînement des modèles d'IA, les performances deviennent le principal enjeu en matière de stockage, notamment pour fournir un débit suffisant. Les GPU sont gourmands en données et l'exécution de processus d'entraînement, dont le check-pointing, peut exercer une pression extraordinaire sur l'environnement de stockage tout en maintenant les GPU saturés. Tout retard à ce niveau se traduit par une perte de cycles GPU, ce qui représente le gaspillage coûteux d'une ressource extrêmement onéreuse.

Passons maintenant à la phase d'inférence, la « phase de valeur » de l'IA sur laquelle beaucoup concentrent leurs efforts. Là encore, l'accent est mis sur les performances de stockage, mais cette fois-ci, ce sont les problèmes de latence qui prédominent. À mesure que les entreprises prennent conscience de la puissance des outils d'inférence avancés - dont le RAG, l'IA agentique ou d'autres approches basées sur le raisonnement - elles posent des questions de plus en plus sophistiquées. En conséquence, les fenêtres contextuelles et le nombre de tokens explosent, tout comme les demandes d'entrée-sorties vers le stockage sous-jacent.

Le problème de la confidentialité

Un autre facteur critique identifié dans cette étude est l'importance de la confidentialité et de la sécurité des données dans le domaine de l'IA en général. Avec 79 % des personnes interrogées indiquant que l'IA pose des défis importants en matière de sécurité des données pour leur entreprise, il n'a jamais été aussi important de garantir la sécurité de l'environnement de stockage sous-jacent.

En effet, les responsables informatiques et commerciaux ne se lanceront tout simplement pas dans l'IA à grande échelle s'ils n'ont pas une confiance totale dans leur capacité à sécuriser les données clés et à préserver leur confidentialité. De plus, l'étude a montré que près de la moitié des entreprises (44 %) ne disposent que de mesures de base, voire d'aucune mesure, pour garantir la confidentialité dans les systèmes de stockage IA.

Cela conduit à une nouvelle vague d'innovations et d'investissements dans le domaine de la sécurité et de la confidentialité des données au sein de l'infrastructure de stockage et de données. Si ces innovations s'appliquent généralement à l'ensemble de l'environnement de stockage, elles ont un rôle particulier à jouer dans le contexte de l'IA. Si elles sont mises en œuvre avec succès, elles donneront aux responsables informatiques la confiance et l'assurance que seules les données appropriées sont utilisées dans les charges de travail IA de leur entreprise.

Les perspectives

Même si nous devons garder à l'esprit que nous n'en sommes encore qu'aux prémices de l'ère de l'IA, en particulier dans le contexte des entreprises, cette nouvelle étude souligne l'importance cruciale de l'infrastructure de données sous-jacente pour les efforts émergents en matière d'IA. Elle insiste sur le fait que les entreprises doivent se demander si leur stratégie actuelle en matière d'infrastructure de stockage est adaptée à l'ère de l'IA.

Elle valide également l'écosystème croissant des fournisseurs d'infrastructures de stockage et de données qui se concentrent sur la fourniture de niveaux élevés de performances et d'évolutivité, de manière de plus en plus intelligente, en comprenant la nature des données stockées, soit de manière native, soit grâce à de riches intégrations tierces.

En effet, à mesure que la puissance et le potentiel de l'IA continuent d'évoluer, il est clair que des liens plus étroits devront être tissés entre l'infrastructure de stockage et l'environnement de gestion des données afin de mettre en place des pipelines de données IA sécurisés, efficaces et efficients.

Cela représente un certain défi pour le statu quo dans de nombreuses entreprises, qui nécessitera, entre autres, une collaboration accrue entre les professionnels de l'informatique spécialistes de l'infrastructure, les ingénieurs spécialistes des données et même les équipes chargées de la sécurité, de la confidentialité et de la conformité des données. Néanmoins, les avantages pour ceux qui réussiront cette transition pourraient être considérables.

Pour approfondir sur Administration du stockage