IA en cloud : pourquoi il est nécessaire d’optimiser le réseau
Un projet d'IA en cloud peut entraîner des pertes financières si la mise en réseau n'est pas optimale. Cet article explique les limites des infrastructures réseaux proposées de base par les hyperscalers et comment les contourner.
Les connexions réseau en cloud jouent un rôle significatif dans l'efficacité des charges de travail en ligne liées à l'IA. 92 % des responsables informatiques interrogés dans le cadre de l'étude « State of AI for Networking 2026 » menée par Extreme Networks indiquent que l'IA a accru les besoins en puissance de calcul, mais aussi en bande passante, ce qui souligne à quel point l'adoption de l'IA met à rude épreuve l'infrastructure existante et rend nécessaire la mise en place de réseaux cloud plus évolutifs.
Les réseaux ont un impact sur l'IA de diverses manières, notamment :
- Performances. Pour permettre une prise de décision en temps réel — un objectif courant dans les cas d'utilisation de l'IA —, les données doivent circuler sur les réseaux avec une latence minimale.
- Fiabilité. Une bande passante limitée ou la perte de paquets peuvent entraîner l'échec des charges de travail d'IA, car celles-ci ne peuvent pas accéder de manière fiable aux données dont elles ont besoin.
- Coût. Les fournisseurs de cloud facturent l’export de données dans la plupart des cas, c'est-à-dire le transfert de données vers un emplacement situé en dehors de leurs plateformes cloud. Cela peut entraîner des difficultés liées à la gestion des coûts de l'IA, car si les modèles transfèrent constamment des données entre les clouds, les factures de sortie s'accumuleront rapidement.
- Évolutivité : les limitations de bande passante et de performances du réseau peuvent restreindre l'évolutivité des charges de travail d'IA. Par exemple, le nombre de requêtes qu'un modèle basé sur le cloud peut traiter par seconde pendant l'inférence dépend de la vitesse à laquelle les réseaux cloud peuvent transférer ces requêtes entre les utilisateurs et les modèles.
- Retards liés aux réseaux multicloud. Les réseaux cloud offrent généralement d'excellentes performances lors du transfert de données au sein d'un même cloud. Cependant, pour les entreprises qui utilisent une architecture multicloud, les retards de latence et les limitations de bande passante lors du transfert de données entre différents clouds peuvent constituer un goulet d'étranglement pour les performances de l'IA.
- Contrôles d'accès. La sécurisation des réseaux cloud nécessite le déploiement de politiques de contrôle d'accès qui restreignent la manière dont les ressources peuvent interagir. Des erreurs de configuration peuvent toutefois entraîner des problèmes de performances de l'IA. Elles peuvent par exemple empêcher deux agents IA de communiquer entre eux.
- Observabilité. La surveillance des performances réseau est particulièrement compliquée lors du déploiement de charges de travail IA dans le cloud, en raison des volumes élevés de transfert de données et de la complexité des architectures de réseau cloud.
Comment optimiser les réseaux cloud pour l'IA ?
Il existe plusieurs bonnes pratiques pour tirer le meilleur parti des réseaux en cloud et pour intégrer les charges de travail IA entre elles ou avec d'autres composantes d’une infrastructure informatique.
VPC. Les réseaux privés virtuels (VPC) constituent un type de ressource réseau cloud qui isole les charges de travail au niveau du réseau. Ils peuvent contribuer à renforcer la sécurité de l'IA sans compromettre les performances. Par exemple, en déployant un modèle d'IA au sein d'un VPC, une entreprise peut plus facilement restreindre l'accès vers le modèle aux utilisateurs humains et aux services logiciels autorisés.
Les VPC peuvent également faciliter les pratiques de sécurité en matière d'IA, notamment le filtrage des requêtes, car ils permettent de faire transiter toutes les requêtes et réponses par un point de terminaison central où le filtrage peut être effectué.
Réseaux maillés d'agents. Les réseaux maillés d'agents constituent une technologie émergente dont l'objectif principal est d'intégrer des agents d'IA entre eux. Dans la plupart des cas, ils fonctionnent en acheminant les communications entre les agents et les modèles d'IA via un hub central, où les données peuvent être filtrées, transformées, bloquées, etc. Cela évite d'avoir à effectuer ces tâches au sein de chaque agent individuel.
Du point de vue des réseaux cloud, les réseaux maillés d'agents peuvent contribuer grandement à améliorer les performances et à atténuer les problèmes de sécurité. Ils pourraient, par exemple, supprimer les données inutiles des requêtes qu'un agent envoie à un modèle. Cela réduirait la quantité de données devant transiter sur le réseau, ce qui améliorerait les performances et (si les données circulent entre des environnements cloud) réduirait les coûts de sortie.
IA en Edge. L'Edge computing désigne le déploiement de charges de travail à proximité des utilisateurs finaux plutôt que dans des centres de données cloud centraux. Dans le contexte des charges de travail d'IA, en particulier celles qui doivent répondre aux requêtes des utilisateurs en temps réel, l'Edge computing peut constituer un moyen puissant d'améliorer les performances en minimisant la distance que les données doivent parcourir.
L'Edge computing pour l'IA présente par ailleurs divers enjeux, notamment la nécessité de déployer en périphérie une infrastructure capable d'héberger des modèles d'IA gourmands en ressources de calcul. Mais du point de vue des réseaux, les gains de performances peuvent être considérables.
Interconnexions. Les interconnexions de réseau sont des réseaux dédiés qui relient deux sites spécifiques ou plus, par exemple deux clouds publics distincts, ou encore un cloud public et un centre de données privé.
Comme les interconnexions permettent aux entreprises de transférer des données via une infrastructure dédiée plutôt que d'utiliser l'Internet « générique », elles peuvent considérablement améliorer les performances. Elles constituent un autre moyen d'accélérer les performances de l'IA, en particulier pour les traitements en temps réel.
Cet article est initialement paru en anglais sur SearchCloudComputing.
