Shuo - stock.adobe.com

Faire de l’IA sur site : un bénéfice pas encore évident pour les clients

La stratégie de Red Hat visant à réduire les coûts de l'inférence IA grâce à une infrastructure sur site et des modèles à poids ouvert présente un certain potentiel, mais doit encore faire ses preuves, selon les premières entreprises qui l’ont mise en œuvre.

Lors de la récente conférence Red Hat Summit 2026 qui s’est tenue mi-mai à Atlanta, plusieurs clients de l’éditeur au chapeau rouge sont venus témoigner du thème principal de cet événement : l’exploitation sur site d’infrastructures qui exécutent localement de l’IA, parce que ce serait moins cher et plus souverain qu’utiliser des services d’IA en cloud public. Sauf que ces premiers retours d’expérience ont brossé le tableau de projets réservés aux équipes qui avaient le cœur bien accroché.

BNP Paribas, par exemple, a détaillé son projet pluriannuel visant à passer d'une IA en cloud hybride à des modèles et une infrastructure d'IA entièrement hébergés entre ses murs. Pour la banque, la souveraineté de son IA était si importante, qu’elle était prête à s’investir dans des défis techniques dont elle ne se serait pas souciée en cloud.  

Et le fait est que son projet a posé dès le départ d'importants enjeux en matière d'infrastructure. La banque, qui traite quelque 1,5 milliard de tokens par jour, gère également des clusters de serveurs non virtualisés (« Bare-metal ») répartis sur trois datacenters à des fins de redondance. Son objectif, ambitieux, était de gérer les ressources matérielles en tant que service pour atteindre la même facilité d'utilisation que le cloud public. Et, ce, pour plus de 150 000 utilisateurs finaux.

Chez BNP, la difficulté de gérer le parc des clusters matériels

Pour y parvenir, BNP a entrepris de gérer un parc de clusters de machines à l’aide d’OpenShift HyperShift de Red Hat, une approche imbriquée qui héberge un système d’administration (le « plan de contrôle ») séparément des clusters de travail. La difficulté supplémentaire d’une telle architecture est de faire en sorte que les réseaux qui se superposent, ainsi que le stockage de la base etcd sur le plan de contrôle, soient correctement dimensionnés.

Apparemment, l’évaluation de ce dimensionnement a pris des mois. Parce que, déjà, comprendre le fonctionnement de cette architecture et savoir comment la gérer était un enjeu en soi.

À date, la banque réfléchit d’ailleurs toujours à la meilleure manière de mettre en place un pool de ressources GPU dans lequel les applications d’IA pourraient venir puiser de la puissance à la demande. « Pour les applications les moins gourmandes, je pense que nous allons basculer sur OpenShift Virtualization, ce qui permettra une allocation plus efficace des GPU », dit Pascal Guerineau, architecte technique chez BNP Paribas. Comme si la containerisation – soit le principe technique mis en valeur par Red Hat – était finalement moins efficace que la bonne vieille technique de virtualisation.  

Concernant le coût d’une telle infrastructure sur site, Pascal Guerineau affirme qu’il est inférieur à celui d’une IA hébergée en cloud. Mais il ne sait pas précisément dire de combien.

« Il est difficile d’évaluer de manière cohérente l’ensemble des coûts. Si vous disposez de machines équipées de GPU dans le cloud, c’est facile à quantifier. Si vous avez des GPU en interne, vous devez prendre en compte le coût des serveurs sur plusieurs années, ainsi que les frais liés aux centres de données et au personnel réseau… ce qui rend la communication de ces chiffres difficile. »

BNP Paribas présente son projet lors du Red Hat Summit 2026
De gauche à droite : Joe Fernandes, vice-DG de Red Hat, puis Pascal Guerineau, Jean-Charles Lamy et Mathieu Keignaert de BNP Paribas.

Selon Red Hat, BNP Paribas ferait figure d'exception en voulant exécuter l’IA à 100% en interne. L’éditeur, qui a pourtant défendu pendant toute sa conférence un grand retour des infrastructures dans les datacenters privés, indique lors du témoignage de son client que l’essentiel des entreprises optera sans doute plutôt pour une solution hybride, qui conserve un peu d’IA en cloud... C’est en tout cas, la seule excuse que l’éditeur a trouvé à répondre lorsque le public qui assistait à ce témoignage lui a demandé comment régler ce problème de gestion complexe de l’architecture matérielle.

À la décharge de l’éditeur, une partie de cette complexité tient aussi au fait que le prix des matériels a augmenté à cause de la pénurie de mémoires DRAM et NAND qui frappe le marché depuis la fin de l’année dernière.

« De plus, les travaux de BNP Paribas sont antérieurs à bon nombre des mises à jour fonctionnelles d'OpenShift AI destinées à en faciliter l'utilisation. C’est notamment le cas des fonctionnalités de Model-as-a-Service qui ont justement été dévoilées durant la conférence Red Hat Summit 2026 », indique Brian Stevens, le directeur technique de Red Hat spécialisé en IA. « Nos derniers progrès autour de l'inférence consistent à simplifier cela et à masquer la complexité », insiste-t-il.

Les projets initiés en 2025 voient des bénéfices fonctionnels, pas encore financiers

D'autres clients ont fait état de gains d'efficacité liés à des migrations plus récentes vers OpenShift AI. Des représentants de la banque turque Yapi Kredi ont ainsi relaté une migration prévue initiée en 2025 d'un système MLOps basé sur Cloudera vers une nouvelle plateforme OpenShift AI partagée entre de l'IA prédictive et de l’IA générative. Ce déploiement aurait permis un dépannage 50 % plus rapide et une intégration 75 % plus rapide du point de vue de ses datascientists.

Lors d’une autre session, des représentants de Northrop Grumman, un conglomérat américain de sous-traitants dans l’aéronautique, ont raconté qu’OpenShift avait permis de provisionner rapidement et de manière fiable des services d’IA depuis leur première ferme de GPU installée sur site en 2025. Cela dit, le gain économique par rapport au cloud se fait attendre.

« Je m’attends à ce que les avantages en termes de rentabilité par rapport aux services en cloud public deviennent plus évidents à mesure que l'IA agentique augmentera la consommation interne de tokens », a déclaré Joseph McConnell, responsable du centre d'excellence en automatisation des infrastructures chez Northrop Grumman.

Et de préciser : « Pour l'instant, c'est un peu mitigé. Honnêtement, nous n'avons pas encore fait les calculs pour être précis, mais d'après ce que nous disent les fournisseurs, c'est [lorsque] l'on atteint cette utilisation régulière et massive de millions de tokens par utilisateur que l’avantage économique d’une infrastructure sur site aura lieu. »

L’amélioration : utiliser Red Hat AI plutôt qu’OpenShift AI

Selon les analystes, les bénéfices d’une IA 100% sur site, en termes de coûts et de complexité, se feront avec la dernière mouture de Red Hat AI, un produit dédié à l’inférence, alors que tous les témoins ont réalisé des déploiements avec OpenShift AI, un système censé imiter le fonctionnement du cloud et enrichi avec des logiciels pour l’IA.  

« Red Hat AI 3.4 est un pas dans la bonne direction pour réduire la fragmentation, l'expansion incontrôlée de la shadow AI [en référence au shadow IT dans lequel on ne sait pas qui utilise quoi, N.D.R.] » estime Tim Law, analyste chez IDC. « Ce produit élimine une grande partie des frictions et des difficultés liées aux opérations LLM hybrides. La suppression de ces frictions entraîne des économies de coûts directs supplémentaires, ainsi que des économies de coûts indirects. »

Mais les risques liés à des charges de travail aussi complexes que l'IA générative restent nombreux et pourraient rapidement s'accumuler pour de nombreuses entreprises, penser pour sa part Varun Raj, un consultant qui travaille sur des initiatives de transformation de l'IA et du cloud en entreprise.

« Red Hat AI est une couche d'abstraction importante, mais ce n'est pas encore une solution miracle. L'automatisation n'élimine pas les questions les plus épineuses pour les entreprises : quel modèle utiliser, la qualité est-elle suffisante, comment l'évaluer en continu, comment la sécuriser, comment gérer les résultats, et à partir de quand l’hébergement sur site est-il réellement moins coûteux que l'utilisation de services en ligne via leurs API ? », dit-il.

Utiliser une IA non commerciale, l’autre aspect de l’IA sur site

La proposition de valeur de Red Hat AI est double : elle appelle non seulement à une automatisation plus efficace des systèmes informatiques internes, mais aussi à une évolution vers des LLM quantifiés, à poids ouvert, voire de petite taille, qui sont théoriquement moins coûteux et plus faciles à exécuter sans matériel haut de gamme.

L’utilisation de modèles à poids ouverts serait aussi un sujet en soi. Osmancan Uslu, qui chapeaute 200 datascientists chez Yapi Kredi, veut témoigner des difficultés qu’il a rencontrées lorsque sa banque s’est mise à utiliser des LLM génériques plutôt que des modèles prédictifs développés en interne : « lorsque nous sommes passés à Red Hat, nous utilisions déjà une architecture open source, ce qui a un peu facilité les choses. La complexité a commencé pour nos datascientists lorsque nous avons mis en œuvre pour la première fois des modèles Open source de prédictions des risques ». Il leur a fallu tout réapprendre.

Cela dit, les entreprises semblent motivées à essayer des modèles alternatifs et de l’hébergement sur site, ne serait-ce qu’à cause de la hausse des coûts des IA en cloud. Une enquête Omdia menée en octobre révèle ainsi que près de la moitié des entreprises utilisent à présent des modules Open source dans leurs projets d’IA.

« Les grandes entreprises disposant de services informatiques internes de taille respectable se tourneront de plus en plus vers des IA Open source, car elles ont les ressources nécessaires pour les exploiter », prédit Mark Beccue, l’auteur chez Omdia du rapport consacré à cette étude.

« Parmi les principales méthodes permettant de réduire les coûts d'exploitation de l'IA générative figurent les techniques d'optimisation des modèles, notamment la quantification, citées par 21 % des personnes interrogées, et l'exécution des calculs IA sur site plutôt que dans un cloud public, citée par 18 %. Les modèles à poids ouverts figurent plus bas dans la liste, cités par 4 % des personnes interrogées », indique aussi Mark Beccue.

Étude ESG/Omdia Survey sur les coûts de la GenAI
Un rapport publié par Omdia indique que les entreprises cherchent déjà à réaliser des économies dans le domaine de l'IA générative en recourant à des architectures d'IA alternatives et à l’hébergement sur site.

L’IA agentique déterminera ce qu’il faut installer sur site

Reste à savoir si les LLM à paramètres ouverts pourront rivaliser efficacement avec les modèles d’IA commerciaux à l’ère des agents d’IA, compte tenu des exigences en matière de raisonnement imposées par l’IA agentique.

« Les modèles d’IA hébergés sur site seront parfaits pour des tâches spécifiques et bien définies, comme le service client. Mais ils pourraient ne pas convenir dans d’autres domaines, dont les processus agentiques. La gestion des flux de travail agentiques est un nouvel enjeu et nous attendons encore de voir comment les fournisseurs faciliteront son utilisation », estime Larry Carvalho, consultant pour le cabinet RobustCloud.

« La valeur des modèles plus petits proviendra de leur rentabilité, de leur contrôle, de leur latence, de la localisation des données et de l’exécution prévisible des tâches — et non de leur capacité à rivaliser avec les modèles de pointe (dits Frontier) sur tous les plans », rétorque l’analyste Varun Raj.

« En ce sens, l’adoption d’agents pourrait en réalité accroître la valeur des modèles plus petits, car des agents bien conçus ont besoin d’un portefeuille de modèles, et non d’un seul modèle coûteux capable de tout faire », ajoute-t-il.

« Nous n’en sommes pas encore là. D’autant qu’à mesure que les cas d’utilisation en entreprise se multiplieront et que les entreprises rencontreront davantage de succès avec l’IA, les éditeurs de modèles d’IA commerciaux proposeront de plus en plus de versions de leurs produits directement installables sur les infrastructures sur site », veut croire pour sa part Brian Stevens de Red Hat.

Cet article est l’adaptation d’une actualité parue en anglais sur SearchITOperations.

Pour approfondir sur IA appliquée, GenAI, IA infusée