Shuo - stock.adobe.com

Pourquoi faire tourner une IA sur site ?

La croissance rapide de l’intelligence artificielle est en grande partie due aux outils cloud. Mais il existe de très bonnes raisons d’héberger les workloads d’IA sur site.

Les services d’intelligence artificielle (IA) comme ChatGPT d’OpenAI, Copilot de Microsoft et Gemini de Google fonctionnent dans le cloud. Mais le cloud n’est pas obligatoire pour toutes les IA.

Les progrès technologiques, le développement de modèles open weight, de modèles plus petits, et les avantages d’avoir l’IA proche des sources de données favorisent l’option d’une architecture sur site. Cette tendance est soutenue par les considérations relatives à la sécurité, à la confidentialité des données, à la protection de la propriété intellectuelle. Et aux coûts. Dans chacun de ces sujets, l’IA sur site a des arguments à faire valoir, même si l’attention du secteur se porte principalement sur les solutions cloud.

« La plupart des entreprises exécutent actuellement leurs IA dans le cloud, pour les avantages considérables d’évolutivité, de rentabilité et de déploiement rapide qu’offrent des plateformes comme AWS, Azure et Google Cloud », explique Derreck Van Gelderen, responsable de la stratégie d’IA chez PA Consulting.

« Ces fournisseurs ont développé des écosystèmes complets qui permettent de s’affranchir des importants coûts d’infrastructure de départ et d’accéder à des ressources flexibles, idéales pour les fortes exigences des calculs que demandent les modèles d’IA – et désormais d’IA générative –, en particulier pendant les phases d’entraînement, très gourmandes en ressources », ajoute-t-il.

John Gasparini, responsable de la stratégie et du cloud chez KPMG, confirme. « La majorité des clients avec lesquels je travaille utilisent des services cloud d’IA pour tester des premiers cas d’utilisation », explique-t-il.

Pour lui, développer des capacités d’IA en interne nécessite « un investissement en capital important », alors même que le retour sur investissement (ROI) de l’IA n’est pas encore garanti.

L’infrastructure cloud permet à l’inverse de créer rapidement des systèmes, mais aussi de décommissionner les projets qui ne fonctionnent pas. Le cloud offre de surcroît un accès simple à des modèles sophistiqués, comme les LLMs de dernière génération.

Mais le cloud a ses limites. Et certaines deviennent plus contraignantes à mesure que les entreprises développent leur utilisation de l’IA – soit en élargissant les tâches faites avec de l’IA, soit en reliant l’IA à des données plus sensibles.

Limites de l’IA dans le cloud

Les limites de l’IA dans le cloud recoupent les inconvénients classiques du cloud computing : souveraineté des données, sécurité, réglementations croissantes et coût.

À mesure que les projets d’IA se développent, les factures augmentent. « J’ai récemment eu des conversations avec des clients qui commencent à chercher comment obtenir une visibilité sur les coûts de l’IA », confie John Gasparini.

« Le cloud fonctionne très bien à court terme. Mais dès que vous laissez des éléments dans le cloud, [dont] les données, vous devez payer. Cela devient très vite un argument de coût. »
Grant CaleyDirecteur des solutions pour le Royaume-Uni et l’Irlande, NetApp.

Comme pour les autres applications cloud, les entreprises veulent prévoir et gérer ces coûts. D’autant que pour l’IA, les coûts augmentent avec le volume de données et avec le nombre de requêtes faites aux outils d’IA.

« Le cloud fonctionne très bien à court terme », suggère Grant Caley, directeur des solutions pour le Royaume-Uni et l’Irlande chez le fournisseur de technologies NetApp. « Mais dès que vous laissez des éléments dans le cloud, [dont] les données, vous devez payer. Cela devient très vite un argument de coût. »

De plus, si une entreprise utilise des bases vectorielles – et c’est le cas dans la GenAI – des chiffres suggèrent qu’elle pourrait avoir besoin de dix fois plus d’espace que pour les données d’origine.

En plus des coûts, la souveraineté, la confidentialité et la sécurité sont des raisons de passer à l’IA sur site. « La confidentialité et la souveraineté des données sont parmi les principaux défis auxquels les entreprises sont confrontées », confirme Derreck Van Gelderen. « C’est particulièrement critique dans des secteurs comme la défense, le nucléaire, la santé et les organisations hautement réglementées qui ont besoin de contrôler rigoureusement leurs données. »

Les performances peuvent également être un problème. « La latence est un autre facteur, en particulier pour les applications qui nécessitent des réponses en temps réel ou quasi-temps réel, comme les systèmes autonomes ou les solutions Edge », explique-t-il. « Les retards induits par la transmission de données vers et depuis les serveurs cloud peuvent constituer un facteur limitant ».

Mettre son IA en interne

Les limites du cloud poussent certaines entreprises à faire tourner l’IA en interne et à envisager des options sur site. Mais ce choix est lié au type d’IA que les entreprises exploitent, à l’emplacement des sources de données et aux différents besoins des phases d’entraînement et d’inférence de l’IA.

« Aujourd’hui, lorsque les gens parlent d’IA, ils pensent à 90 % à la GenAI », explique Derreck Van Gelderen. « Mais l’IA générative et les LLMs ne sont qu’une partie du paysage plus vaste de l’IA. Ils ont des besoins d’infrastructure différents de ceux de l’IA “traditionnelle” – par exemple, les modèles de classification et de régression du Machine Learning, ou du NLP et de la vision par ordinateur. »

« L’IA générative et les LLMs ne sont qu’une partie du paysage plus vaste de l’IA. »
Derrek Van GelderenResponsable de la stratégie d’IA, PA Consulting

Son propos suggère que les entreprises ont besoin de plusieurs approches pour l’IA. L’importance croissante des RAG (retrieval-augmented generation) ajoute une couche supplémentaire de complexité.

Le RAG permet d’ajouter un contexte métier aux résultats du modèle. Mais faire un RAG implique souvent d’y mettre des données plus sensibles ou nécessitant davantage de sécurité.

« Le RAG est devenu incontournable pour les entreprises qui utilisent l’IA générative dans leurs propres environnements », avance Patrick Smith, directeur technique de Pure Storage pour la zone EMEA. « Il leur permet de surmonter la plupart, voire la totalité, des problèmes liés aux hallucinations. Ensuite, cela vous donne la possibilité d’utiliser vos propres données sans avoir à effectuer de réglages. Enfin, cela vous permet d’actualiser vos données sans réentraîner [le modèle] ».

Mais le RAG affecte l’infrastructure nécessaire à l’exécution de l’IA. Selon Patrick Smith, un RAG a un impact sur les performances et sur la « gravité des données ». Pour lui, le meilleur endroit afin de localiser les données est moins déterminé par le LLM que par les bases vectorielles.

« Dès que vous optez pour une approche RAG, vous voulez que votre modèle soit à côté de votre base de données vectorielle », explique-t-il

Les entreprises n’ont pas non plus toujours besoin des derniers modèles d’IA génératifs, puissants, mais gourmands. Elles s’intéressent par exemple de plus en plus aux LLMs open weight, comme Llama de Meta. Des modèles comme Mistral sont désormais capables de fonctionner sur du matériel moins puissant. Il en va de même de certains modèles plus spécifiques, pour certains secteurs.

Les chercheurs travaillent également sur des « small language models », plus faciles à faire tourner en interne. À terme, ces « petits » modèles pourraient fonctionner sur un « petit » serveur, voire sur un ordinateur puissant. Mais ces options restent très différentes de l’exécution en interne des LLMs de la génération actuelle, en particulier pendant les phases d’entraînement et de fine tuning.

Considérations pratiques sur l’IA en interne

Les entreprises qui souhaitent avoir leur IA en interne doivent évaluer les exigences techniques et les coûts initiaux de l’infrastructure, par rapport aux coûts lissés, mais croissants du cloud.

« La création d’une infrastructure capable de prendre en charge des modèles de GenAI à grande échelle nécessite beaucoup de capitaux. »
Derrek Van GelderenResponsable de la stratégie d’IA, PA Consulting

« L’exécution de workloads d’IA sur site pose des défis, notamment des coûts matériels élevés, des besoins en énergie et en refroidissement, et des exigences de maintenance continue. La création d’une infrastructure capable de prendre en charge des modèles de GenAI à grande échelle nécessite beaucoup de capitaux », prévient Derreck Van Gelderen. « Dans la phase d’entraînement, où de grands ensembles de données et une immense puissance de traitement sont nécessaires, les environnements cloud offrent souvent un avantage évident. »

Le matériel pour l’IA, notamment les processeurs graphiques (GPU), est coûteux et peut être difficile à obtenir. Les hyperscalers (et leurs clients donc) ont accès à de gros volumes de GPU. Mais « la demande [GPU] dépasse l’offre », explique John Gasparini. « Par conséquent, il reste très peu de choses à acheter pour les entreprises. »

Les entreprises devront donc peut-être envisager des modèles moins gourmands en ressources, qui peuvent tourner sur le matériel existant.

Mais il existe également des arguments de coûts. « Le retour des données dans le datacenter est une bonne chose en matière de coût, surtout si les modèles doivent fonctionner en permanence », avance Grant Caley. Mais « si vous n’utilisez qu’un ensemble de GPU pendant 10 heures pour réaliser un projet, le cloud est peut-être plus adapté. »

Patrick Smith est du même avis. « Échouer dans le cloud ne coûte pas cher, mais réussir coûte », résume-t-il. « Réalisez votre prototypage dans le cloud – vous pourrez tout jeter si ça ne se passe pas comme prévu. Et lorsque vous passez en production, vous aurez prouvé votre ROI, vous saurez qu’il s’agit d’un service pertinent et sur lequel vous pouvez concentrer des budgets. »

En fin de compte, cela incitera probablement les organisations à trouver des modèles d’IA qui fonctionneront avec l’infrastructure dont elles disposent – ou qu’elles peuvent se permettre de construire – plutôt que de s’appuyer sur le cloud pour leur stratégie d’IA à long terme avec l’illusion d’un coût plus faible.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM