Les raisons d’utiliser l’IA sur site

La croissance rapide de l’intelligence artificielle est due en grande partie aux outils basés sur le cloud. Mais il existe de très bonnes raisons d’héberger les charges de travail d’une IA sur site.

Les services d’intelligence artificielle comme ChatGPT d’OpenAI, Copilot de Microsoft ou encore Gemini de Google fonctionnent en cloud. Mais ce n’est pas une fatalité. La disponibilité en téléchargement gratuit de certains LLM, les performances des serveurs locaux et les avantages de la localisation de l’IA à proximité des sources de données créent des situations qui favorisent l’architecture sur site. Viennent ensuite les considérations relatives à la sécurité, à la confidentialité des données, à la protection de la propriété intellectuelle et au coût. Pour chacun de ces sujets, il existe des arguments solides en faveur de l’IA sur site, même si le marché promeut principalement les solutions en cloud.

« La plupart des entreprises exécutent actuellement leurs charges de travail d’IA dans le cloud, en raison des avantages considérables en termes d’évolutivité, de rentabilité et de déploiement rapide qu’offrent les plateformes cloud telles que AWS, Azure et GCP », explique Derreck Van Gelderen, responsable de la stratégie IA chez PA Consulting.

« Ces fournisseurs de cloud ont développé des écosystèmes complets permettant aux entreprises de contourner les coûts d’infrastructure initiaux importants et d’accéder à des ressources flexibles qui sont idéales pour gérer les demandes de calcul élevées des modèles d’IA et maintenant d’IA générative, en particulier pendant les phases d’entraînement qui nécessitent beaucoup de ressources », ajoute-t-il.

John Gasparini, responsable de la stratégie et de la technologie cloud chez KPMG, observe des tendances similaires. « Il est certain que la majorité des clients avec lesquels je travaille utilisent des services d’IA en cloud pour tester leurs premiers cas d’usage », dit-il. « Ils tirent parti de certains des grands modèles de langage qui existent, ou construisent leurs propres modèles à partir de ces services en cloud. »

Selon lui, la mise en place de capacités d’IA sur site nécessite un « investissement important », alors que le retour sur investissement n’est pas garanti.

L’infrastructure en cloud permet aux entreprises de créer rapidement des systèmes d’IA, mais aussi de trier les projets qui ne fonctionnent pas. Le cloud permet également d’accéder facilement à des LLM sophistiqués. Bon nombre des principaux modèles de GenAI ne sont, pour l’instant du moins, disponibles que dans le cloud.

Mais le cloud a ses limites. Et certaines de ces limites deviennent un fardeau de plus en plus lourd à mesure que les entreprises étendent leur utilisation de l’IA, que ce soit parce que leurs tâches se diversifient ou parce qu’elles la relient à des données de plus en plus sensibles.

Les limites de l’IA en cloud

« L’avantage du cloud public est qu’il permet de tester des idées. »
John GaspariniResponsable stratégie et technologie cloud, KPMG

Les limites de l’IA en cloud reflètent largement les inconvénients du cloud tout court : souveraineté des données, sécurité, réglementation croissante et coût. « L’avantage du cloud public est qu’il permet de tester des idées. Si ces idées ne fonctionnent pas, vous pouvez les désactiver et vous n’avez pas à faire face à d’importants coûts d’amortissement à ce stade », estime M. Gasparini de KPMG.

Mais à mesure que les projets d’IA se développent, les factures augmentent également. « J’ai eu récemment des conversations avec des clients qui commencent à s’interroger sur la manière d’avoir une visibilité sur les coûts de l’IA », ajoute-t-il.

« Si elles ne fonctionnent pas, vous pouvez les désactiver. Vous n’avez pas à faire face à d’importants coûts d’amortissement à ce stade. »
John GaspariniResponsable stratégie et technologie cloud, KPMG

Comme pour toute autre application en cloud, les entreprises doivent comprendre comment prévoir et gérer ces coûts. En ce qui concerne l’IA, les coûts peuvent augmenter avec l’accroissement des volumes de données pour la formation et avec l’augmentation du nombre d’utilisateurs effectuant des requêtes à l’aide d’outils d’IA.

« Le cloud peut s’adapter et, à court terme, cela fonctionne très bien », suggère Grant Caley, directeur des solutions chez NetApp. « Mais dès que vous y laissez des choses, y compris les données elles-mêmes, vous devez payer pour cela. L’argument du coût devient rapidement déterminant. »

En outre, si une entreprise utilise des bases de données vectorielles pour des projets d’IA – ce qui est le cas de la plupart d’entre elles – les chiffres de l’industrie suggèrent qu’elle pourrait avoir besoin de dix fois plus d’espace que pour les données d’origine. Cela augmente rapidement les coûts. La souveraineté des données, la protection de la vie privée et la sécurité sont également des raisons de passer du cloud à l’IA sur site.

« Certains des principaux enjeux auxquels les entreprises sont confrontées sont la confidentialité et la souveraineté des données. »
Derreck Van GelderenResponsable stratégie IA, PA Consulting

« Certains des principaux enjeux auxquels les entreprises sont confrontées sont la confidentialité et la souveraineté des données », met en garde M. Van Gelderen de PA Consulting. « Cela est particulièrement important dans des secteurs tels que la défense, le nucléaire, la santé et d’autres entreprises très réglementées qui ont besoin d’un contrôle solide sur les données. »

Les performances peuvent également poser problème. « La latence est une autre difficulté, en particulier pour les applications nécessitant des réponses quasiment en temps réel », explique-t-il. « Les délais introduits par la transmission des données vers et depuis les serveurs en cloud peuvent être un facteur très limitant dans de nombreux scénarios. »

Déplacer l’IA sur site

Les limites du cloud incitent au moins certaines entreprises à gérer l’IA en interne ou à se tourner vers des options sur site à mesure que leurs opérations d’IA se développent. Cela est lié au type d’IA que les entreprises utilisent, à l’emplacement des sources de données et aux différents besoins des phases d’apprentissage et d’inférence de l’IA

« Le cloud peut s’adapter et, à court terme, cela fonctionne très bien. Mais dès que vous y laissez des choses, y compris les données elles-mêmes, vous devez payer pour cela. »
Grant CaleyDirecteur des solutions, NetApp

« Aujourd’hui, lorsque la plupart des gens font référence à l’IA, ils pensent dans 90 % des cas aux technologies GenAI [IA générative, N.D.R.] », explique M. Van Gelderen de PA Consulting. « L’IA générative et les LLM ne sont toutefois qu’une partie du paysage plus large de l’IA et ont des besoins d’infrastructure distincts par rapport à l’IA “traditionnelle” – par exemple, les modèles de classification et de régression de l’apprentissage automatique, et d’autres sous-ensembles tels que le traitement du langage naturel et la vision par ordinateur. »

Cela suggère que les entreprises auront besoin de plus d’une approche technologique pour l’IA. En outre, l’importance croissante de la génération augmentée par la recherche (RAG) ajoute une autre couche de complexité. Les entreprises utilisent le RAG pour ajouter leur propre contexte commercial aux résultats des modèles d’IA. Cela peut donner lieu à des résultats plus sensibles, ou nécessitant plus de sécurité, que les résultats bruts d’un grand modèle de langage.

« Il semble que le RAG soit devenu non négociable pour les entreprises qui utilisent l’IA générative dans leurs propres environnements », déclare Patrick Smith, directeur technique de Pure Storage pour la région EMEA.

« Premièrement, il permet de surmonter la plupart, voire la totalité, des problèmes liés aux hallucinations. Deuxièmement, il vous donne la possibilité d’utiliser vos propres données avec l’IA générative, sans avoir à procéder à un quelconque réglage. Troisièmement, il vous permet de surmonter l’impossibilité d’utiliser les données actuelles sans réentraîner le modèle. Ainsi, la question de l’actualité des connaissances est également prise en compte », ajoute-t-il.

« Dès que vous avez adopté une base de données vectorielle et une approche RAG, vous voulez le modèle à côté de votre base de données vectorielle. »
Patrick SmithDirecteur technique Pure Storage, région EMEA

Mais cela a une incidence sur l’infrastructure nécessaire pour faire fonctionner l’IA. Selon M. Smith, cela a un impact sur les performances et la « gravité des données ». Le meilleur endroit pour localiser les données, suggère-t-il, est moins déterminé par le LLM que par les bases de données vectorielles.

 « Il s’agit de définir l’emplacement de la solution globale, ce qui incite les gens à retirer les solutions d’IA du cloud public pour les ramener dans leur propre centre de données », explique-t-il. « Dès que vous avez adopté une base de données vectorielle et une approche RAG, vous voulez le modèle à côté de votre base de données vectorielle. »

Les entreprises n’ont pas non plus toujours besoin des derniers modèles d’IA générative basés sur le cloud. Les LLM Open source, tel que Llama de Meta, suscitent un intérêt croissant.

On assiste à l’émergence de modèles pouvant fonctionner sur du matériel moins puissant, proposés par des entreprises telles que la société française Mistral, ainsi que de modèles spécifiques à certains secteurs.

Les chercheurs travaillent également sur des petits modèles de langage. Ceux-ci pourraient être mieux adaptés au traitement des données les plus sensibles et plus faciles à utiliser en interne. À terme, ces modèles pourraient fonctionner sur un serveur standard, voire sur un ordinateur portable puissant. Mais ces options sont tout à fait différentes de l’exécution en interne des LLM de la génération actuelle, en particulier pendant les phases d’entraînement et de réglage.

Exécution de l’IA sur site : les considérations pratiques

Les entreprises qui souhaitent exécuter des charges de travail d’IA en interne doivent mettre en balance les exigences techniques et les coûts initiaux de l’infrastructure avec les coûts permanents et potentiellement croissants du cloud.

« L’exécution de charges de travail d’IA sur site présente plusieurs défis, notamment les coûts élevés du matériel, les exigences en matière d’alimentation et de refroidissement, et les demandes de maintenance continue. La mise en place d’une infrastructure capable de prendre en charge des modèles GenAI à grande échelle nécessite des investissements importants », prévient M. Van Gelderen de PA Consulting. « Dans la phase de formation, où de grands ensembles de données et une immense puissance de traitement sont nécessaires, les environnements en cloud offrent souvent un net avantage. »

Les entreprises doivent également se demander si elles disposent de l’espace, de la puissance et des composants nécessaires dans leur centre de données.

Le matériel spécialisé dans l’IA, en particulier les unités de traitement graphique (GPU), est coûteux et peut être difficile à obtenir. Les hyperscalers et leurs clients de l’IA en cloud ont accès aux GPU en volume. « La demande de puces GPU dépasse l’offre », explique M. Gasparini de KPMG. « Par conséquent, il ne reste plus grand-chose à consommer pour les entreprises. »

Les entreprises pourraient avoir besoin d’envisager des modèles moins gourmands en ressources pour les implémentations d’IA sur site, qui peuvent fonctionner sur du matériel courant

« Il est peu coûteux d’échouer dans le cloud, mais il est coûteux d’y réussir. »
Patrick SmithDirecteur technique Pure Storage, région EMEA

Mais il y a aussi des arguments d’efficacité à faire valoir. Au stade de l’inférence, les modèles d’IA pourraient bien fonctionner en permanence, ce qui les rendrait plus économiques à exploiter en interne, à condition que les entreprises disposent de la capacité du centre de données.

« Remettre les choses dans le centre de données est une bonne chose du point de vue des coûts, en particulier si les LLM doivent fonctionner en permanence », suggère M. Caley de NetApp. « Si vous n’avez l’intention de faire tourner un groupe de GPU que pendant 10 heures pour réaliser un projet, le cloud est peut-être mieux adapté. »

M. Smith, de Pure Storage, partage cet avis. « Il est peu coûteux d’échouer dans le cloud, mais il est coûteux d’y réussir », déclare-t-il. « Faites votre prototypage là-bas – vous pouvez tout jeter si cela ne se passe pas comme prévu. Mais lorsque vous passez à la production, parce que vous avez prouvé votre retour sur investissement, alors vous avez aussi prouvé qu’il s’agit d’un service commercial précieux et vous voulez prendre à bras le corps la question des coûts. 

Pour approfondir sur SAN et NAS