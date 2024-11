Le rachat, dont le montant n’a pas été dévoilé, a été rendu public cette semaine lors de la KubeCon + CloudNativeCon North America. Plus spécifiquement, Red Hat a organisé un sous-événement en marge de la KubeCon, nommé l’OpenShift Commons.

Neural Magic, basée à Somerville dans le Massachusetts, se spécialise dans les techniques avancées d’optimisation des LLM qui sous-tendent les applications d’IA générative. La société a été fondée en 2018 par un professeur et chercheur du MIT dans le but de les découpler des GPU, une ressource rare et chère.

En sus de son expertise en matière d’inférence, Neural Magic commercialise une distribution de vLLM embarquant des librairies de quantification (ou quantization en VO, ici Merlin INT4) et de parcimonie des calculs (DeepSparse, SparseML, SparseZoo).

Les dirigeants de Red Hat en sont certains. L’accent mis par Neural Magic sur la prise en charge d’un plus grand nombre d’infrastructures sur lesquelles les LLM peuvent s’exécuter est conforme à la fois à la stratégie de cloud hybride de Red Hat pour ses plateformes de développement et à son engagement pris plus tôt cette année à soutenir le développement de modèles open source.

« Nous pensons que l’avenir de l’IA va s’accélérer grâce à l’open source », a déclaré Chris Wright, CTO de Red Hat, lors d’une conférence de presse mardi. « Notre objectif est de créer cette infrastructure d’IA évolutive qui permet à nos clients d’entraîner ou d’inférer [des modèles d’IA] partout où cela est pertinent pour leur activité. »

Neural Magic emploie deux des 10 principaux contributeurs du projet vLLM, décrit sur sa page GitHub comme « un moteur d’inférence et de service à haut débit et à mémoire efficace pour les LLM ». La bibliothèque vLLM est livrée dans le cadre du projet RHEL AI et OpenShift AI de Red Hat depuis le milieu de l’année. Celle-ci s’appuie sur un autre framework inclus dans OpenShift AI : Ray.

Au sein d’OpenShift AI, vLLM fonctionne de manière similaire à un serveur d’exécution d’application Web traditionnel, mais est optimisé pour exécuter un LLM, selon Derek Carr, ingénieur senior distingué chez Red Hat, dans un entretien avec SearchITOperations, une publication sœur du MagIT, lors d’OpenShift Commons.

« Dans une application Java traditionnelle, vous disposez d’un fichier JAR [archive Java] ou WAR [archive d’application Web] et vous le transmettez à un middleware comme [Apache] Tomcat ou JBoss pour l’exécuter », explique Derek Carr. « [Avec vLLM], au lieu de lui fournir un fichier JAR, vous lui transmettez un fichier LLM », illustre-t-il.

Cette acquisition signifie que Red Hat va faire appel à des ingénieurs spécialisés dans l’entraînement, la mise en œuvre et l’inférence de LLM.

Dans un même temps, les entreprises sont confrontées à des problèmes de retour sur investissement et de confidentialité des données liés à l’IA générative. Ces problèmes poussent certaines d’entre elles à étudier l’idée d’héberger elles-mêmes les charges de travail liées à la GenAI. Selon les analystes du secteur, un fournisseur cloud facture la ressource GPU à l’heure et il peut être tenté d’exploiter les données sensibles e ses clients afin d’entraîner ses propres modèles.

« Avoir des modèles plus petits et plus proches de l’utilisateur et pouvoir gérer leur prolifération sont des défis de taille et cette acquisition pourrait Red Hat à les relever », avance Rob Strechay, analyste chez TheCube Research. « OpenShift AI se porte extrêmement bien dans les entreprises… qui tentent toujours d’obtenir un retour sur investissement », poursuit-il. « Cet ajout permettra d’intégrer les modèles dans les moindres recoins d’une entreprise, par exemple dans les ateliers des usines ou dans les équipements Edge des opérateurs de télécommunications. »

Les plateformes de développement pivotent vers le LLMOps Les utilisateurs d’OpenShift AI qui ont fait une présentation à Commons ont exprimé leur intérêt pour vLLM et d’autres fonctionnalités LLMOps d’OpenShift AI. Mais il est encore tôt pour les exploiter, même pour des entreprises aussi expérimentées en IA et en machine learning que Mastercard. Mardi, les représentants de l’émetteur de cartes de crédit ont parlé du lancement récent de la version 2.0 d’une plateforme « AI Workshop » qu’ils maintiennent pour les services d’opérations d’apprentissage automatique. Elle est désormais basée sur OpenShift AI. Cette version 2.0 propose un « terrain de jeu » en libre-service qui automatise les déploiements d’Apache Spark en coulisses. L’approche LLMOps est toujours sur la feuille de route, déclare Ravishankar Rao, ingénieur logiciel principal chez Mastercard, auprès de SearchITOperations. « Nous proposerons bientôt une solution LLMOps à la demande basée sur les NIM [des microservices d’inférence] de Nvidia, et nous souhaitons intégrer des cas d’usage à exécuter sur des données spécifiques à l’entreprise », informé Ravishankar Rao. « Nous travaillons avec OpenShift AI pour évaluer vLLM. » Les ingénieurs en calcul haute performance (HPC) de l’Université de New York ont ​​déclaré que leur plateforme subissait encore des « difficultés de croissance » en matière de LLMOps, en partie à cause du chevauchement avec les plateformes Kubernetes et cloud développées en interne qui doivent être migrées vers OpenShift AI. « Nous en sommes encore à la phase pilote préliminaire de quelques éléments isolés avec OpenShift AI », renseigne Carl Evans, spécialiste senior du calcul haute performance à l’université de New York, lors d’une séance de questions-réponses à Commons. « Mais il y a des éléments que nous souhaitons intégrer en interne [à partir du cloud public]… pour protéger les données des étudiants. »