« L’IA générative ne devrait pas être cantonnée aux seuls LLM » (SAS Institute)

Malgré une prudence affichée, SAS a bien l’intention d’investir le domaine de l’IA générative. D’ailleurs, il a déjà commencé à le faire, selon son directeur technique, Bryan Harris. Mais l’éditeur doit trouver le moyen de combiner cette technologie aux exigences de ses clients évoluant dans des environnements hautement régulés.

De passage à Paris dans le cadre de SAS Innovate Tour, Bryan Harris, CTO de SAS Institute est revenu auprès du MagIT sur la stratégie de l’éditeur dévoilée il y a un mois lors de sa conférence annuelle. L’occasion de préciser les tenants et aboutissants de l’investissement d’un milliard de dollars dans sa plateforme analytique, annoncé en mai dernier, mais également de revenir plus en détail sur le rapport de SAS à l’IA générative. Un rapport bien moins conflictuel qu’attendu au vu de la prudence affichée de l’éditeur il y a un mois. Le directeur technique évoque ce qu’il retient de la mouvance consacrée aux grands modèles de langage (LLM), comment SAS compte s’en inspirer, mais considère que la notion d’IA générative va au-delà de la génération de code, de texte ou d’images. Bryan Harris évoque également le développement en cours d’une solution de data management vouée à automatiser une partie de la mise en qualité et de la gouvernance des données chez ses clients.

LeMagIT : Il y a un mois, SAS a dévoilé son intention d’investir 1 milliard de dollars dans des « solutions industrielles propulsées par l’IA ». Qu’est-ce qu’une solution industrielle propulsée par l’IA ?

Bryan HarrisBryan Harris, Executive Vice-président et CTO chez SAS

Bryan Harris : C’est une question que beaucoup de clients posent également, parce qu’ils sont un peu frustrés par l’utilisation généralisée de ce terme. Tout ce qui est basé sur une formule mathématique qui aide un humain à prendre une décision est, à mon avis, sous l’égide de l’IA.

Si la quantité de données et d’informations à traiter dépasse les capacités humaines, alors nous cherchons les formules mathématiques pour observer les données et prendre des décisions à partir de ces données.

Ensuite, il s’agit de déterminer les techniques qui peuvent être utilisées depuis l’apprentissage supervisé, en passant par l’apprentissage non supervisé jusqu’à l’apprentissage par renforcement.

Mais notre approche consiste le plus souvent à mettre en place ce que nous appelons l’IA composite. Dans un processus métier, il faut généralement combiner plusieurs modèles pour aider à passer à l’échelle la prise de décision humaine.

Par exemple, dans le monde de la grande distribution, nous avons mis en place un scénario de service après-vente où un client cherche à retourner un produit. Si ce dernier communique à travers un canal de discussion instantané, vous pouvez utiliser le NLP pour comprendre la demande, et la computer vision pour analyser la photo du produit en question. Mais vous pouvez également chercher à savoir à qui vous avez affaire. Par exemple, si ce client est un influenceur – une information que l’on peut vérifier mathématiquement – quel potentiel impact peut-il avoir sur la marque suivant si sa demande est bien traitée ou non ? Suivant la nature du retour, est-il possible de proposer des réductions ou une offre sur un autre produit au catalogue ?

Enfin, le processus de retour lui-même réclame une prise de décision. Où doit-on retourner le produit pour s’assurer de la réussite de l’opération dans un temps acceptable ? Il y a là encore des optimisations à faire. Tout cela peut être traité en un seul flux dans notre logiciel. Chaque modèle employé ici sert un objectif différent, mais le but est d’améliorer un processus ; ici, le retour d’un produit par un client.

SAS, adepte de l’IA composite

LeMagIT : Lors de l’annonce de l’investissement, SAS a mis l’accent sur les secteurs de la santé et de l’énergie. Quels types de solutions souhaitez-vous apporter ?

Bryan Harris : Nous avons déjà des solutions dans le monde de la santé. Pour le monde hospitalier, nous proposons SAS Health, une solution qui permet d’analyser les données financières et médicales. Dans le secteur biopharmaceutique, nous proposons le framework Life Sciences Analytics qui permet à nos clients de coder en plusieurs langages – R, Python ou SAS – pour développer des modèles consacrés à la recherche médicamenteuse ainsi qu’à la soumission des molécules à la FDA, aux États-Unis. C’est très utile pour nos clients, car ils peuvent plus facilement engager des talents à la sortie des universités et contrôler les différents modèles depuis une seule plateforme, SAS Viya.

Ensuite, nous venons de lancer notre simulateur d’essais cliniques (clinical trial enrollment simulator en VO) qui permet de déterminer comment optimiser les performances de ces essais. Nous leur permettons de simuler des situations afin d’obtenir les bonnes cohortes et de traiter un grand nombre de données sur les patients. Dans ce domaine, nous respectons un plus grand nombre de standards et nous multiplions les partenariats, notamment avec Microsoft.

Dans notre volonté d’apporter des solutions industrielles spécifiques, nous pensons que notre plateforme SAS Viya est clé. Elle permet de prendre en charge le cycle de vie complet des projets d’analytique et d’IA en garantissant la gouvernance, l’explicabilité et la transparence des modèles. Et c’est sur cette dernière que nous nous appuyons pour lancer d’ici à la fin de l’année une solution de prévisions énergétiques pour les fournisseurs. Celle-ci offrira une expérience SaaS et les clients pourront injecter rapidement leurs données et prévoir de manière très précise la demande en énergie. Par exemple, nous pouvons aider les fournisseurs à optimiser les processus de production et les systèmes de contrôle et de commande de l’énergie en les aidant à exploiter leurs données IoT.

Boom de l’IA générative : Bryan Harris cherche la longue traîne

 LeMagIT : Concernant l’utilisation de l’IA générative, SAS s’est montré prudent jusqu’alors. Pouvez-vous expliquer votre approche ?

Bryan Harris : SAS est une entreprise âgée de près de 50 ans maintenant. Notre PDG, le Dr Jim Goodnight, a un « superpouvoir » : il ne réagit pas de façon excessive aux tendances qui agitent le marché.

Lorsque l’on observe des changements technologiques transformationnels, il faut se demander, et je le fais aussi, quels sont les résultats durables de cette transformation.

« Notre PDG, le Dr Jim Goodnight, a un “superpouvoir” : il ne réagit pas de façon excessive aux tendances qui agitent le marché ».
Bryan HarrisEVP & CTO, SAS Institute

Il y a quelques années, tout le monde affirmait qu’Hadoop allait sauver le monde. Ce n’est pas arrivé. En réalité, ce qu’il s’est passé, c’est que Hadoop a conditionné le marché et nos clients. Ceux-là considèrent désormais qu’ils doivent pouvoir contrôler leurs données stockées dans des formats ouverts. Pour nos clients, c’est aux éditeurs et aux fournisseurs de prouver qu’ils peuvent apporter de la valeur dans ces conditions.

De même, l’avènement du cloud devait permettre d’économiser beaucoup d’argent. C’est loin d’être le cas. En revanche, la tendance pérenne qui en découle, c’est l’agilité et la résilience obtenues grâce à la programmabilité des infrastructures. Vous devez, par le biais de vos équipes DevOps, pouvoir orchestrer les ressources, les déployer, les décommissionner, jouer sur l’élasticité à la hausse et à la baisse de vos instances. Cela signifie que cette approche peut être reproduite sur site ou en colocation afin d’économiser de l’argent, tant que l’on conserve cette notion de contrôle programmatique de l’infrastructure.

« L’IA générative conditionne le public sur ce que devraient être les nouvelles manières d’interagir avec l’IA ».
Bryan HarrisEVP & CTO, SAS Institute

Tout cela pour en venir à l’IA générative. L’IA générative conditionne le public sur ce que devraient être les nouvelles manières d’interagir avec l’IA. Il ne s’agit pas de fournir une interface utilisateur à base de tableaux de bord, mais d’intégrer un module à l’instar d’une messagerie instantanée qui permet de « discuter » avec l’IA. C’est ce qui est très important. Nous, nous nous demandons à quoi doit ressembler cette expérience et quels sont les risques. Quelle est la pile technologique nécessaire ? Et comment aborder ce sujet dans des secteurs très réglementés qui doivent justifier une décision à partir de cette interaction ?

Pour l’instant, ce qui retient l’attention du public, ce sont les gains de productivité promis par les solutions comme celles d’OpenAI, de Microsoft et de GitHub qui permettent de générer du texte et du code plus rapidement. C’est déjà très bien : cela répond à la demande actuelle du marché. Nous adhérons aussi à cette tendance. Nous allons intégrer GitHub Copilot dans SAS Viya pour suggérer du code SAS, R, Python ou d’autres langages, en nous assurant d’y apporter une plus grande précision par l’infusion des connaissances spécifiques à certains domaines.

Mais nous investissons davantage dans la manière d’infuser un agent conversationnel dans notre plateforme SAS Viya pour permettre aux clients d’interagir avec nos outils et leurs données en langage naturel. Et nous imaginons des solutions spécifiques à certains métiers ou industries.

Par exemple, un planificateur financier pourrait chercher à comprendre comment maintenir la marge de son employeur. Notre agent pourrait alors l’aider à lui expliquer les données, lui indiquer des anomalies détectées par un autre modèle d’IA et automatiser leur normalisation. De même, un planificateur logistique pourrait demander à notre agent d’examiner les options pour optimiser les coûts de sa supply chain, par exemple en comparant les offres des fournisseurs par rapport aux objectifs de marge. Il s’agit là d’interaction très spécifique que l’on ne voit pas encore dans le domaine public.

Il ne s’agit pas seulement d’utiliser les capacités de génération des grands modèles de langage, mais d’interroger des modèles statistiques existants et de pousser leurs résultats de manière lisible dans des réponses poussées via API. C’est un sujet sur lequel de nombreux acteurs industriels travaillent. Nous pensons avoir une réponse pour le secteur bancaire ou la santé. Mais il faut un haut niveau de précision. Le contenu peut être généré, mais il doit être intégré aux données exactes qui sont utilisées dans la modélisation traditionnelle. Et c’est sur cette intersection que nous travaillons. C’est un défi. Nous devons encore effectuer beaucoup de recherche et développement à ce sujet.

LeMagIT : Que pensez-vous de la multiplication des projets open source d’IA générative ?

Bryan Harris : Microsoft a réalisé un investissement important dans OpenAI. Google développe Bard. Mais la communauté open source ne va pas laisser les géants de la technologie contrôler les grands modèles de langage. Il suffit de voir ce que font certains avec LLaMa de Meta, un modèle de plusieurs milliards de paramètres qu’ils exécutent sur des Raspberry PI. C’est très bien, mais cela intime également le risque de la multiplication de modèles basés sur des opinions et non des faits.

LeMagIT : A contrario, ces mêmes LLM open source peuvent être utilisés par des entreprises pour les affiner sur leurs propres données à des fins de contrôle et de performance.

Bryan Harris : Effectivement, cette possibilité de reprise de contrôle est intéressante. C’est d’ailleurs l’une des raisons pour lesquelles nous sommes prudents concernant l’IA générative. Nos clients ont des données très sensibles. Le simple fait de poser une question à travers ChatGPT peut entraîner la divulgation d’informations confidentielles, des informations qui pourraient être utilisées pour réentraîner le modèle sous-jacent par la suite.

Il s’agit de trouver le moyen pour combiner les vecteurs (embeddings en VO) de ces LLM avec des modèles spécifiques à un domaine, entraînés et affinés pour accomplir une tâche spécifique. C’est en cours. Nous ferons des annonces à ce sujet au cours des 8 à 12 prochains mois. Nous le faisons déjà avec SAS Customer Intelligence 360. Nous permettons de générer des campagnes d’e-mailing et d’autres choses de ce genre grâce à une intégration avec ChatGPT. Mais, encore une fois, la notion de confiance domine la conversation et nous devons nous assurer que cette technologie est durable dans le temps.

En ce sens, l’IA générative ne devrait pas être cantonnée aux seuls LLM. Il faut considérer cette technologie comme un moyen d’assister la production humaine et la prise de décision.

« Les notions de jumeau numérique synthétique et de simulation font partie intégrante de notre stratégie d’IA générative ».
Bryan HarrisEVP & CTO, SAS Institute

Aussi, pour nous, les notions de jumeau numérique synthétique et de simulation font partie intégrante de notre stratégie d’IA générative. En fait, nous avons déjà mis en place une capacité dans SAS Viya qui utilise de nombreuses capacités fondamentales, telles que l’apprentissage par renforcement pour générer des données synthétiques statistiquement cohérentes. Dans ce système, nous avons une source de vérité terrain, un modèle qui génère aléatoirement des données tabulaires, et un discriminateur. Le discriminateur tente de déterminer si les données générées sont vraisemblables ou fausses et renvoie des feedbacks au modèle. C’est le terreau pour bâtir des jumeaux numériques synthétiques. Par exemple, je peux générer plusieurs types de données similaires aux données télémétriques d’un véhicule. Ensuite, je peux lancer des scénarios « what if » afin de prévoir le comportement de ce système complexe.

La bonne gestion des données, la priorité des clients

LeMagIT : Pour revenir à un sujet moins prospectif, quelle est la principale difficulté que vos clients expriment en ce moment ?

Bryan Harris : La gestion de données, purement et simplement. Nous avons effectué notre tournée SAS Innovate dans 15 villes différentes l’année dernière et c’est ce que nous avons retenu des discussions avec les clients : « s’il vous plaît, aidez-nous à mieux gérer nos données ». Nous avions un peu mis ce sujet de côté, car nous avions l’impression que les spécialistes du sujet comme Informatica allaient résoudre ce problème chez nos clients, mais force est de constater qu’ils n’adoptent pas forcément leurs solutions et ne veulent pas le faire.

Certains d’entre eux nous réclament d’automatiser 70 % des fonctions de data management à l’aide de l’IA et avec un minimum d’intervention humaine.

Nous redoublons donc d’efforts en la matière. Nous sommes en train de nous réorganiser pour piloter notre stratégie et ce projet bénéficiera du milliard de dollars que nous investissons dans nos solutions. Nous disposerons donc d’un produit de data management de haut niveau indépendant de nos capacités analytiques.

LeMagIT : Et vous, quel est votre principal défi ?

Bryan Harris : Rationaliser l’histoire des logiciels chez SAS. C’est probablement le plus important. Je veux que tous nos clients adoptent nos logiciels les plus récents et les plus performants. Pendant longtemps, nous avons été accommodants en permettant aux clients de rester sur des versions de logiciels, parce que nous ne voulions pas les perturber. Mais cela ne fait que perpétuer les problèmes d’image de marque. Ils ont formé leur point de vue sur ce que nous sommes en se basant sur le moment où ils ont acheté le logiciel. Pour moi, il s’agit donc de favoriser les migrations vers SAS Viya au fil du temps. Nous faisons de grands progrès dans ce domaine. Ce faisant, j’abaisse le coût d’exploitation de la R&D parce que je dispose maintenant d’un ensemble de logiciels similaires et cohérents. Nous avons un autre défi : ce marché est saturé, hautement compétitif. Nous devons continuer à innover, mais nous pouvons déjà apporter la preuve que notre plateforme est très performante.

Pour approfondir sur Intelligence Artificielle et Data Science

Close