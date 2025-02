Giskard io a été fondée en 2021, mais a pris son essor avec l’émergence de l’IA générative.

D’un sujet « niche », cet enjeu a pris beaucoup d’ampleur avec l’émergence de l’IA générative. « L’on parle de millions d’utilisateurs quotidiens », affirme Alexandre Combessie. « Avec les modèles de machine learning, qui génèrent des probabilités, il y a des risques, mais lorsque n’importe qui peut ingérer du texte et les modèles peuvent répondre, les risques sont beaucoup plus grands », ajoute-t-il.

« J’ai beaucoup travaillé sur des sujets d’ingénierie NLP avant que ce soit autant la mode », se rappelle Alexandre Combessie, cofondateur et co-CEO de Giskard.io. « Le postulat initial qu’on avait en 2021, c’était : “alors qu’il y a pléthore d’outils pour tester les logiciels traditionnels, il y a une pénurie pour éprouver les systèmes d’IA” ».

Elle a été mise sur pied et elle est codirigée par Alexandre Combessie et Jean-Marie John-Mathews. Le premier était ingénieur en machine learning chez Dataiku, le second, ex-data scientist chez Thales.

Des risques cyber, des biais, et une menace pour l’image des entreprises

Il faut à la fois gérer les potentielles attaques, sécuriser les données, mais aussi les erreurs, les hallucinations, la toxicité.

« Aujourd’hui, notre principale activité consiste à tester des agents à base de LLM », poursuit le cofondateur. « Nous avons bâti un ensemble d’outils d’audit, à la fois sur le volet qualité (mesure de l’hallucination, des performances) et la sécurité ».

La plateforme de Giskard est utilisée par une dizaine d’entreprises, principalement des grands groupes. « Notre spécialité, c’est d’aider des entreprises qui utilisent des LLM pour déployer leurs propres chatbots », indique Alexandre Combessie. « Nous nous intéressons à des risques assez spécifiques. Par exemple, dans le monde bancaire, la quasi-totalité des grosses banques françaises aujourd’hui qui font de l’IA générative en production en direction des clients est passée par nous pour faire réaliser l’audit de leur système ».

Sur son site Web, la startup cite la Société Générale, Crédit Agricole, BPCE.

Des industriels (Michelin), des compagnies d’assurance (Axa), mais aussi des entités « retail » comme L’Oréal, Etam ou Decathlon ont également recours à ses services.

Giskard s’est fait connaître en développant une librairie open source Python (15 000 utilisateurs environ) avant de lancer une offre commerciale il y a un an environ. « Nous avons une bonne traction auprès des entreprises régulées qui veulent déployer des LLM tout en ayant une forte maîtrise des risques », affirme Alexandre Combessie. « Il faut nous voir un peu comme le fournisseur d’un antivirus pour des systèmes LLM exposés au public ou en interne, quand il n’y a pas le droit à l’erreur ».

Ces deux volets, qualité et sécurité, exigent, selon Giskard, une analyse la plus exhaustive possible, idéalement en continu. « Le paysage des risques va évoluer à la fois parce qu’il y a en permanence de nouveaux types d’attaques qui émergent », rappelle le cofondateur. « Régulièrement, les gens qui font ces systèmes mettent à jour des éléments. Ça peut être mettre à jour le modèle, la base de connaissances. Chaque fois, il peut y avoir des régressions, ou à l’inverse, de nouveaux types de problèmes ».

Les risques inédits que posent les LLM impliquent à la fois de renseigner les équipes cyber, mais aussi – et c’est sans doute moins récurrent dans l’appréhension des risques – les métiers. « Quand une entreprise développe une application RAG pour son service RH, il faut que le LLM réponde convenablement avec le bon niveau d’information. Ce n’est pas un membre d’une équipe de cybersécurité qui sera capable de répondre à ces questions », note Alexandre Combessie.

En sus des risques de « jailbreaks », certains attaquants veulent ternir l’image des entreprises. « C’est une grosse inquiétude des groupes. Certains bots qui n’ont pas été audités ne sont pas protégés par défaut contre les risques d’hallucinations provoqués par des usagers malveillants », prévient-il. « Les modèles de fondation, les systèmes de modération sont efficaces sur des attaques standards, mais le domaine spécifique n’est pas forcément protégé par cette modération ».

Les tests pratiqués par Giskard doivent couvrir le fonctionnement d’un chatbot ou d’un agent « dans son ensemble ». « Nous insérons nos tests dans la chaîne CI de l’application, sans nous intéresser au code ou à l’infrastructure ».

La grande différence entre la librairie open source et la plateforme tient dans l’exhaustivité et la continuité des tests. « Nous avons déposé une demande de brevet pour un système qui génère des tests en continu en faisant du suivi de données “live” : nous suivons l’actualité réglementaire, les évolutions de la base de connaissances et nous proposons de nouveaux tests automatiquement ».