
PuppyGraph simplifie l'analyse de graphes en retirant le pipeline
Derrière son nom décalé, PuppyGraph cache une petite révolution dans l’analyse des graphes. Pas une base de données de plus, mais un moteur de requêtes temps réel pensé pour rebattre les cartes sur un marché dominé par Neo4j, Amazon Neptune ou TigerGraph.
Ce n’est pas parce qu’elle porte nom de chiot que la startup PuppyGraph est là pour s’amuser. La raison principale au nom de sa marque est que « cela n’a coûté que 3 dollars pour le déposer » dit l’équipe. Sous leurs airs d’étudiants bien sages, se cachent de redoutables ingénieurs. Weimo Liu et Zenny Wu, les 2 principaux fondateurs ne sont pas des débutants. M. Liu a travaillé pour Google et Linkedin. Madame Wu est passée par Apple, dGraph ou encore Archeon, une société qu’elle a créée et qui a été rachetée par Databricks.
Aujourd’hui, ils présentent un moteur de requêtes graphes en temps réel qui vise un objectif très pragmatique : court-circuiter les lourdeurs techniques qui freinent encore l’adoption de la technologie graphe en entreprise.
« Nous ne sommes pas une base de données. Nous ne voulons pas remplacer Postgres ou Snowflake. Nous voulons juste interroger vos données, là où elles sont, sans les déplacer », affirme Zhenny Wu, que LeMagIT a rencontrée durant un événement IT Press Tour consacré aux entreprises de la Silicon Valley qui innovent en matière de données.
« Nos clients n’achètent pas une base. Ils achètent un temps de réponse. C’est cela notre marché » insiste-t-elle.
Un moteur, pas une base
La promesse est ainsi la suivante : brancher PuppyGraph à une source de données existante — lac, entrepôt, document store — et obtenir instantanément une capacité d’analyse graphe, sans pipeline ETL, sans ingestion, sans copie.
« L’ETL, c’est coûteux, lent, fragile. Nous le supprimons. Les clients veulent de l’agilité, pas de l’infrastructure en plus », dit Zhenny Wu. Contrairement à Neo4j ou TigerGraph, PuppyGraph n’impose pas de reconstruire un modèle de données. Il se connecte à Delta Lake, Iceberg, MongoDB, Postgres, exécute la requête, rend le résultat, et se désactive. Exactement comme un moteur Spark.
Et les performances seraient au rendez-vous : « une requête de type shortest-path sur un graphe de 700 millions d’arêtes prend moins de trois secondes » assure l’équipe. Comment ? Grâce à une architecture distribuée, un plan d’exécution partagé entre nœuds, une gestion du cache multi-niveaux et un moteur optimisé pour les lectures analytiques. PuppyGraph supporte Cypher et Gremlin, mais reste agnostique vis-à-vis des moteurs de stockage.
Selon Weimo Liu, l’un de leurs clients du secteur bancaire utilise PuppyGraph pour remplacer un système de détection de fraude maison, initialement basé sur D-Graph, puis Spark. « Le passage de 30 minutes à 3 secondes sur certaines requêtes a justifié à lui seul la signature d’un contrat de trois ans avec nous », précise-t-il.
La flexibilité du moteur séduit au-delà du secteur financier. Dans la cybersécurité, un ancien utilisateur d’Apache Druid a pu passer d’un à trente jours d’historique interrogé à périmètre constant, avec un temps de réponse stable.
Un outil d’appoint
Le modèle PuppyGraph consiste à ne pas exister plus que nécessaire : l’entreprise revendique ne pas chercher à vendre un abonnement. Sa solution est disponible à l’usage depuis les marketplaces d’AWS et GCP, pour la version cloud. « Nos clients peuvent activer PuppyGraph pour quelques minutes, ou le maintenir en tâche de fond pour leurs dashboards. C’est eux qui décident » indique Zhenny Wu. PuppyGraph est aussi récupérable au coup par coup sous la forme d’un container Docker qui nécessite juste un cluster Kubernetes pour s’exécuter.
La plupart des bases de données graphes actuelles présentent une gestion transactionnelle, du multi-tenant et des fonctions ACID. PuppyGraph n’en fait rien. Le logiciel se contente d’être bon dans ce qu’il fait : l’analyse de graphe pure, rapide, et temporaire.
« Nous ne faisons ni insert, ni update, ni delete transactionnel. Nous ne voulons pas concurrencer les bases relationnelles » précise Weimo Liu L’approche est comparable à celle de Trino ou Starburst pour SQL : un moteur d’exécution, au-dessus des volumes qui stockent les données. Avec une nuance : PuppyGraph ne s’adosse pas à une base unique, mais peut fédérer plusieurs sources, y compris hétérogènes, en un graphe logique unifié.
PuppyGraph a trouvé sa formule : « un moteur léger, qui dépanne sans s’imposer, et qui offre aux équipes data un moyen rapide de faire du graphe… sans bouleverser leur pile », énumère Zhenny Wu.
Des cas d’usage très variés
Parmi les cas usages recensés, outre la détection de fraude en temps réel (avec notation de risque et suspension de transaction automatisée), citons l’analyse de chaînes de dépendances dans le cloud, la visualisation de topologies réseaux, la fusion de données RH pour détecter des compétences croisées, ou encore la recommandation de contenus ou d’investissements à partir de relations de gouvernance.
Un client dans le secteur de l’investissement utilise PuppyGraph pour analyser les connexions entre les conseils d’administration. Il constate des décisions accélérées et mieux documentées. Un autre construit un graphe de relations à partir de données IMDB pour nourrir la réflexion d’une IA.
PuppyGraph commence d’ailleurs à s’attaquer à des cas d’usage en IA générative. Conversions de documents textes, audio ou vidéo en graphes pour extraction d’entités et raisonnement logique sont au programme. L’objectif est d’en faire un outil au cœur des pipelines d’IA.
« Nous voulons que PuppyGraph soit le chaînon graphe de n’importe quelle architecture LLM-ready » argumente Weimo Liu.
Bientôt en marque blanche
Avec seulement quinze employés et cinq millions de dollars levés, PuppyGraph affirme maîtriser sa croissance. Pas de force de vente massive, une seule personne au marketing, mais des partenariats solides (Databricks, ClickHouse, Confluent…). « Nous faisons dix fois plus que dans nos précédentes startups, avec dix fois moins de dépenses », affirme Weimo Liu.
PuppyGraph travaille à une version plus performante encore, capable d’exécuter certaines requêtes en moins de 10 millisecondes, via du traitement en mémoire et un plan de contrôle hébergé (à la Databricks).
La société envisage aussi d’ouvrir son moteur à plus de partenaires OEM ; certains souhaitent intégrer PuppyGraph en marque blanche. Et elle cible un nouveau tour de financement en 2025 pour accompagner sa montée en charge.