momius - Fotolia

Du Big Data à l’IA : ODPi fusionne avec la fondation LF AI

ODPi fusionne avec la LF AI and Data Foundation pour réunir des projets IA, gestion de données, open data et BI au sein d’une seule structure. Une étape qui marque un changement d’ère et des priorités au sein des entreprises.

Après avoir accueilli les kits d’outils IBM consacrés à la transparence des algorithmes et le projet MLOps, nommé MLflow, de Databricks, la LF AI and Data Foundation (anciennement nommée LF AI), s’apprête à embarquer l’ensemble des projets inclus au sein d’ODPi. Sur le papier, les deux structures indépendantes embarquées au sein de la fondation Linux tiennent des rôles bien distincts.

Créée en 2015, ODPi (Open Data Platform Initiative) était d’abord dévouée à la standardisation des applications et distributions Hadoop avant d’élargir son soutien à d’autres projets Big Data et d’open data. En 2018, le groupe a accueilli le projet Egeria (né chez IBM et ING) pour créer une solution de gestion et de partage de métadonnées reposant sur un ensemble d’API, de protocoles et sur Hadoop. Depuis février 2020, ODPi prend également en charge le projet OpenDS4All, donné par IBM et l’université de Pennsylvanie. Il comprend des outils, des frameworks basés sur Python et des tutoriels pour les étudiants et les enseignants en data science. ODPi fournit également des conseils pour faciliter l’imbrication des infrastructures Big Data (type Hadoop), des outils BI et des frameworks IA, ainsi que la mise en place de solutions de gouvernance de données basées sur Egeria.

La LF AI and Data Foundation en pleine croissance

Fondée en 2018, la LF AI and Data Foundation, est l’organisation parapluie qui rassemble les projets open source dédiés à l’IA, au sein de la fondation Linux. En un peu moins de deux ans, elle a réuni une petite vingtaine de projets dédiés au machine learning et au deep learning, dont le très célèbre format interopérable ONNX (Open Neural Network Exchange : 41 grands contributeurs, dont Microsoft, Facebook, AMD ou encore ABBYY).

Si cette fusion résonne comme le son d’un marteau frappant un autre clou sur le couvercle du cercueil d’Hadoop, les responsables des deux organisations y voient surtout le moyen de faire converger leurs projets et leurs ambitions.

« Vous ne pouvez pas obtenir une bonne intelligence artificielle sans des données de qualité et vous avez besoin d’IA pour tirer la valeur des données. »
Ibrahim HaddadDirecteur LF AI and Data Foundation

« La LF AI and Data Foundation, se concentre sur l’IA, le machine learning et le deep learning open source. L’ODPi s’est spécialisée dans l’open data, la gouvernance des données et différentes technologies pour soutenir les opérations Big Data », résume Ibrahim Haddad, directeur de la LF AI and Data Foundation auprès du MagIT. « Vous ne pouvez pas obtenir une bonne intelligence artificielle sans des données de qualité et vous avez besoin d’IA pour tirer la valeur des données. Il nous semble donc tout à fait naturel de réunir ces deux organisations sous un même toit ».

« Lorsque vous réunissez deux groupes comme ceux-ci qui veulent remplir des missions similaires, vous obtenez une stratégie commerciale beaucoup plus forte, les coûts peuvent être mieux gérés, les projets sont plus efficaces et, dans l’ensemble, vous obtenez une fondation plus solide », ajoute John Mertic, directeur de programme pour l’ODPi.

Fournir une architecture de référence pour le machine learning

Toutefois, ce rapprochement n’est pas immédiat. Jusqu’à la fin de l’année 2020, la LF AI and Data Foundation se chargera d’accueillir les projets d’ODPi, ainsi que d’autres solutions. Ensuite, les responsables veulent former un seul comité technique consultatif rassemblant l’ensemble des principaux contributeurs aux différents projets indépendants.

Ce comité jusqu’alors consacré aux flux de machine learning et à l’interopérabilité « changera de nom pour devenir le comité LF AI and Data », selon Ibrahim Haddad. « Le comité travaille depuis un an et demi sur une implémentation de référence d’un workflow de machine learning de bout en bout s’appuyant sur les projets embarqués dans notre fondation », explique le directeur.

Dans l’idée, les entreprises ou les utilisateurs des projets open source pourront donc plus facilement intégrer ces projets au sein de leur division data science. « [Les nouveaux projets] nous aideront à combler des lacunes que nous rencontrons, pour compléter cette architecture de référence », assure Ibrahim Haddad. L’organisation prévoit de présenter cette implémentation de référence et la documentation correspondante dans le courant de l’année prochaine. « Je dirais même au début de l’année prochaine, car nous intégrons désormais un nouveau projet par mois au sein de la fondation », se réjouit le directeur.

Les projets ODPi doivent se faire une place

Egeria n’est pas la seule solution dédiée à la gestion de métadonnées au sein de la fondation IA. Elle accueille déjà les frameworks et outils Amundsen, Feast et Marquez. Amundsen, donné par la compagnie de VTC Lyft, est un moteur de métadonnées et de découverte de données conçu pour « améliorer la productivité » des data analysts, data scientists et autres data engineers.

En phase d’incubation, Feast résulte de la collaboration de Gojek, une entreprise d’e-commerce indonésienne, et Google. Il s’agit d’un feature store, une architecture pour stocker et retrouver les données et métadonnées associées à l’étape de feature engineering. Feast est un « concurrent » de Michelangelo, le feature store open source d’Uber.

Enfin, Marquez, confié à LF AI par WeWork, se présente comme un service pour la collection, l’agrégation et la visualisation de métadonnées liées à des informations au sein d’un système.

« Je pense que le RGPD a mis en lumière Egeria et la nécessité de fédérer les informations des entreprises. »
John MerticDirecteur de programme, ODPi

Egeria, lui, offre certaines des capacités de gestion de métadonnées comprises dans ces trois projets. Toutefois, il se distingue par sa capacité de fédérer les métadonnées et de les partager en provenance de centaines de dépôts de données, selon John Mertic. « Je pense que le RGPD a mis en lumière Egeria et la nécessité de fédérer les informations des entreprises, mais nous observons que cette gestion des métadonnées reste stratégique et complexe au sein des entreprises », remarque-t-il.

Outre le traitement des données personnelles, John Mertic voit Egeria comme un liant sous-jacent permettant de mener à bien les projets de data science au sein des entreprises. Reste à savoir comment ce liant sera mis en avant au sein de la fondation et au sein de l’architecture de référence citée ci-dessus. « Il est encore trop tôt pour le dire », prévient Ibrahim Haddad qui envisage de futures annonces à ce sujet « en janvier ou février 2021 ».

À noter que la LF AI and Data Foundation compte désormais 22 projets soutenus par 60 entreprises et 20 universités pour 1 300 contributeurs. Elle prévoit d’accueillir trois nouveaux projets, pour en comptabiliser 25 sous son ombrelle d’ici à la fin de l’année. Elle accueille treize nouveaux membres dont Databricks, Cloudera, SAS Institute ou encore ING.

Pour approfondir sur Intelligence Artificielle et Data Science

Close