Le CERN mise sur la BI Open Source de Pentaho

Après la modernisation du LHC, le CERN s’attaque au chantier de la modernisation de son système décisionnel. L’unification des entrepôts de données est à l’ordre du jour et c’est la plateforme Open Source Pentaho qui a été choisie pour le reporting et l’analytique des services internes.

Le CERN n’est pas véritablement une entreprise comme une autre. Entre les titulaires, les étudiants et les chercheurs, quelques 12 000 et 13 000 personnes travaillent sur le site qui abrite le Grand Collisionneur de Hadrons, le LHC. Néanmoins, comme dans toute entreprise, le service informatique du CERN doit assurer le fonctionnement des applications de RH, de gestion financière, de gestion des achats et des systèmes informatiques de l’ensemble des laboratoires du site. « Pour prendre un exemple, notre solution de workflow et de gestion des documents EDH couvre aujourd’hui 70 processus métiers du CERN, depuis les demandes de congés,  les demandes d’achat interne ou externe, les entretiens individuels, etc. », souligne Jan Janke, chef de groupe adjoint au AIS (Advanced Information Services), la DSI du CERN.

Dire que la gestion d'une organisation intergouvernementale, à cheval entre la France et la Suisse, et financée par 21 pays est compliquée, est un euphémisme. Car non seulement le CERN doit gérer des projets industriels titanesques, comme le fut la construction du LHC puis sa récente modernisation pour le faire passer à 13 TeV (Téraélectronvolts), mais aussi son mode de gestion à tout du casse tête : « Plusieurs défis se posent aujourd’hui au groupe AIS. D’une part, nous avons un défi financier. Si l’organisation dispose d’un budget annuel de 1 milliard  de francs suisses, nous avons à gérer un grand nombre d’organismes de financement, nous devons aussi gérer la diversité du personnel avec des employés directs, des scientifiques, les étudiants, les boursiers, etc. » En outre, le statut particulier du CERN fait que ses services internes doivent gérer assurances maladies, fonds de pension et soutien aux familles de ses employés.

Pour son architecture décisionnelle, le CERN disposait jusqu'à aujourd'hui de plusieurs entrepôts de données mis en place pour chaque domaine et des applications de reporting développées en interne depuis la fin des années 90. « Ces applications sont aujourd'hui très difficiles à maintenir sachant qu'on a vu se multiplier les types d'appareils chez nos utilisateurs », déplore le responsable du projet.

« Outre le PC et les différents systèmes d'exploitation, les différents navigateurs, ceux-ci utilisent maintenant leurs smartphones, les tablettes. En outre, aujourd'hui, cela ne suffit plus de présenter des chiffres. Les rapports doivent être beaux et riches visuellement. » Arrivés en fin de vie, ces développements « maison » vont faire place à une solution décisionnelle moderne.

Pentaho préféré à la Business Intelligence Oracle

Un projet de consolidation de l'ensemble des entrepôts de données sur une base de données unique est décidé, tandis qu'en parallèle, un processus de sélection d'une plateforme décisionnelle est lancé. Le CERN a choisi de rester fidèle à la base de données Oracle 12c pour stocker ses données administratives dans un entrepôt unique. L'AIP a mené une évaluation soigneuse des solutions de Business Intelligence du marché afin de rénover le volet reporting et analytique de son informatique décisionnelle.

Les sélections ont débuté fin 2012 par une étude de marché détaillée. En fonction des besoins internes identifiés, et du long catalogue de critères établis par l'AIS, 5 solutions ont été retenues. « Notre première phase de sélection nous a fait retenir Pentaho, Jaspersoft, Oracle BI Enterprise Edition, MicroStrategy et enfin SAP/BusinessObjects. Nous avons mené des proofs-of-concept en interne sur ces 5 solutions avant finalement d'en sélectionner deux : Pentaho et Oracle BIEE. »

Les éditeurs des deux solutions ont été conviés à mener un PoC final avec l’équipe projet du CERN afin de démontrer les qualités de leurs offres. C'est Pentaho qui sort alors vainqueur de la confrontation. Le fait que cela soit une solution Open Source a notamment joué en faveur du challenger : "Si nous pouvions avoir le même rendement avec une solution Open Source, c'est intéressant pour nous. Le monde de la recherche fondamentale est très tourné vers les solutions Open Source et l’accès au code source permet éventuellement d’effectuer des adaptations. En outre, Pentaho est basé sur des technologies que nous maitrisons déjà. Au CERN, nous utilisons beaucoup la technologie Java / Spring. Nos développeurs sont déjà très qualifiés sur cette plateforme. En outre, Pentaho est très facile à intégrer dans nos applications existantes, soit au travers des services Web, soit simplement en intégrant le fichier Jar. En outre, l'intégration dans notre infrastructure informatique, que ce soit pour le système de SSO que pour l'annuaire LDAP, s’est avérée extrêmement simple. »

Plutôt que de mettre en place un portail décisionnel, le groupe AIS a fait le choix de l'approche « Pentaho Embedded », c'est-à-dire de placer des composants analytiques ou de reporting directement dans ses applications. Potentiellement, si on ajoute les chercheurs des 21 pays qui participent aux expériences du CERN, ce sont 15 000 utilisateurs qui vont accéder à ces composants décisionnels. Actuellement, ce sont entre 600 000 et 800 000 rapports qui sont générés par l'application décisionnelle du CERN et qui vont être, à terme, réalisés avec Pentaho.

En parallèle, les utilisateurs métiers experts dans leurs domaines vont avoir accès à Pentaho Analyzer. "Cet outil va permettre aux experts métier de faire leurs requêtes eux-mêmes en s'appuyant sur les métadonnées qui auront été préparées par notre groupe au préalable. C'est vraiment la première fois au CERN qu'ils pourront jouer avec les données, les manipuler à leur façon pour identifier les informations qui les intéressent. Jusqu'à maintenant, nous utilisions SAP / Business Objects dans ce but, en parallèle à nos applications internes, afin de fournir de la BI en self-service à nos utilisateurs. La différence en termes de fonctionnalités est considérable en faveur de Pentaho Analyzer."

Une équipe de 5 personnes affectées à plein temps sur le projet

Outre ce besoin sur le volet analytique, le CERN va utiliser les capacités de production de rapports "pixel perfect" de Pentaho afin de générer les nombreux documents administratifs nécessaires à l'activité du CERN, tant du côté français que du côté suisse. De plus, l'équipe de Jan Janke va mettre en œuvre le plugin CTools de Pentaho afin de créer des tableaux de bord. « Les dashboards créés via ce plugin sont très riches visuellement et cet outil permet de créer des interactions très poussées. On peut en outre créer soi-même ses tableaux de bord en utilisant HTML, CSS et JavaScript et accéder aux données mises à disposition par Pentaho via le moteur de requêtage Mondrian ou via SQL directement. »

Le choix de la plateforme Pentaho a été officialisé en septembre 2014 et le travail sur la nouvelle plateforme décisionnelle du CERN a véritablement démarré il y a un an maintenant. Cinq membres de l'AIS ont été affectés à plein temps à ce projet. Mais beaucoup plus de personnes seront formées dans les services métiers afin de prendre en main l'outil décisionnel et créer des rapports et des tableaux de bord. Au total, le responsable du projet estime que la charge de travail représentera un effort de 10 à 15 années / homme.

Les premiers livrables commencent à être mis à disposition des métiers et les départements finance et ressources humaines seront les premiers servis. La première vague de déploiement va concerner en priorité les utilisateurs experts dont les formations ont d'ores et déjà commencé. Elle sera réalisée d'ici à la fin de l'année. Ensuite, viendra le reste des utilisateurs auprès de qui les rapports Pentaho seront accessibles à partir du deuxième trimestre 2016. « La grande majorité des utilisateurs n'accèderont pas directement à Pentaho, mais via les composants Pentaho intégrés à nos applications. Seule une centaine d'utilisateurs auront l'accès direct à la plateforme. »

Une séparation qui n’est pas aussi franche qu'il n'y parait car les développeurs du CERN comptent intégrer le composant Analyzer dans leurs applications. Les utilisateurs pourront alors piloter l'outil d'analyse via des champs de saisie et donc réaliser les analyses dont ils ont besoin sans même devoir se connecter à Pentaho. Enfin, les utilisateurs qui ne peuvent se passer d'Excel ne seront pas mis sur la touche. Des accès aux données brutes sont possibles pour réaliser des exports vers Excel, de même qu'il va être possible d'importer des données Excel dans Pentaho.

Pour approfondir sur Open Source

Close