Stelliant maîtrise (enfin) ses applications grâce à l’observabilité automatisée

Le groupe Stelliant s’est spécialisé dans l’expertise en assurance. Sa croissance rapide ces dernières années a provoqué une complexification de son SI. Pour diminuer les risques de baisse de performance, la DSI s’appuie sur l’approche AIOps mise en avant par Dynatrace pour surveiller les applications et les corriger.

En 1987, le groupe Texa naît en France, après la réunion de sept cabinets d’expertise en assurance. Trente ans plus tard, il change de nom pour devenir le groupe Stelliant. Aujourd’hui, après plusieurs acquisitions, il rassemble plus de 2500 collaborateurs et n’est plus seulement spécialisé dans l’expertise en assurance, mais aussi dans le conseil et la solution après sinistre. Le groupe traite une large palette de risques allant de la destruction de bien, au dommage en passe par l’évaluation de risques cyber (via GM Consultant) pour les assureurs et les entreprises. Stelliant est présent en France à travers 140 bureaux, mais aussi en Afrique et en Asie.

« J’ai une dizaine d’entités à servir à la DSI », déclare Benjamin Nivois, responsable d’exploitation IT chez Stelliant. « D’un point de vue IT, je dois gérer des problématiques de croissance, d’hétérogénéité et d’agilité », ajoute-t-il.

En charge des ressources allouées à la partie build, Benjamin Nivois souhaitait suivre les performances applicatives sans forcément avoir connaissance de tous les environnements et leurs spécificités.

Par ailleurs, le groupe Stelliant ancre le choix d’une telle solution dans une démarche d’hybridation de son SI. « Nous nous sommes rendus compte qu’avec un cloud privé, nous avions un manque de souplesse dans la capacité à intégrer ou à faire des partenariats avec les entreprises que nous avons acquises. Or nous souhaitons innover », assure le responsable d’exploitation IT.

Comme bon nombre d’entreprises qui font ce choix, le groupe Stelliant souhaite développer les nouvelles applications métiers et services dans le cloud public en s’appuyant sur des services managés, ici ceux d'AWS. Ces solutions doivent accélérer les développements et donc faciliter de « nouvelles propositions de valeurs ». Il s’agit notamment de moderniser la gestion de dossiers d’assurance qui réclame généralement des échanges de données entre les filiales de Stelliant et leurs clients, les assureurs.

« Nous maitrisions mal notre existant en termes de comportement et de performance et nous savions que si nous déplacions nos environnements vers le cloud, nous risquions des pertes de maîtrise, des baisses de performance ou des incidents », relate Benjamin Nivois.

Il fallait alors pouvoir réaliser un audit de l’existant, des systèmes critiques principalement. Pour ce faire, le responsable de l’exploitation et la DSI du groupe ont réalisé « un dialogue compétitif », auprès de Cisco pour son outil AppDynamics et la solution de Dynatrace pour réaliser une comparaison sur papier. Stelliant a finalement retenu le deuxième candidat.

 « Ce qui nous a motivé pour retenir Dynatrace, c’était l’empreinte de l’outil sur l’existant. Nous ne voulions pas adopter quelque chose qui nécessitait trop d’ajustements parce que nous devions aller vite », explique-t-il. « L’agent unique (OneAgent) nous a séduit : il suffit de le déployer sur un serveur, il est autonome, il n’y quasiment aucune dépendance avec les OS. Le sujet d’obsolescence au sein du parc n’était pas un problème ».

Selon le responsable, le résultat de l’audit ne s’est pas fait attendre. « Nous avons eu un effet bluffant. En moins de deux semaines, j’ai obtenu des résultats qui allaient au-delà du cahier des charges que nous nous étions fixés. L’intelligence artificielle au sein de l’outil a commencé à nous remonter des éléments clés sur les performances. Il y avait des problèmes techniques que nous connaissions et d’autres que nous avons découvert ».

Cette phase d’installation et d’accompagnement par Dynatrace, réalisée il y a un an et demi, a duré moins de deux mois. La solution était alors déployée sous la forme d’un PoC.

Fédérer les équipes autour de l’observabilité

Benjamin Nivois mentionne également un second bénéfice. La DSI subissait une séparation des équipes de développement et celles en charge des opérations. Cela fait environ un an qu’elle a adopté une approche DevOps et elle pratique l’Agile depuis 2013.

« Ce produit-là a fédéré les équipes beaucoup plus rapidement que nous l’avions pensé parce qu’il adopte une vision full-stack. Exemple concret, j’ai un problème de lenteur sur une base de données, la requête ou l’appel API fautif est repéré directement et les responsables en comprennent immédiatement l’origine. Auparavant, cela se terminait parfois en conflit ouvert entre développeurs et ops pour savoir à qui la faute ».

Avant le déploiement de Dynatrace, les personnes en charge des opérations utilisaient principalement Nagios pour la supervision (qui est toujours utilisé chez Stelliant), tandis que les développeurs se servaient d’un autre outil pour surveiller le comportement les applications Java. Concernant les bases de données, les équipes utilisaient « tant bien que mal » les outils de suivi embarqué. « Nous nous mettions autour d’une table pendant deux heures pour discuter des problèmes dont nous avions du mal à trouver les causes. Maintenant nous avons un socle commun et un juge de paix au milieu : Dynatrace. Chacun s’en remet aux faits qui lui sont présentés ».

Benjamin Nivois constate une réduction drastique du temps passé en réunion de crise sur les sujets de performances applicatives. « Pour déployer des correctifs nous allons trois à quatre fois plus vite qu’avant, les backlogs des développeurs sont alimentés plus rapidement et j’ai divisé par trois ou quatre le temps passé à analyser les problèmes », se réjouit-il. Le bruit des alertes s’avère moins dérangeant. « Je reçois entre 200 et 300 notifications Nagios par jour, j’en ai une vingtaine en provenance de Dynatrace ».

« Je suis passé d’un rôle de responsable d’infrastructure à un vrai rôle de responsable d’exploitation. Cela nous a permis de limiter les investissements dans d’autres types d’outils, de limiter les interventions de cabinets d’audit et ou encore d’administrateurs de base de données ». De même, le responsable a pu ponctuellement réduire le nombre de machines virtuelles utilisées puisque les corrections apportées à certains systèmes ont entraîné une baisse de la consommation en RAM et en CPU.

Ces résultats s’expliqueraient par la fonctionnalité principale de l’outil : l’analyse automatisée des causes profondes. Le moteur Davis AI de Dynatrace serait capable d’indiquer aux utilisateurs la cause d’une panne ou d’un ralentissement et de souligner jusqu’à la ligne de code fautive. « Cela remet à plat la photographie des performances applicatives au sens large », assure le responsable. Ensuite, l’outil peut prévenir la bonne équipe sur les canaux Slack et Teams des équipes du groupe Stelliant.

L’obtention de tels résultats réclamerait une confiance forte dans l’outil. Selon Gartner, le produit de gestion APM de Dynatrace est réputé pour son efficacité, mais aussi pour son coût plus élevé que la moyenne. « Je recommande fortement d’utiliser le OneAgent pour couvrir l’intégralité du parc IT en production », indique notre interlocuteur. « Si un outil de surveillance APM n’est pas déployé largement, vous ne profitez pas son plein potentiel », tranche-t-il. La DSI du groupe Stelliant comporte environ 500 machines virtuelles. Aujourd’hui, l’agent est déployé sur 25 % de cet ensemble, soit pratiquement tout l’environnement de production.

Le groupe Stelliant a grossi rapidement ces cinq dernières années. Le passage d’une à dix entités implique le rapprochement, puis la mise en commun de différents SI. En 2019, la société a acquise GM Consultant, un cabinet international d’expertise en assurance. « Je me suis retrouvé sans cartographie, ni élément d’historique, ni compétence sur les produits présents dans ce SI. Mon premier réflexe a été de déployer le OneAgent et un mois plus tard nous avions les premiers résultats », constate Benjamin Nivois.

La méthode de supervision n’implique plus une planification anticipée comme auparavant, mais s’appuie sur un premier état des lieux réalisé avec l’outil de Dynatrace afin de calibrer l’assurance qualité applicative. De même, le responsable des exploitations et les équipes ont utilisé le SDK fourni avec la solution pour surveiller les performances des applications sur les ordinateurs des experts en itinérance.

Un outil qui accompagne une transformation Agile

Rapidement, le responsable des exploitations et la DSI ont mis en place des ateliers hebdomadaires supervisés par des consultants de Dynatrace. Il s’agit d’identifier des problèmes applicatifs particuliers et des moyens d’organiser le code pour faciliter le travail de l’agent. « Suivant la manière dont le code a été écrit et parce que le moteur nécessite un appel Web pour retracer toutes les chaines, il y a des cas d’observabilité qui ne sont pas immédiat. L’intérêt de ces ateliers, c’est d’enseigner les bonnes pratiques pour que les futurs développements embarquent les éléments qui permettent de systématiser l’observabilité ». Par exemple, au sein du groupe Stelliant, les DevOps en charge de l’IaC via Terraform ont adapté leur code pour intégrer le OneAgent au déploiement.

Benjamin Nivois explique que l’outil lui a non seulement permis de réduire le taux d’incident de 80 % sur l’application centrale, mais aussi de mettre en place des mesures de taux de disponibilité des services et non plus uniquement de l’infrastructure. Dans ce cas-là, la plateforme de Dynatrace joue un scénario d’observabilité concocté par les équipes pour évaluer et représenter le taux de disponibilité des outils SIRH en mode SaaS.

Par ailleurs, Les différentes équipes du groupe utilisent les modules de tableau de bord afin de personnaliser leur vue des systèmes tout en s’appuyant sur les mêmes informations. « Finalement, nous avons obtenu des gains opérationnels, organisationnels et financiers. Je peux fournir des rapports au Comex qui sont cohérents avec ce qu’il se passe sur le terrain », relate Benjamin Nivois. Sur la petite centaine de collaborateurs, une vingtaine de tech leads utilisent régulièrement la plateforme. « C’est plutôt le tech lead qui va corriger les problèmes de performance ou les remonter à son équipe », clarifie le responsable.

Le responsable des exploitations remarque également que la versatilité de l’outil lui a facilité le suivi des performances applicatives et les activités des milliers d’utilisateurs lors du confinement et de la mise en place du télétravail. À l’avenir, la DSI souhaite renforcer l’association de son environnement de développement mis en place sur AWS et la gestion des APM avec Dynatrace.

Pour approfondir sur Administration de systèmes

Close