La CRT choisit de rester sur AS/400 pour traiter 5 000 titres par heure

La Centrale de Règlement des titres, qui se charge de préparer les remboursements des titres-déjeuner pour les restaurateurs, se félicite d’avoir su faire évoluer la machine historique d’IBM.

La CRT, la Centrale de Règlement des Titres – créée par Edenrad (les Tickets Restaurant), le groupe Up (les Chèques Déjeuner), les restaurants d’entreprise Sodexo et Natixis (les titres-resto Apetiz) – a décidé de persévérer dans l’emploi d’un serveur de type AS/400 pour traiter quotidiennement le remboursement des titres-déjeuners encaissés par les restaurateurs. Ce matériel étant spécifique, l’entreprise a néanmoins dû résoudre l’épineux problème de trouver un prestataire capable de le faire évoluer.

« Nous traitons 750 millions de titres par an. Nous le faisons depuis des années sur une base DB2. À un certain moment, nous avions même la plus grosse base DB2 de France. Et franchement, c’est un système qui ronronne », lance Arlette Quilleré, la DSI de la CRT, à propos du System I, la machine qui a pris la succession des historiques AS/400 dans le catalogue d’IBM.

« En revanche, en 2018, lorsque nous sommes arrivés au terme des trois ans de garantie du matériel en place, nous avons eu la désagréable surprise de découvrir qu’on nous facturerait désormais chaque année l’équivalent de la moitié du prix de la machine pour assurer sa maintenance. »

« Notre politique est d’amortir le prix de nos serveurs sur au moins cinq ans. Nous avions cette machine depuis 2015 et lorsque le nouveau prix exorbitant de la maintenance s’est ajouté en 2018, nous avons rapidement compris qu’il n’était pas économiquement envisageable de la maintenir plus longtemps en production. Nous avons donc choisi de la remplacer », raconte la DSI. « Mais encore fallait-il trouver un intégrateur, qui nous fasse l’offre technique et commerciale la plus en adéquation avec nos enjeux », ajoute-t-elle, en suggérant que le contrat signé avec l’intégrateur précédent était responsable de ses déboires.

« Nous n’avons jamais eu de panne avec un System I. »
Arlette QuilleréDSI, CRT

« Nous n’avons jamais eu de panne avec un System I. Cependant, nous sommes obligés d’avoir un contrat de maintenance, car si un incident survenait, ce serait une catastrophe. Nous nous engageons auprès des restaurateurs sur un certain délai de remboursement. Si nous n’étions plus capables de tenir ces engagements, cela aurait un impact sur l’image même des titres », précise-t-elle.

L’enjeu de faire tenir des traitements dans une fenêtre d’à peine quatre heures

Au-delà de l’aspect contractuel, la machine souffre d’un défaut technique : toutes les nuits, la base DB2 met à présent deux bonnes heures à se sauvegarder. Or, ces deux heures sont prises sur le temps accordé à la génération des ordres de virement.

« Si tout se passe bien, nous pouvons faire tenir dans une fenêtre de quatre heures la génération des virements et la sauvegarde. Le problème est que, en amont, la chaîne de dématérialisation des titres est susceptible de prendre du retard, ce qui retarde par effet domino le démarrage des traitements sur le System I. Et celui-ci risque de n’avoir pas le temps d’accomplir toutes ses tâches avant le démarrage de la sauvegarde. Il nous fallait donc trouver une solution pour réduire ces délais ».

La CRT ne rembourse pas elle-même les restaurateurs. Elle s’occupe en revanche de préparer tous les virements pour que les fournisseurs de titres-déjeuners le fassent. Ce travail consiste à réceptionner les titres, à les dématérialiser, à faire des recoupements pour vérifier la validité des titres, à calculer les sommes à rembourser à chaque restaurateur, puis à générer les ordres de virement qu’Edenrad, le groupe UP, Sodexo et Natixis n’auront plus qu’à valider.

L’enregistrement des titres dématérialisés et les recoupements sont assurés par le System I tout au long de la journée, à raison d’un batch qui se lance toutes les 30 minutes. Ensuite, la nuit, le serveur a entre deux et quatre heures pour générer les ordres de virement, à raison de 5 000 ordres par heure.

L’AS/400 est une machine qu’IBM a lancée dans les années 80 pour offrir aux PME un serveur capable de centraliser le traitement des données créées depuis ses PC. L’un des logiciels phares de cette plateforme est le serveur de base de données DB2, qu’IBM propose aussi sur ses serveurs Unix Power et ses mainframes. Au fil du temps, le matériel propriétaire de l’AS/400 a été remplacé par des serveurs Power qui exécutent en machine virtuelle OS/400, le système d’exploitation de l’AS/400, et qui sont vendus dans cette configuration sous la marque System I.

La version dont disposait la CRT au moment où commence notre récit était un P720, un serveur Power avec processeur Power7, 256 Go de RAM et 18 To de disques SSD en interne.

Une baie externe remplie de SSD NVMe pour résoudre la sauvegarde

Fin 2018, après avoir lancé un appel d’offres, la CRT finit par rencontrer l’intégrateur Zénith IT Consulting. Le courant passe tout de suite. « Contrairement à tous les autres prestataires que nous avons rencontrés, Zénith IT a tout de suite mis le doigt sur le problème technique dont nous souffrions. Leur argument massue a été de nous proposer de basculer le stockage sur une baie externe », raconte Arlette Quilleré.

L’avantage de la proposition de Zénith IT est qu’en passant par une baie externe, en l’occurrence une IBM FlashSystem 9110, il n’est plus nécessaire d’interrompre la base de données DB2 pour lui demander de se sauvegarder : la baie peut faire elle-même un snapshot de son contenu. Et, mieux, cette opération, qui se programme via l’outil Flash For I de l’éditeur M81, ne prend que 15 minutes. La marge gagnée pour achever les traitements est jugée considérable.

« La [baie] FlashSystem 9110 est plus rapide que les SSD que nous avions précédemment et qui étaient branchés de manière plus traditionnelle dans le serveur. »
Arlette QuilleréDSI, CRT

« Nous sommes nombreux parmi les DSI à redouter qu’une baie externe ralentisse les performances d’un serveur par rapport à ses disques internes. Mais nous avons fait des tests. Avec ses SSD connectés en NVMe, la FlashSystem 9110 est au contraire plus rapide que les SSD que nous avions précédemment et qui étaient branchés de manière plus traditionnelle dans le serveur », se réjouit la DSI.

La baie de stockage choisie comprend en l’occurrence dix SSD 2,5 pouces « FlashCore Modules » spécialement optimisés par IBM, de 4,8 To chacun. Ils sont secondés par 1 To de cache en RAM pour accélérer encore les accès. Les SSD – il est possible d’étendre leur nombre à 24 – sont gérés par deux contrôleurs actif/actif qui permettent de paralléliser les accès depuis le serveur. La capacité utile est d’environ 23 To, la CRT ayant choisi de stocker ses données de manière redondante via un système de RAID. La base de données de toutes les titres en cours de traitement atteint 8 To.

Côté serveur, le choix s’est porté sur un S914, une machine 4U dotée d’un processeur Power9 à 3,8 GHz avec 8 cœurs, dont 4 activés ; le principe des machines IBM est de pouvoir activer des cœurs supplémentaires à la demande, lorsque des pics d’activité doivent être couverts et moyennant un surcoût temporaire. La RAM est de 1 To. L’ensemble, avec la baie de stockage et les onduleurs qui sécurisent l’alimentation, mesure une dizaine de U de haut, comme l’anvien P720.

« Et évidemment, cette fois-ci, nous avons souscrit à une assurance longue durée, ce qui ne majore le prix de la machine que de 20 % », assure la DSI.

Régler les machines virtuelles devenues trop rapides

La migration de l’ancien serveur vers le nouveau a eu lieu un samedi, lors du second trimestre 2019. Elle s’est passée comme un charme. « Cette machine me fait penser aux serveurs Nutanix que nous utilisons par ailleurs pour exécuter en VDI les postes Windows de nos collaborateurs : tout est virtualisé ! Il a suffi de déplacer l’image de l’ancien système vers des VMs sur le nouveau. Zénith nous a en l’occurrence conseillés de faire fonctionner deux VMs redondantes, chacune avec 512 Go de RAM. »

« Paradoxalement, la machine étant plus puissante que la précédente, ses traitements créaient un goulet d’étranglement avec d’autres fonctions. »
Arlette QuilleréDSI, CRT

En amont, Arlette Quilleré avait pu vérifier que le nouveau serveur tenait le rythme des 5 000 calculs de remboursements par heure. Cependant, arrivé en production, un problème apparaît : la solution ne traite plus que 1 500 remboursements par heure.

« Paradoxalement, la machine étant plus puissante que la précédente, ses traitements créaient un goulet d’étranglement avec d’autres fonctions. Mais je félicite les équipes de Zénith IT qui se sont démenées pour trouver le bon réglage dans les VMs. Leurs équipes sont intervenues le week-end sur site et ont surveillé en permanence le système à distance pendant deux mois pour tout vérifier. Début juin, le système était totalement opérationnel », se réjouit Arlette Quilleré.

Depuis lors, le fonctionnement serait absolument transparent. Une seule personne est affectée à l’administration du System I, mais sa tâche sur cet équipement serait si légère qu’il n’en parle plus jamais depuis l’installation.

Pour approfondir sur Unix (Risc et Itanium)

Close