Syncsort rapproche un peu plus les mainframes d’Hadoop

Nouvelle stratégie Big Data, acquisition, contribution au framework Apache… Syncsort, acteur historique des outils pour mainframe et de l’intégration de données, travaille d’arrache pied à rapprocher les grands systèmes "legacy" d'Hadoop.

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 15 nov. 2013

Syncsort se met à l’heure du Big Data. Et lemoins que l'on puisse dire est que le mois d’octobre 2013 aura été particulièrement chargé pour cet acteur historique des outils mainframe et de l’ETL. En un mois, Syncsort a entamé sa mue et mis en place une stratégie, dont l'objectif est de le positionner les deux pieds dans le Big Data et l’intégration de données. Sans pour autant tirer un trait sur son passé, mais plutôt en exploitant cette expertise.

Début octobre, afin de prendre résolument le virage Hadoop, la société, née il y a 45 ans, a officialisé la séparation de ses activités de protection et de sauvegarde de données (Data Protection), rachetées par une partie du management et quelque investisseurs, de celles liées à l’intégration de données. Une vraie transformation qui vient sceller la nouvelle orientation de la marque Syncsort, qui servira désormais de bannière aux activités d’intégration de données et aura notamment pour mission d’exploiter le passé du groupe, le mainframe, et de le conjuguer, l’associer, le connecter à Hadoop. Lonne Jaffe - déjà CEO de la société depuis l’été 2013 - assure la direction de la nouvelle structure et promet de mettre en place une stratégie d’expansion et de croissance en activant le levier de l’acquisition.

Vers la migration d’applications mainframe vers Hadoop

Le rachat du Britannique Circle Computer Group, annoncé le 8 octobre dernier, s’inscrit ainsi dans la droite ligne de cette stratégie et vient renforcer les outils de migration de données mainframe vers Hadoop qui peuplaient déjà le catalogue de Syncsort.

Car évidemment, le virage vers Hadoop et le Big Data pris par Syncsort remonte à bien plus loin, résume Stéphane Heckel (en photo), EMEA Partner Manager chez Syncsort en France, qui rappelle que la société a travaillé sur le framework Java dés 2007-2008 avec certains de ses clients comme Comscore.

Depuis, le groupe a travaillé à établir des connexions entre son coeur historique, le mainframe - 50% du parc mainframe dans le monde est client Syncsort, selon ses propres chiffres - et le monde des technologies Hadoop. Un pont entre les deux mondes, commente Stéphane Heckel, motivé par l’optimisation des coûts chez les clients et la demande de migration ou offload, partielle ou totale, de données et d’applications vers des infrastructure plus modernes, également moins coûteuses à maintenir. Selon Stéphane Heckel, un téraoctet de données stockées dans Hadoop coûterait environ 2 000 $ par an contre 30 000$ dans un mainframe. « On s’est vite aperçu qu’Hadoop allait prendre une place clé. Nous avons donc migré nos outils. »

Si Syncsort disposait déjà de produits pour migrer les données captives des mainframes et les exposer dans un environnement Hadoop, le rachat de Circle y ajoute la migration des applications. « Circle propose une boîte à outils facilitant la migration d’applications accédant à des grandes quantités de données contenues dans IBM IMS (Information Management System), encore très présent chez les grands comptes et très couteux à maintenir, vers DB2 […] Avec Circle, l’applicatif reste, mais les donnés migrent ». Pour ensuite pouvoir les exploiter avec Hadoop, via un ETL pour Hadoop, qui permet « de développer graphiquement les process MapReduce et de s’exécuter nativement au sein de la plateforme Hadoop, sans générer une ligne de code », souligne-t-il. Un dispositif qu’il qualifie de bi-directionnel : mainframe vers Hadoop et Hadoop vers mainframe. Il s’agit ainsi davantage d’une cohabitation pacifique entre les deux environnements. Sans effacer les gros systèmes de l’équation, car selon lui « le mainframe va perdurer, mais les entreprises ont également besoin de systèmes plus agiles ».

A cela s’ajoute également les partenariats que la société a scellés avec les pure-players du monde Hadoop. A l’image de ceux signés avec Cloudera ou encore Greenplum en juin 2012.

Un patch pour remplacer le moteur de tri par défaut d’Hadoop

oujours dans cette optique « d’ouvrir la porte du mainframe » à Hadoop, Syncsort a décidé de jouer un rôle de contributeur actif au framework Hadoop auprès de la fondation Apache. La société a ainsi développé un patch (une fonction dans le langage Apache, référencé MapReduce 2454) qui permet d’implémenter un moteur de tri alternatif, en l'occurrence celui de Syncsort (Sort pour Hadoop), en remplacement de celui inclus par défaut dans Hadoop, résume Stéphane Heckel. Une contribution qui a été validée à la fin janvier par la fondation Open Source, après plusieurs mois de développements. Ainsi, précise-t-il, l’outil de tri de Syncsort est « pré-cablé » dans Hadoop. Libre ensuite aux entreprises de l’activer, et ce sans aucune modification. Cette contribution permet ainsi de rendre la fonction tri natif extensible, comme une forme de plug-in, en somme.

Selon Stéphane Heckel, dans chaque distribution Hadoop qui a implémenté ce patch, il existe donc un pont qui permet de se connecter vers Syncsort, sans avoir à générer du code supplémentaire. « En activant l’option Syncsort, avance-t-il, les entreprises vont accélérer des processus MapReduce de 40 %. » Reprenant ainsi l’argumentaire de l’accélération que la société avait utilisé pour DM Express, son turbo pour ETL.
Ce patch Syncsort a été implémenté par défaut dans la version 4.2 de la distribution Hadoop de Cloudera - le premier à l’avoir fait dès février - et dans celle d’Hortonworks (HDP 2). Les implantations chez MapR et Pivotal sont en cours de validation, ajoute-t-il. De quoi alors créer une passerelle fluide vers Hadoop pour les 50 % du parc mainframe mondial que revendique la groupe.

Syncsort rapproche un peu plus les mainframes d’Hadoop

Nouvelle stratégie Big Data, acquisition, contribution au framework Apache… Syncsort, acteur historique des outils pour mainframe et de l’intégration de données, travaille d’arrache pied à rapprocher les grands systèmes "legacy" d'Hadoop.

Pour approfondir sur Mainframes

Intégration de données : l’essentiel sur StreamSets

La qualité des données progresse au rythme des systèmes Big Data en production

Syncsort et Trillium veulent bannir les « Data Swamps »

Cobol-IT veut rapprocher Cobol de DevOps