Comscore migre son environnement Big Data basé sur Cloudera vers MapR

Comscore a décidé de migrer son environnement Big Data bâti sur la déclinaison Hadoop de Cloudera vers celle de MapR. Un choix que la société justifie par un coût inférieur et par le support de NFS par la solution MapR.

Le spécialiste de l’analyse Web Comscore a procédé à d’importantes modifications de ses  opérations analytiques de type «Big Data». La société basée à Reston dans l’Etat de Virginie vient de migrer son environnement Big Data d’une distribution Hadoop développée par Cloudera vers une déclinaison concurrente du framework analytique, créée par MapR Technologies. Hadoop est un framework Open Source qui permet de répartir rapidement les traitement d’importants volumes de données entre plusieurs clusters.

Comscore, qui est équipé d’un parc de 1000 serveurs en interne et utilise encore Cloudera pour de la formation, affirme que cette décision de migrer repose largement sur des problématiques de coûts et sur le fait que MapR supporte le protocole NFS (Network File System).

«Nous pouvons capitaliser sur notre achat de MapR grâce à des coûts annuels de maintenance plutôt qu’un coût annuel par noeud», explique Mike Brown, le directeur technique de Comscore. «NFS permet également à nos systèmes d’accéder facilement aux données du cluster.»

MapR : une distribution Hadoop originale

La distribution de MapR se distingue des autres offres du marché au sens où elle s'appuie partiellement sur des technologies propriétaires. L'éditeur a ainsi développé sa propre couche de stockage (baptisée MapR Lockless Storage Services) en lieu et place du file system HDFS, habituellement utilisé par les distribution Hadoop - c'est d'ailleurs cette caractéristique qui a notamment séduit EMC qui a conclu un accord de revente stratégique avec MapR. Ce filesystem en cluster, qui maintient une compatibilité totale avec les API d'HDFS, permet à MapR de revendiquer des caractéristiques uniques tels qu'une plus grande résilience (la fonction de "namenode" est distribuée entre les noeuds), le support des snapshot, du mirroring et du partitionnement, mais aussi un accès natif en mode NFS au filesystem. Une autre nouveauté est l'aptitude à verser des données en continu dans le file system, contrairement à HDFS qui fonctionne en mode append (ou ajout). On peut ainsi envisager de lancer des traitements en quasi temps réel au fur et à mesure de  l'ingestion de nouvelles données. MapR revendique enfin des performances très supérieures à celles de ses concurrents.


Des data stores de plus en plus volumineux

Comscore surveille et mesure le comportement des cyber-acheteurs. Le groupe conserve des traces de plus de 2 millions de consommateurs qui ont autorisé Comscore à contrôler et analyser leurs habitudes d’achat et de surf sur Internet. Ces résultats d’analyses comportementales sont  transmis par Comscore aux agences publicitaires et marketing dans le but de fournir des données intelligentes pour optimiser les campagnes ou mieux cibler les populations désirées.

«La grande majorité des publicités sur Internet sont programmées, achetées et vendues grâce à nos outils», souligne Brown. «Nous suggérons aux marketers et publicitaires les meilleurs sites pour chacune de leur campagne». Cette opération qui consiste justement à conserver les faits et gestes de plus de 2 millions de consommateurs et de leur donner de l’intelligence, implique de traiter de large volumes de données au quotidien. Selon Brown, Comscore doit actuellement gérer plus d’un pétabyte d’informations et de comptages.

La quantité de données à gérer s’alourdissant de plus en plus, Comscore s’est décidé à utiliser Hadoop en 2009. Le groupe a basculé sur MapR en juillet dernier.

Dans un climat économique mondial incertain, de nombreux responsables IT rencontraient quelque réticences pour faire accapter et financer leurs projets de data management. Cela ne fut pas un problème chez Comscore pour son implémentation de MapR, commente Will Duckworth, vice-président de la société : «Je crois que tout le monde savait que nous avions à traiter de très grandes quantités de données. Il a été facile de produire un cas d’usage», souligne-t-il.

La mise en production de MapR a démarré en juillet après une phase d’implémentation en douceur qui n’a pris que 2 jours, indique Duckworth. A l’époque, le groupe disposait d’un cluster Cloudera en production et souhaitait réaliser une migration vers MapR sans interruption de services - ou d’un très faible niveau. Les équipes informatiques de Comscore y sont parvenues en copiant simplement et rechargeant les données reposant sur Cloudera au sein d’un nouveau cluster MapR, et ce en une unique procédure.

«Si nous devions reproduire l’opération aujourd’hui, nous ne rechargerions probablement pas les données du fait de l'augmentation de notre data store», explique Duckworth. «Nous adopterions davantage une approche pas à pas : couper 25% des machines afin de les migrer vers MapR, y copier une partie des données puis prendre 25% d’autres machines... et avancer ainsi dans la procédure.»

Duckworth et Brown vantent les mérites de la fonction Direct Access NFS de MapR, qui expose les données HDFS (Hadoop Distributed File System) via le protocole de partage de fichiers NFS; elles deviennent ainsi facilement manipulables et modifiables.

«HDFS est performant en interne, mais pour injecter et extraire des données d’Hadoop, vous devez faire des exports HDFS», affirme Brown. «Avec MapR, nous devez juste monter le filesystem en cluster via NFS, puis utiliser les outils natifs, qu’ils soient sous Windows, Unix ou Linux».

Les outils de tri accélèrent la préparation des données

La distribution Hadoop de MapR a certes contribué à accélérer de façon significative les opérations de gestion Big Data de Comscore, mais ce n’est pas la seule pièce du puzzle de traitement haute performance de la société.

Comscore utilise également Sybase IQ, la base de données analytique ultra-rapide du géant SAP, pour motoriser sa plate-forme de gestion des connaissance client (Customer Knowledge Platform - CKP), un datawarehouse qui fournit des indicateurs sur les habitudes comportementales des internautes.

Selon Comscore, ce service CKP surveille les activités de plus d’un million de consommateurs. L’entrepôt de données Sybase IQ renferme actuellement plus de 40 térabytes de données compressées.

De plus, Comscore a placé ces procédures d’intégration et de tri de données entre les mains de Syncsort pour accélérer les traitements Hadoop. Le groupe a démarré avec Syncsort en 2009 et a récemment migré vers Syncsort DMExpress 6.5, la dernière version dotée du support de Hadoop.

DMExpress permet à Comscore de compresser les flux entrants de données en agrégeant les informations répétitives avant de les charger dans MapR pour un traitement et une analyse avancés. Selon Brown, Comscore a directement embarqué Syncsort au sein de 25 ou 30 applications afin d’augmenter l’efficacité des procédures de préparation de données.

«Nous avons intégré Syncsort afin de résoudre nos problématiques de tri car notre volume  de données grandit sans cesse», souligne Brown. «Les algorithmes de compression de Syncsort recherchent les chaînes répétitives et, en triant les données, regroupent ces éléments, augmentant ainsi le niveau de compression.»

Quelques bonnes pratiques

Les entreprises qui réfléchissent à mettre en place des projets Big Data doivent prendre en considération la croissance exponentielle des données - car l’explosion des Big Data ne montre aucun signe de faiblesse, affirme Brown.

Les entreprises intéressées par les applications de tri de données devraient privilégier la facilité d’implémentation et leur capacité à supporter les matériels existanst, ajoute-t-il.

«Ces technologies peuvent aider à accélérer le système», explique Brown. «Mais une chose import ante qu’il faut garder à l’esprit, est la nécessite de pouvoir connecter simplement l’outil aux applications existantes».

Traduit de l'anglais par la rédaction

Pour approfondir sur Outils décisionnels et analytiques

Close