La NSA soumet sa base de données Hadoop à la Fondation Apache

La NSA a décidé de confier son projet de base de données NoSQL reposant sur BigTable et Hadoop, Accumulo, à la fondation Apache. Objectif : se lier à la communauté et placer les évolutions de son projet dans les mains de l'Open Source.

Le doux vent de l'été souffle encore sur Hadoop. Ce framework Java Open Source pour le développement de systèmes de fichiers distribués et de gestion de données en volume  a reçu cette semaine un nouvel allié de poids : la NSA (National Security Agency). L'agence de sécurité nationale américaine, dont une des missions clés est de collecter, d'analyser et de surveiller les communications militaires, gouvernementales, commerciales et personnelles des Etats-Unis, a soumis son projet de base de données NoSQL Accumulo à la très populaire fondation Apache. Le projet, aujourd'hui placé dans l'incubateur de la fondation Open Source, doit désormais trouver sa communauté.

Hadoop embrasse SQL Server
La liste des promoteurs d'Hadoop continue de s'allonger. La semaine dernière, Microsoft a publié les versions de test CTP (Community Technology Preview ) de Hadoop Connector for SQL Server Parallel Data Warehouse et de Hadoop Connector for SQL Server. Deux connecteurs qui mettront de relier SQL Server 2008 R2 et SQL Server Parallel Data Warehouse au framework Open Source de gestion de système distribué et de données en volume. L'idée est donc de permettre un transfert des données d'un environnement à l'autre. Ces connecteurs supportent également la prochaine version de SQL Server, nom de code "Denali".
Cliquez pour dérouler

Démarré en 2008, Accumulo, riche de quelque 200 000 lignes de code (Java essentiellement),  est le résultat de trois années de développement initiées par la NSA, explique l'agence sur le site de la fondation. Destiné à augmenter la granularité des accès aux données contenues dans cette même base - l'agence souhaitant sécuriser l'accès depuis la cellule même via un système de clé/valeur distribué - , Accumulo s'adosse historiquement au projet BigTable de Google, qui motorise notamment le Paas de Mountain View, Google App Engine. Il s'agit en fait d'une base de données orientée colonne, à l'image de Cassandra ou HBase, qui selon Google, se distingue notamment par ses performances et son système de compression des données. La NSA souligne avoir modifié BigTable pour Accumulo et y avoir associé une pile de composants ouverts, comme Zookeeper (gestion de configuration pour systèmes distribués) et Thrift (framework de services multi-langages), Maven et bien sûr Hadoop, quatre autres projets de la fondation.

La NSA explique que son projet pourrait aujourd'hui trouver des cas d'utilisation dans différents secteurs d'activité, citant notamment ceux de la santé et des services publics, "là où la problématique de la protection des données personnelles est forte", ajoute-t-elle. Invitant ainsi la communauté Open Source à rallier son initiative, tout en profitant de l'élan que connait actuellement Hadoop dans la sphère IT (BigData et Cloud, notamment). Voire de celui de Hbase, autre base de données Hadoop hébergée par la fondation, que la NSA considère complémentaire d'Accumulo - mais pas identique. Une convergence des deux projets pourrait à terme être effectuée, souligne plus loin l'agence. "Mais le différentiation des deux projets est telle qu'Accumulo mérite d'être abordé de façon indépendante", explique en substance la NSA.

Pour approfondir sur Open Source

Close