Traiter les données Big Data non-structurées… sans les déplacer

Avec l’architecture « Unstructured Data Identification and Management » les données non-structurées se transforment en données pertinentes.

Avec l’architecture « Unstructured Data Identification and Management » les données non-structurées se transforment en données pertinentes

 

Traiter toute la chaine du « non structuré », depuis la découverte et l’indexation jusqu’à l’analyse et au stockage optimisé des données, tout en résolvant les problèmes sans fin, par exemple d’ordre réglementaire ou juridique, qui jalonnent l’accès et la rétention. Telle est l’ambition des outils « Unstructured Data Identification and Management » que vient d’annoncer IBM.

 

Organisés pour fonctionner en architecture distribuée, ces outils permettent d’adresser des quantités colossales, exprimées en téra et péta-octets. Et surtout, ils procèdent sans déplacement vers des répertoires ou des applications spécialisées : le principe est au contraire « d’indexer et gérer sur place ». Ce qui permet à l’entreprise d’agir pleinement dans l‘esprit du Big Data et d’administrer leurs environnements de grands ensembles de données de la même manière qu’elle administrent les autres réseaux informatiques.

De l’enquête à l’action

 

Etape cruciale, la détection est rendue difficile par le fait que les informations non-structurées présentent une forte diversité de types. Les modes de recherche efficaces (par mots-clés, par recherche de terme, par expressions booléennes, par proximité…) varient notamment suivant ces types et nécessitent souvent d‘être combinés. L’approche proposée permet cette combinaison, et de plus les contenus s’affichent en s’affranchissant de tout applicatif local. Des visualisations sophistiquées, telles que les Treemaps en couleur, permettant d’embrasser d’un seul coup d’œil les contenus des différents types. Ces mêmes visualisations puissantes vont permettre, lors de l’analyse détaillée, d’utiliser une hiérarchisation intelligente pour détecter les problèmes potentiels, ou comparer des perspectives. Cela permet d’aborder des phases délicates comme l’identification avec un véritable esprit d’enquête en affinant progressivement les différentes perspectives qui vont aider à donner du sens aux données. Et cela, sans jamais perdre de vue ni la source des données ni leur catégorie, informations par ailleurs importantes pour l’action. N’oublions pas que les données non-structurées représentent des risques potentiels associés à des coûts juridiques importants pour l’entreprise, qui doit donc les identifier sans erreurs avec des outils puissants.

Ensuite, à quoi servirait de d’identifier des données pertinentes sans pouvoir les exploiter pleinement ? L’approche IBM inclut à cet égard de nombreux moyens d’action pour créer toutes sortes de fonctions et d’artefacts (cartographies ou filtres de données, surimpression d’informations, exportations, tableaux de bord eDiscovery…) contribuant à mieux insérer les apports des enquêtes dans les processus métiers qui en ont besoin.

Pour approfondir sur Big Data et Data lake