Ces start-ups qui font la BI de demain : Trifacta, le nettoyeur de données

La société qui s’est récemment implantée en Europe fait du Data Wrangling. Et rien que du Data Wrangling. Aussi bien pour le Big Data que pour le « small data »

Trifacta est une société qui a mûri derrière les murs de Stanford. Son cœur de métier – et le seul – le Data Wrangling. Autrement dit, trier les données, les nettoyer, les modifier, les enrichir, et leur donner la bonne forme en les structurant en fonction de l’analyse souhaitée.

Son président, Adam Wilson, explique que la philosophie qui fonde son entreprise est que « c’est les personnes qui connaissent le mieux les données qui doivent s’occuper du Data Wrangling ». En fait, il a choisi de résumer son activité avec le mot « Wrangling » parce que celui-ci fait partie de la langue vernaculaire des Data Analystes.

Dit autrement, l’outil s’adresse aux Data Scientists et aux statisticiens. Pas à Monsieur Tout Le Monde. « Nous sommes assez dogmatiques, nous restons sur la couche intermédiaire entre les données brutes et l’analyse. Nous n’essayons pas d’être une entreprise de BI ».

Au contraire de Datameer, Trifacta reste en dehors de toute forme de DataViz. La société se concentre exclusivement sur les processus de Data Wrangling et sur la manière de les optimiser. Sa solution proposer  par exemple automatiquement différentes manières de restructurer des données en fonction d’une analyse.

Parmi les clients de Trifacta on trouve déjà Royal Bank of Scotland, Unicredit, Santander, ou encore Pepsi et LinkedIn.

LinkedIn utilise par exemple Trifacta sur un énorme cluster Hadoop. Mais il peut aussi être utilisé sur des « small data », renchérit Adam Wilson, comme par exemple sur de simples fichiers Excel. Sa feuille de route prévoit également d’inclure des bases de données relationnelles.

« Le plus gros potentiel pour nous était les gros dépôts de données, complètement désordonnes… qui sont souvent dans Hadoop », analyse Adam Wilson. « Mais nous ne voulons pas nous spécialiser dans Hadoop pour autant ».

« Beaucoup de nos clients qui ont mis en place des clusters Hadoop ont également du Oracle DB, du IBM DB2, du SQL Server, etc. »

Pour son président fondateur, c’est une des différences fondamentales avec Datameer, très lié à l’univers du framework. « Eux vont aussi beaucoup sur la couche d’analyse et de consommation par les utilisateurs métiers. Nous, nous restons vraiment à la phase de préparation, sinon vous terminez en concurrents de très gros acteurs - aussi bien sur la partie stockage de données que sur la partie visualisation et analyse. Et s’il y a bien une chose que je ne veux pas, c’est être en compétition avec QlikTableau, SAS ou R ».

Créée en 2012, Trifacta s'est implanté en Europe en décembre 2015 en ouvrant deux antennes, une à Londres et une à Berlin.

Pour approfondir sur Big Data et Data lake

Close