Définitions IT - Big Data et Data lake

Rechercher une définition

A
AIOps (intelligence artificielle dédiée aux opérations informatiques)

AIOps (intelligence artificielle dédiée aux opérations informatiques) est un terme générique qui fait référence à l'utilisation d'outils comme l'analytique des Big Data, l'apprentissage automatique et d'autres technologies d'intelligence artificielle (IA, AI) pour automatiser l'identification et la résolution de problèmes informatiques courants.
Analytique

L'analytique consiste à appliquer à un contenu numérique des méthodes d'informatique décisionnelle, BI (Business Intelligence), ainsi que d'analytique métier, BA (Business Analytics). Les entreprises recourent à un logiciel d'analytique pour bénéficier d'une visibilité sur la quantité, la nature et le mode d'utilisation d'un contenu créé.
Analytique avancée

L’analytique avancée utilise des algorithmes évolués de Machine Learning pour dépasser la simple analyse statique et descriptive des données et faire des prévisions en exploitant les probabilités.
Analytique Big Data

L'analytique du Big Data est le processus qui consiste à examiner des ensembles de données volumineux contenant des types de données hétérogènes pour découvrir des schémas cachés, des corrélations inconnues, les tendances du marché, les préférences des utilisateurs et d'autres informations exploitables.
Analytique prédictive

L'analytique prédictive est la branche de l’analytique qui s'intéresse à la prédiction de probabilités et de tendances futures.

Apache Flink

Apache Flink est une plateforme de traitement distribué des données qui fonctionne dans le cadre d'applications de Big Data, et implique essentiellement l'analyse de données stockées dans des clusters Hadoop. Grâce à des modes de traitement combinés sur disque et en mémoire (In-Memory), Apache Flink gère à la fois des tâches en flux et par lots. Le flux de données reste la mise en oeuvre par défaut, tandis que les traitements par lots constituent des versions dédiées à des cas spéciaux d'applications en flux.
Apprentissage non supervisé

L'apprentissage non supervisé consiste à apprendre à un algorithme d'intelligence artificielle (IA) des informations qui ne sont ni classées, ni étiquetées, et à permettre à cet algorithme de réagir à ces informations sans supervision.
Apprentissage supervisé

L'apprentissage supervisé, dans le contexte de l'intelligence artificielle (IA) et de l'apprentissage automatique, est un système qui fournit à la fois les données en entrée et les données attendues en sortie.
Avro (Apache Avro)

Apache Avro est un format de stockage orienté ligne de conteneurs d'objets pour Hadoop, ainsi qu'un framework d'appel de procédures à distance (RPC, Remote Procedure Call) et de sérialisation de données.
Azure HDInsight

Conçu pour l'analytique du Big Data, HDInsight, le service cloud de Microsoft Azure, aide les entreprises à traiter de gros volumes de données en continu (streaming) ou historiques.
Streaming des données (architecture de streaming des données)

Une architecture de données en flux (ou streaming data architecture) est une infrastructure des technologies de l'information qui met l'accent sur le traitement des données en mouvement et considère le traitement par lots de type extraction, transformation et chargement (ETL, Extract, Transform, Load) comme une simple opération dans un flux continu d'événements.
B
Base de données en colonnes

Une base de données orientée colonnes (ou en colonnes) est un système de gestion de bases de données (SGBD) qui enregistre les données dans des colonnes, plutôt que dans des lignes.
BI (informatique décisionnelle)

L'informatique décisionnelle (BI) est un processus d'analyse des données qui vise à doper les performances métier en aidant à prendre des décisions plus avisées.
Big Data

Le terme Big Data décrit des ensembles de très gros volumes de données – à la fois structurées, semi-structurées ou non structurées – qui peuvent être traitées et exploitées dans le but d’en tirer des informations intelligibles et pertinentes.
Gestion des Big Data

La gestion des Big Data correspond à l’organisation, la gestion et la gouvernance d’un grand volume de données à la fois structurées et non structurées.
C
CDO (Chief Data Officer)

Un responsable des données, ou CDO (pour Chief Data Officer), est un cadre exécutif de l'entreprise, chargé de la gestion et de l'exploration des données.
Cluster

Dans un système informatique, un agrégat, ou « cluster », est un groupe de ressources, comme des serveurs. Ce groupe agit comme un seul et même système. Il affiche ainsi une disponibilité élevée, voire, dans certains cas, des fonctions de traitement en parallèle et d'équilibrage de la charge.
D
DaaS (Data as a Service, données à la demande)

Les données à la demande (DaaS, Data as a Service) désignent un modèle de fourniture et de distribution des informations dans lequel les fichiers de données (texte, images, sons et vidéos) sont mis à la disposition des clients via un réseau, généralement Internet.
Data lake (lac de données)

Un lac de données (Data Lake) est un référentiel de stockage orienté objet qui consigne des données dans leur format natif tant qu'elles ne sont pas nécessaires.
Data Management Platform (DMP)

Une DMP (pour Data Management Platform, ou en français « plateforme de gestion de données ») est un système centralisé de collecte de données, issues de sources variées, qui sert de référence pour des analyses le plus souvent dans le domaine du marketing.
Data science

La data science (littéralement « science des données ») est une discipline qui étudie les informations : leur source, ce qu'elles représentent et les méthodes permettant de les transformer en ressources utiles pour la création de stratégies métier et IT.
data science as a service (DSaaS)

Dans la délégation d'expertise en science des données (DSaaS, Data Science as a Service), les data scientists d'un prestataire externe récoltent, à l'aide d'applications d'analytique avancé, des informations exploitables par l'entreprise cliente. Le prestataire DSaaS collecte les données de ses clients, les prépare à des fins d'analyse, exécute des algorithmes d'analyse sur les données affinées, puis envoie aux clients les résultats de ces traitements.
Data Scientist

Le terme Data Scientist est un titre professionnel qui désigne un employé ou un consultant en informatique décisionnelle (BI, Business Intelligence) qui excelle dans l’analyse des données, particulièrement des grandes quantités de données, et ce afin d’aider une entreprise à en tirer un avantage concurrentiel.
Data Visualization (ou DataViz)

La visualisation de données décrit toute technologie qui représente visuellement des données pour faire ressortir des schémas, des tendances ou des corrélations qui risqueraient de passer inaperçus au sein de données purement textuelles.
Données non structurées

Les données non structurées sont une désignation générique qui décrit toute donnée extérieure à un type de structure (telle qu'une base de données).
Données semi-structurées

Les données semi-structurées sont des données qui n'ont pas été organisées en référentiel spécialisé, comme c’est le cas dans une base de données, mais qui comportent néanmoins des informations associées, des métadonnées par exemple, qui les rendent plus faciles à traiter que des données brutes.
Gestion des données en tant que service (DMaaS)

La gestion des données en tant que service (Data Management-as-a-Service, DMaaS) est un type de service dans le cloud qui fournit aux entreprises un stockage centralisé pour des sources de données disparates.
E
Edge Analytics

L'analytique "en périphérie" permet d'exécuter automatiquement des analyses statistiques là où les données sont créées (capteur, commutateur, ou autre) plutôt que d'attendre le transfert des données vers un Data Store centralisé.
ETL (et ELT)

L'ELT (Extract, Transform, Load) est un processus d'intégration des données qui permet de transférer des données brutes d'un système source vers une base de données cible. L’ELT est une variante d’ETL.
G
Gestion des données ? Pourquoi est-elle fondamentale ?

La gestion des données (ou data management) consiste à collecter, ingérer, stocker, organiser et garder à jour les données d’une entreprise.
Google Cloud Platform

Google Cloud Platform (GCP) est la plateforme cloud de Google pour les développeurs et les gestionnaires d’infrastructure qui regroupe son PaaS et son IaaS ainsi qu’un ensemble d’API et de services connexes comme les bases de données hébergés, des outils Big Data, de Machine Learning ou d’optimisation du réseau.
Gouvernance des données

La gouvernance des données (GD, ou data governance – DG – en anglais) consiste en la gestion globale de la disponibilité, de l'exploitabilité, de l'intégrité et de la sécurité des données utilisées dans une entreprise.
Génération automatique de textes en langage naturel (GAT ou NLG)

La génération automatique de textes (GAT ou NLG, pour Natural Language Generation) est un domaine de l'intelligence artificielle (IA) qui vise à produire du contenu ou un discours comparable à celui des humains à partir d’un ensemble de données.
H
Cluster Hadoop

Un cluster Hadoop est un type particulier de traitement informatique en grappe, conçu spécialement pour stocker et analyser de grandes quantités de données non structurées dans un environnement distribué.
Hadoop

Hadoop est un framework open source qui repose sur Java. Hadoop prend en charge le traitement des données volumineuses (Big Data) au sein d'environnements informatiques distribués. Hadoop fait partie intégrante du projet Apache parrainé par l'Apache Software Foundation.
Hadoop 2

Apache Hadoop 2 (Hadoop 2.0) est la deuxième version de du framework Hadoop écrit en Java destinée au traitement des données distribuées. Cette version 2 ajoute la prise en charge des tâches qui ne s'exécutent pas par lots, ainsi que de nouvelles fonctions visant à améliorer la disponibilité du système.
Hadoop Distributed File System (HDFS)

HDFS est un système de fichiers distribué qui donne un accès haute-performance aux données réparties dans des clusters Hadoop. Comme d’autres technologies liées à Hadoop, HDFS est devenu un outil clé pour gérer des pools de Big Data et supporter les applications analytiques.
HBase

Apache HBase est un Data Store orienté colonnes utilisant des paires clé/valeur. Il est conçu pour s'exécuter sur le système de fichiers HDFS (Hadoop Distributed File System). Hadoop est une infrastructure qui permet de gérer des ensembles de données volumineux dans un environnement informatique distribué.
I
IA explicable (XAI)

L'IA explicable ou XAI (eXplainable Artificial Intelligence) est une forme d'intelligence artificielle prévue pour décrire son objet, sa logique et sa prise de décision de manière intelligible à une personne lambda.
In-memory data grid (grille de données In-Memory)

Une grille de données en mémoire, ou grille de données In-Memory (IMDG, In-Memory Data Grid), est une structure de données qui réside intégralement en mémoire vive, ou RAM (Random Access Memory), et qui est répartie sur plusieurs serveurs.
In-Memory database (Base de données en mémoire)

Une base de données « en mémoire » (in-memory), ou IMDB (In Memory DataBase), ou encore MMDB (Main Memory DB), est une base de données dont les informations sont stockées en mémoire pour accélérer les temps de réponse
Industrie 4.0

L’Industrie 4.0 est la transformation cyberphysique de la fabrication. Ce nom provient de l'initiative allemande Industrie 4.0, lancée par le gouvernement pour promouvoir la fabrication connectée et une convergence numérique entre l'industrie, les entreprises et les autres processus.
Intelligence artificielle générative

L’IA générative (Generative AI ou GenAI) est l’ensemble des outils d’intelligence artificielle qui génèrent des contenus – textes, multimédias, codes, plans, etc. – en fonction d’une demande (un prompt). Ses promesses sont très nombreuses. Ses travers à maîtriser aussi.
J
JSON (JavaScript Object Notation)

JSON (JavaScript Object Notation) est un format d'échange de données en texte lisible. Il est utilisé pour représenter des structures de données et des objets simples dans un code qui repose sur un navigateur Web. JSON est parfois également utilisée dans les environnements de programmation, côté serveur et côté poste de travail.
K
Apache Kafka

Kafka est un système de messagerie de type publication/abonnement conçu pour remplacer les courtiers de message traditionnels.
L
Architecture Lambda

L'architecture Lambda est une approche hybride de la gestion du Big Data qui permet un traitement par lots et en quasi temps réel.
Log

Dans un contexte informatique, un journal (log) désigne la documentation automatiquement générée et horodatée des événements concernant un système particulier. Pratiquement tous les systèmes et logiciels produisent des fichiers journaux.
M
MapReduce

MapReduce est un composant central du framework Hadoop. Il répartit les tâches sur plusieurs nœuds au sein du cluster (Map) puis il organise et agrège les résultats de chacun des nœuds pour apporter une réponse à une requête (Reduce)
Métadonnées

Les métadonnées sont des données qui en décrivent d'autres. Dans la plupart de ses usages informatiques, le préfixe méta signifie « définition ou description de référence ».
N
NoSQL (base de données « Not Only SQL »)

Les bases de données NoSQL sont particulièrement adaptées aux grands volumes de données non uniformes affichant des formats de champ variables.
O
Oracle Autonomous Database

Oracle Autonomous Database est une technologie cloud destinée à automatiser une grande partie de la gestion de routine des bases de données Oracle.
P
Apache Pig

Apache Pig est une technologie open source qui fournit un mécanisme de haut niveau pour la programmation parallèle de tâches MapReduce à exécuter sur des clusters Hadoop.
Q
Qualité des données

La qualité des données est une mesure de l’état des données fondée sur divers facteurs : précision, exhaustivité, homogénéité, fiabilité et actualité.
R
R (langage)

R est un langage de script open source destiné à l'analytique prédictif et à la visualisation des données.
S
Apache Storm

Storm est un système informatique distribué qui fonctionne en temps réel, de type FOSS (Free Open Source System), développé par l'Apache Software Foundation.
SAP HANA Enterprise Cloud

SAP HANA Enterprise Cloud (HEC) est un service d'hébergement en Cloud privé fourni par SAP pour des solutions tournant sur SAP HANA.
Smart City

L'expression « ville intelligente », traduction de l'anglais « Smart City », désigne une ville qui utilise pleinement les systèmes IT pour accroître son efficacité opérationnelle, diffuser des informations à ses citoyens et à ses visiteurs et à améliorer la qualité des services publics.
Spark (Apache)

Apache Spark est un cadre de traitement parallèle open source permettant d'exécuter des applications d'analyse de données à grande échelle sur des ordinateurs en grappe. Il peut gérer des charges de travail d'analyse et de traitement de données en batch et en temps réel.
SQL-on-Hadoop

SQL-on-Hadoop est une classe d'outils d'application analytique qui combine une interrogation classique de style SQL à des éléments d'infrastructure de données Hadoop.
Stockage Objet

Le stockage objet, dit également stockage orienté objet, est un terme générique décrivant une approche du traitement et de la manipulation d'entités de stockage indépendantes appelées « objets ». Les objets de stockage conservent des informations concernant à la fois le contexte et le contenu des données.
T
TensorFlow

Développé par les chercheurs de Google, TensorFlow est un outil open source d'apprentissage automatique (machine learning), d'apprentissage profond et d'analyses statistiques et prédictives.
Thunder (Salesforce Thunder)

Thunder est le moteur de règles et le pipeline de traitement du Big Data de Salesforce.com. Il est conçu pour capturer et filtrer les événements et y répondre en temps réel. La plateforme est optimisée pour les scénarios de transmission de données en continu, par exemple dans des environnements de machine à machine (M2M) et de l'Internet des objets (IoT).
Transformation digitale

La transformation digitale – ou transformation numérique – est l’incorporation de technologies dans les produits, les processus et les stratégies d’une organisation afin de rester compétitive dans un monde plus en plus numérique.
U
U-SQL

Langage de requête de Microsoft, U-SQL se caractérise par la combinaison d'une syntaxe déclarative de type SQL et de la capacité de programmation de C#.
V
SAP HANA Vora

SAP HANA Vora est un moteur de traitement in-memory conçu pour rendre le Big Data issu d'Hadoop plus accessible et exploitable. SAP a développé Vora à partir de SAP HANA afin de répondre à des scénarios spécifiques impliquant le Big Data.
Vision à 360° du client

Objectif souvent considéré inaccessible, la vue à 360° du client traduit l'idée que l'entreprise peut acquérir une connaissance complète et unifiée de chacun de ses clients en agrégeant les données issues de divers points d'interaction (achat ou service/assistance).
Y
YARN (Yet Another Resource Negotiator)

Apache Hadoop YARN (Yet Another Resource Negotiator) est une technologie de gestion de clusters. Elle rend l'environnement Hadoop mieux adapté aux applications opérationnelles qui ne peuvent pas attendre la fin des traitements par lots.
Z
Apache ZooKeeper

ZooKeeper est une API open source qui permet la synchronisation de processus distribués sur de grands systèmes, afin que tous les clients émettant des demandes reçoivent des données homogènes.