Définitions IT - Gestion des données

  • A

    abstraction de données

    L'abstraction de données fait référence à la réduction d'un ensemble de données spécifique en une représentation simplifiée.

  • ACID

    L'acronyme ACID (Atomicité, Cohérence, Isolation et Durabilité) désigne les quatre attributs fondamentaux qu'un gestionnaire de transactions doit garantir.

  • ad hoc

    Ad hoc est une locution adjectivale utilisée pour décrire une chose créée sur-le-champ et généralement destinée à un usage unique.

  • AIOps (intelligence artificielle dédiée aux opérations informatiques)

    AIOps (intelligence artificielle dédiée aux opérations informatiques) est un terme générique qui fait référence à l'utilisation d'outils comme l'analytique des Big Data, l'apprentissage automatique et d'autres technologies d'intelligence artificielle (IA, AI) pour automatiser l'identification et la résolution de problèmes informatiques courants.

  • Algorithme

    Un algorithme est une procédure ou une formule qui permet de résoudre un problème.

  • Algorithme de consensus

    Un algorithme de consensus est un processus qui permet de trouver un accord sur une valeur unique de données entre des processus ou des systèmes distribués.

  • Algorithme évolutionniste ou évolutionnaire

    Un algorithme évolutionniste ou évolutionnaire (AE) met en œuvre des mécanismes inspirés de la nature pour résoudre des problèmes comme le feraient des organismes vivants. Il appartient aussi bien à l’informatique bio-inspirée qu'à l'informatique évolutionniste.

  • Altcoin

    Les altcoins désignent toute monnaie numérique – ou crypto-monnaie - qui s’inspire de Bitcoin. Le terme signifie littéralement « alternative à Bitcoin ».

  • Amazon Aurora

    Amazon Aurora est un moteur de base de données relationnelle d'Amazon Web Services (AWS) compatible avec MySQL. Il permet d'utiliser le code, les applications et les pilotes des bases de données MySQL dans Aurora avec peu, voire aucune adaptation.

  • Ambiguïté lexicale

    L’ambiguïté lexicale est la possibilité d’interpréter de plusieurs manières une phrase parlée ou écrite, ce qui en complique la compréhension, voire la rend impossible en l’absence d’informations complémentaires.

  • Ambiguïté structurelle

    L'ambiguïté structurelle ou syntaxique fait référence aux différentes interprétations possibles d'un énoncé écrit ou verbal à cause de la manière dont les mots ou les phrases sont agencés.

  • Analyse ad hoc

    L'analyse ad hoc est un processus d'informatique décisionnelle (BI) conçu pour répondre à une question métier unique et précise.

  • Analyse statistique

    L'analyse statistique est une composante de l'analyse des données. Dans le contexte de l'informatique décisionnelle (BI, Business Intelligence), l'analyse statistique implique la collecte et l'examen de tous les échantillons de données tirés d'un jeu de données.

  • Analytique

    L'analytique consiste à appliquer à un contenu numérique des méthodes d'informatique décisionnelle, BI (Business Intelligence), ainsi que d'analytique métier, BA (Business Analytics). Les entreprises recourent à un logiciel d'analytique pour bénéficier d'une visibilité sur la quantité, la nature et le mode d'utilisation d'un contenu créé.

  • Analytique avancée

    L’analytique avancée utilise des algorithmes évolués de Machine Learning pour dépasser la simple analyse statique et descriptive des données et faire des prévisions en exploitant les probabilités.

  • Analytique Big Data

    L'analytique du Big Data est le processus qui consiste à examiner des ensembles de données volumineux contenant des types de données hétérogènes pour découvrir des schémas cachés, des corrélations inconnues, les tendances du marché, les préférences des utilisateurs et d'autres informations exploitables.

  • Analytique descriptive

    L'analytique descriptive est une étape préliminaire du traitement des données qui consiste à synthétiser des données historiques pour en tirer des informations utiles voire les préparer en vue d'une analyse complémentaire.

  • Analytique prescriptive

    L'analytique prescriptive est un type d'analytique focalisé sur la recherche de la meilleure approche pratique d'une situation. Elle fait partie d'un ensemble qui compte également l'analytique descriptive et l'analytique prédictive.

  • Analytique prédictive

    L'analytique prédictive est la branche de l’analytique qui s'intéresse à la prédiction de probabilités et de tendances futures.

  • Apache Flink

    Apache Flink est une plateforme de traitement distribué des données qui fonctionne dans le cadre d'applications de Big Data, et implique essentiellement l'analyse de données stockées dans des clusters Hadoop. Grâce à des modes de traitement combinés sur disque et en mémoire (In-Memory), Apache Flink gère à la fois des tâches en flux et par lots. Le flux de données reste la mise en oeuvre par défaut, tandis que les traitements par lots constituent des versions dédiées à des cas spéciaux d'applications en flux.

  • Apdex (Application Performance Index)

    L'Application Performance Index, également appelé Apdex, est une norme ouverte visant à simplifier le suivi des performances des applications.

  • Apprentissage non supervisé

    L'apprentissage non supervisé consiste à apprendre à un algorithme d'intelligence artificielle (IA) des informations qui ne sont ni classées, ni étiquetées, et à permettre à cet algorithme de réagir à ces informations sans supervision.

  • Apprentissage par renforcement

    L'apprentissage par renforcement (reinforcement learning, en anglais) est une méthode qui consiste à récompenser les comportements souhaités et/ou à sanctionner les comportements non désirés.

  • Apprentissage par transfert

    L'apprentissage par transfert (transfer learning, en anglais) consiste à appliquer des connaissances obtenues en effectuant une tâche afin de résoudre un problème différent, mais qui présente des similitudes.

  • Apprentissage supervisé

    L'apprentissage supervisé, dans le contexte de l'intelligence artificielle (IA) et de l'apprentissage automatique, est un système qui fournit à la fois les données en entrée et les données attendues en sortie.

  • arbre décisionnel

    Un arbre décisionnel ou arbre de décision est un graphique en forme d’arbre dont les ramifications illustrent les conséquences possibles d’une décision.

  • Automatisation de base de données

    L'automatisation de base de données (data base automation, en anglais) consiste à utiliser des processus sans assistance et des procédures à mise à jour automatique, pour exécuter l'administration d'une base de données.

  • Avro (Apache Avro)

    Apache Avro est un format de stockage orienté ligne de conteneurs d'objets pour Hadoop, ainsi qu'un framework d'appel de procédures à distance (RPC, Remote Procedure Call) et de sérialisation de données.

  • Azure HDInsight

    Conçu pour l'analytique du Big Data, HDInsight, le service cloud de Microsoft Azure, aide les entreprises à traiter de gros volumes de données en continu (streaming) ou historiques.

  • Streaming des données (architecture de streaming des données)

    Une architecture de données en flux (ou streaming data architecture) est une infrastructure des technologies de l'information qui met l'accent sur le traitement des données en mouvement et considère le traitement par lots de type extraction, transformation et chargement (ETL, Extract, Transform, Load) comme une simple opération dans un flux continu d'événements.

  • B

    Base de données

    Une base de données est une collection de données organisées de façon à être facilement accessibles, administrées et mises à jour. Les bases de données peuvent être classées par le type de contenu qu’elles renferment : bibliographique, full text, images ou des nombres….

  • Base de données cloud (DBaaS et traditionnelle)

    Une base de données Cloud est un ensemble de contenus, structurés ou non structurés, qui réside sur une plateforme d'infrastructure de cloud computing privée, publique ou hybride.

  • Base de données distribuée

    Dans une base de données distribuée, des parties de la base sont stockées à différents emplacements physiques et le traitement est réparti entre plusieurs noeuds.

  • Base de données en colonnes

    Une base de données orientée colonnes (ou en colonnes) est un système de gestion de bases de données (SGBD) qui enregistre les données dans des colonnes, plutôt que dans des lignes.

  • Base de données multimodèle

    Une base de données multimodèle est une plate-forme de traitement de données qui prend en charge plusieurs modèles de données.

  • Base de données orientée graphes

    Une base de données orientée graphes (Graph Database) est un type de base de données NoSQL qui utilise la théorie des graphes pour stocker, mapper et interroger des relations.

  • Base de données relationnelle

    Une base de données relationnelle est une collection de données organisées sous la forme de tables définies de façon formelle, à partir desquelles les données sont accessibles et assemblées sans avoir à réorganiser les tables de la base de données.

  • BI (informatique décisionnelle)

    L'informatique décisionnelle (BI) est un processus d'analyse des données qui vise à doper les performances métier en aidant à prendre des décisions plus avisées.

  • BI en libre-service

    L'informatique décisionnelle en libre-service (ou également BI en Self-Service) est une approche de l'analytique qui permet aux professionnels d'accéder aux données de l'entreprise et de les exploiter même sans aucune expérience de l'analyse statistique, de l'informatique décisionnelle ou du data mining.

  • Big Data

    Le terme Big Data décrit des ensembles de très gros volumes de données – à la fois structurées, semi-structurées ou non structurées – qui peuvent être traitées et exploitées dans le but d’en tirer des informations intelligibles et pertinentes.

  • Biomimétisme ou l'art du vivant

    Le biomimétisme consiste à créer des processus, des substances, des appareils ou des systèmes qui imitent la nature.

  • Blockchain

    La blockchain est un registre distribué, permanent et qualifié d'infalsifiable, qui enregistre des données sans autorité centrale.

  • Gestion des Big Data

    La gestion des Big Data correspond à l’organisation, la gestion et la gouvernance d’un grand volume de données à la fois structurées et non structurées.

  • C

    CDO (Chief Data Officer)

    Un responsable des données, ou CDO (pour Chief Data Officer), est un cadre exécutif de l'entreprise, chargé de la gestion et de l'exploration des données.

  • Citizen Data Scientist

    Le « Citizen Data Scientist » est un anglicisme qui désigne une personne qui utilise ou qui fait de la « data science » sans avoir les compétences en analytique, en Machine Learning et en algorithmes des véritables experts (les Data Scientists). Il s’agit le plus souvent d’opérationnels et de métiers qui font de l’analytique avancée et du prédictif grâce à des solutions automatisées.

  • Cluster

    Dans un système informatique, un agrégat, ou « cluster », est un groupe de ressources, comme des serveurs. Ce groupe agit comme un seul et même système. Il affiche ainsi une disponibilité élevée, voire, dans certains cas, des fonctions de traitement en parallèle et d'équilibrage de la charge.

  • Collecte de données

    Par collecte de données, on entend l'approche systématique qui consiste à réunir et à mesurer des informations en provenance de sources variées, afin d'obtenir une vue complète et précise d'un domaine d'intérêt. La collecte des données permet à une personne ou à une entreprise de répondre à des questions pertinentes, d'évaluer des résultats et de mieux anticiper les probabilités et les tendances à venir.

  • Colored Coin (jeton marqué)

    Une « colored coin » (en français, une pièce colorée) est un jeton de cryptomonnaie, comme un bitcoin, marqué au moyen de ses métadonnées. Ce marquage permet d'associer un jeton à un actif en dehors de la blockchain. Les « colored coin » sont aussi appelées « métacoins ».

  • Commerce conversationnel (commerce axé sur la voix)

    Le commerce conversationnel (« conversational commerce », en anglais, ou commerce axé sur la voix) est le processus qui consiste à interagir avec une marque ou acheter un produit ou un service via des canaux non traditionnels, tels que des assistants vocaux, des SMS et le chat en ligne et sur les réseaux sociaux.

  • Compression

    La compression est une réduction du nombre de bits nécessaires pour représenter les données. Compresser les données permet d'optimiser la capacité de stockage et la vitesse de transfert des fichiers. Elle réduit les coûts dans ces deux domaines.

  • Compréhension du langage naturel (CLN ou NLU)

    La compréhension du langage naturel (CLN, ou NLU en anglais) est une branche de l'intelligence artificielle (IA) qui utilise un programme informatique pour comprendre une entrée sous la forme de phrases au format texte ou discours.

  • Corporate Performance Management (CPM)

    Le « Corporate Performance Management » (gestion de la performance de l'entreprise) englobe les processus, méthodologies et évaluations qu'utilise une entreprise pour décliner ses objectifs stratégiques au niveau opérationnel, et piloter ainsi sa réussite au niveau des métiers.

  • corrélation

    La corrélation est une mesure statistique de la manière dont deux variables ou plus évoluent ensemble. Une corrélation positive indiquera des variables qui croissent ou décroissent en même temps ; une corrélation négative, à l'inverse, correspond à une valeur qui croit à mesure que la première décroit.

  • D

    DaaS (Data as a Service, données à la demande)

    Les données à la demande (DaaS, Data as a Service) désignent un modèle de fourniture et de distribution des informations dans lequel les fichiers de données (texte, images, sons et vidéos) sont mis à la disposition des clients via un réseau, généralement Internet.

  • DAM (Digital Asset Management)

    Un DAM (Digital Asset Management) est une solution technique destinée à stocker, classer et rendre accessibles facilement des actifs numériques multimédias (les Digital Assets), à l’origine dans un cadre marketing. Il concerne également les communicants (publicité) et les réseaux de distribution (PLV, catalogues, etc.).

  • Data Catalog

    Un catalogue de données (Data Catalog) est un outil de gestion des métadonnées. Son rôle est d'aider les organisations à organiser, retrouver et gérer toutes leurs sources de données, aussi bien internes qu'externes.

  • Data Exploration

    Première étape de l'analyse des données, l'exploration des données (Data Exploration) consiste à synthétiser les principales caractéristiques d'un ensemble de données. Si on utilise couramment des outils analytiques graphiques, le recours à des logiciels statistiques plus évolués comme R est également possible.

  • Data lake (lac de données)

    Un lac de données (Data Lake) est un référentiel de stockage orienté objet qui consigne des données dans leur format natif tant qu'elles ne sont pas nécessaires.

  • Data Management Platform (DMP)

    Une DMP (pour Data Management Platform, ou en français « plateforme de gestion de données ») est un système centralisé de collecte de données, issues de sources variées, qui sert de référence pour des analyses le plus souvent dans le domaine du marketing.

  • Data Mining

    Le Data Mining, consiste à rechercher des relations qui n'ont pas encore été identifiées. Par exemple, s'ils sont suffisamment analysés et associés à d'autres données commerciales, les ventes d'une marque de raquettes de tennis peuvent révéler une tendance saisonnière.

  • Data science

    La data science (littéralement « science des données ») est une discipline qui étudie les informations : leur source, ce qu'elles représentent et les méthodes permettant de les transformer en ressources utiles pour la création de stratégies métier et IT.

  • data science as a service (DSaaS)

    Dans la délégation d'expertise en science des données (DSaaS, Data Science as a Service), les data scientists d'un prestataire externe récoltent, à l'aide d'applications d'analytique avancé, des informations exploitables par l'entreprise cliente. Le prestataire DSaaS collecte les données de ses clients, les prépare à des fins d'analyse, exécute des algorithmes d'analyse sur les données affinées, puis envoie aux clients les résultats de ces traitements.

  • Data Scientist

    Le terme Data Scientist est un titre professionnel qui désigne un employé ou un consultant en informatique décisionnelle (BI, Business Intelligence) qui excelle dans l’analyse des données, particulièrement des grandes quantités de données, et ce afin d’aider une entreprise à en tirer un avantage concurrentiel.

  • Data stewardship

    Le « data stewardship » (que l’on pourrait traduire par l’intendance des données) consiste à gérer et à superviser les données d’une organisation, de façon à fournir aux utilisateurs professionnels des données de haute qualité facilement et uniformément accessibles.

  • Data Store

    Un Data Store (littéralement « dépôt de données ») est un référentiel servant au stockage permanent d'ensembles de données.

  • Data Storytelling

    La mise en récit (storytelling) des données (datas) est le processus qui consiste à traduire les analyses de données en langage courant dans le but d'orienter une décision ou une action.

  • Data Visualization (ou DataViz)

    La visualisation de données décrit toute technologie qui représente visuellement des données pour faire ressortir des schémas, des tendances ou des corrélations qui risqueraient de passer inaperçus au sein de données purement textuelles.

  • Data warehouse (entrepôt de données)

    Un entrepôt de données est un référentiel central qui accueille tout ou (grande) partie des données que les différents systèmes métier d'une entreprise collectent.

  • Datamart

    Un Datamart est un référentiel qui contient des données collectées auprès de différentes sources, notamment opérationnelles.

  • Deep learning (apprentissage par réseau neuronal profond)

    L'apprentissage profond, ou « deep learning », est un aspect de l'intelligence artificielle (IA) qui imite la méthode d'apprentissage qu'utilisent les êtres humains pour acquérir certains types de connaissances. Sous sa forme la plus simple, le deep learning peut être considéré comme un moyen d'automatiser l'analytique prédictive.

  • DeepMind

    DeepMind est une division d'Alphabet, Inc. chargée de développer la technologie de l'intelligence générale artificielle (AGI, Artificial General Intelligence), également appelée intelligence artificielle « forte ». Le nom complet de cette technologie est Google DeepMind.

  • Données non structurées

    Les données non structurées sont une désignation générique qui décrit toute donnée extérieure à un type de structure (telle qu'une base de données).

  • Données semi-structurées

    Les données semi-structurées sont des données qui n'ont pas été organisées en référentiel spécialisé, comme c’est le cas dans une base de données, mais qui comportent néanmoins des informations associées, des métadonnées par exemple, qui les rendent plus faciles à traiter que des données brutes.

  • données transactionnelles

    Dans le contexte de la gestion de données, les données transactionnelles sont les informations enregistrées à partir des transactions.

  • DWaaS (Entrepôt de données Cloud)

    L'entrepôt de données à la demande, en mode Cloud (ou DWaaS pour Data Warehousing as a Service) est un modèle d’externalisation dans lequel un prestataire de services configure et gère les ressources matérielles et logicielles requises par à un entrepôt de données (en anglais, le Data Warehouse), tandis que le client fournit les données et paie pour le service d'infogérance.

  • Gestion des données en tant que service (DMaaS)

    La gestion des données en tant que service (Data Management-as-a-Service, DMaaS) est un type de service dans le cloud qui fournit aux entreprises un stockage centralisé pour des sources de données disparates.

  • E

    Edge Analytics

    L'analytique "en périphérie" permet d'exécuter automatiquement des analyses statistiques là où les données sont créées (capteur, commutateur, ou autre) plutôt que d'attendre le transfert des données vers un Data Store centralisé.

  • Enterprise Performance Management (EPM)

    L'EPM se focalise sur le suivi et la gestion de la performance d'une organisation, en s'appuyant sur des indicateurs clés de performance (KPI) comme les revenus, les retours sur investissement (ROI), les frais généraux et les coûts opérationnels.

  • Ethereum

    Ethereum est une plateforme logicielle de blockchain, distribuée en open source. Ethereum est à l'origine une blockchain publique, qui motorise la crypto-monnaie Ether. Mais à la différence de la blockchain Bitcoin, elle peut aussi être déployée dans un cadre de blockchain de consortium.

  • ETL (et ELT)

    L'ELT (Extract, Transform, Load) est un processus d'intégration des données qui permet de transférer des données brutes d'un système source vers une base de données cible. L’ELT est une variante d’ETL.

  • Extraction d'information (EI)

    L'extraction d'information (EI) est la recherche automatisée d'informations sur un sujet précis dans le corps d'un texte ou un corpus documentaire.

  • F

    Full-text database (base de données textuelle)

    Une base de données textuelles, ou base de données en texte intégral, est une compilation de documents ou d'autres informations présentée sous la forme d'une base dans laquelle le texte complet de chaque document référencé peut être visualisé en ligne, imprimé ou téléchargé.

  • G

    Gestion des données ? Pourquoi est-elle fondamentale ?

    La gestion des données (ou data management) consiste à collecter, ingérer, stocker, organiser et garder à jour les données d’une entreprise.

  • gestion des décisions fondée sur les données (DDDM)

    La gestion des décisions fondée sur les données (DDDM, Data-Driven Decision Management) constitue une approche de la gouvernance métier qui valorise les décisions soutenues par des données vérifiables. Le succès des approches fondées sur des données repose sur la qualité des informations collectées et sur l'efficacité de leur analyse et de leur interprétation.

  • Google BigTable

    Google BigTable (que l’on appelle plus communément Big Table) est un datastore distribué et en colonnes développé par Google pour prendre en charge un volume important de données structurées, associées aux outils de recherche et aux services Web du groupe.

  • Google Cloud Platform

    Google Cloud Platform (GCP) est la plateforme cloud de Google pour les développeurs et les gestionnaires d’infrastructure qui regroupe son PaaS et son IaaS ainsi qu’un ensemble d’API et de services connexes comme les bases de données hébergés, des outils Big Data, de Machine Learning ou d’optimisation du réseau.

  • Gouvernance des données

    La gouvernance des données (GD, ou data governance – DG – en anglais) consiste en la gestion globale de la disponibilité, de l'exploitabilité, de l'intégrité et de la sécurité des données utilisées dans une entreprise.

  • GRC

    Les solutions de gestion de la gouvernance, des risques et de la conformité (GRC) permettent aux sociétés cotées en bourse d'intégrer et de gérer les opérations informatiques soumises à réglementation. Les logiciels de ce type réunissent dans une seule solution intégrée des applications capables d'assurer les principales fonctions de GRC.

  • Génération automatique de textes en langage naturel (GAT ou NLG)

    La génération automatique de textes (GAT ou NLG, pour Natural Language Generation) est un domaine de l'intelligence artificielle (IA) qui vise à produire du contenu ou un discours comparable à celui des humains à partir d’un ensemble de données.

  • H

    Cluster Hadoop

    Un cluster Hadoop est un type particulier de traitement informatique en grappe, conçu spécialement pour stocker et analyser de grandes quantités de données non structurées dans un environnement distribué.

  • Hadoop

    Hadoop est un framework open source qui repose sur Java. Hadoop prend en charge le traitement des données volumineuses (Big Data) au sein d'environnements informatiques distribués. Hadoop fait partie intégrante du projet Apache parrainé par l'Apache Software Foundation.

  • Hadoop 2

    Apache Hadoop 2 (Hadoop 2.0) est la deuxième version de du framework Hadoop écrit en Java destinée au traitement des données distribuées. Cette version 2 ajoute la prise en charge des tâches qui ne s'exécutent pas par lots, ainsi que de nouvelles fonctions visant à améliorer la disponibilité du système.

  • Hadoop Distributed File System (HDFS)

    HDFS est un système de fichiers distribué qui donne un accès haute-performance aux données réparties dans des clusters Hadoop. Comme d’autres technologies liées à Hadoop, HDFS est devenu un outil clé pour gérer des pools de Big Data et supporter les applications analytiques.

  • HANA

    SAP HANA est une plateforme In-Memory destinée au traitement en temps réel de grands volumes de données.

  • HBase

    Apache HBase est un Data Store orienté colonnes utilisant des paires clé/valeur. Il est conçu pour s'exécuter sur le système de fichiers HDFS (Hadoop Distributed File System). Hadoop est une infrastructure qui permet de gérer des ensembles de données volumineux dans un environnement informatique distribué.

  • Hive (Apache Hive)

    Apache Hive est un système d'entrepôt de données open source. Il permet d'interroger et d'analyser des ensembles de données volumineux stockés dans des fichiers Hadoop dans un environnement informatique distribué.

  • Hyperledger

    Hyperledger est une blockchain privée (ou de consortium) open source soutenue par la Fondation Linux.

  • I

    IA explicable (XAI)

    L'IA explicable ou XAI (eXplainable Artificial Intelligence) est une forme d'intelligence artificielle prévue pour décrire son objet, sa logique et sa prise de décision de manière intelligible à une personne lambda.

  • Ignorance artificielle

    Dans la détection d’anomalies comportementales sur le réseau (network behavior anomaly detection, NBAD), l'ignorance artificielle est la pratique stratégique qui consiste à ignorer les données bruitées dans les fichiers journaux.

  • In-memory data grid (grille de données In-Memory)

    Une grille de données en mémoire, ou grille de données In-Memory (IMDG, In-Memory Data Grid), est une structure de données qui réside intégralement en mémoire vive, ou RAM (Random Access Memory), et qui est répartie sur plusieurs serveurs.

Close