Definition

Surveillance IT (IT monitoring)

Cette définition fait partie de notre Guide Essentiel : Observabilité : comment le machine learning fait évoluer les outils

La surveillance IT (ou IT monitoring) est le processus de collecte de métriques sur le fonctionnement du matériel et des logiciels d'un environnement IT, qui permet de s'assurer que les applications et les services sont pris en charge comme prévu.

Le processus de base contrôle les opérations des terminaux ; plus poussé, il offre une vue détaillée des statuts opérationnels, tels que les temps de réponse moyens, le nombre d'instances d'applications, les nombres d'erreurs et de requêtes, l'utilisation du processeur et la disponibilité des applications.

Fonctionnement de la surveillance IT

La surveillance IT couvre trois volets : la fondation, les logiciels et l'interprétation.

Fondation. L'infrastructure est le premier niveau d'une pile logicielle. Elle inclut des périphériques physiques ou virtuels, par exemple des serveurs, des processeurs et des machines virtuelles.

Logiciels. Parfois appelé section de surveillance, ce volet analyse ce qui fonctionne sur les appareils au niveau de la fondation : l'utilisation du processeur, le chargement, la mémoire et le nombre de machines virtuelles en fonctionnement.

Interprétation. Les métriques sont présentées dans des graphiques, souvent dans un tableau de bord de type GUI (GUI pour Graphical User Interface).

La surveillance IT peut être conçue avec ou sans agent. Les agents sont des programmes indépendants installés sur les périphériques surveillés pour collecter des données sur les données de performances du matériel ou des logiciels et les transférer sur un serveur de gestion. La surveillance sans agent utilise les protocoles de communication existants pour émuler un agent et exercer à peu près les mêmes fonctions.

Par exemple, pour surveiller l'utilisation d'un serveur, un administrateur installe un agent sur le serveur. Un serveur de gestion reçoit les données de l'agent et les affiche via l'interface logicielle de surveillance IT, souvent dans un graphique des performances sur la durée. Si le serveur ne fonctionne plus comme prévu, l'outil alerte l'administrateur, qui peut alors réparer, mettre à jour ou remplacer l'élément défaillant pour qu'il soit conforme aux exigences de fonctionnement.

Surveillance en temps réel ou surveillance des tendances

La surveillance en temps réel permet aux équipes IT de déterminer le statut actif et continu d'un environnement IT via la collecte et la consultation constantes des données. Les mesures des logiciels de surveillance en temps réel illustrent les données de l'environnement IT actuel et très récentes, ce qui permet aux responsables IT de réagir rapidement aux événements qui se produisent dans l'écosystème IT.

Les données de surveillance historiques permettent aux responsables IT d'améliorer l'environnement ou d'identifier les problèmes avant leur survenue, car elles identifient un schéma ou des tendances dans les données d'une période de fonctionnement. L'analyse des tendances utilise une vue d'un écosystème IT sur le long terme pour déterminer les temps de disponibilité système, le respect des accords de niveau de service et la planification de la capacité.

Surveillance de l'infrastructure IT

La surveillance de l'infrastructure IT est un processus de niveau fondation, qui collecte et analyse des métriques concernant le matériel et les logiciels de bas niveau de l'environnement IT. La surveillance de l'infrastructure fournit une référence pour le fonctionnement idéal des systèmes physiques, ce qui favorise l'ajustement du processus et la diminution des temps d'indisponibilité et permet aux équipes IT de détecter les pannes, par exemple la surchauffe d'un serveur.

Les outils de surveillance du système et des serveurs passent en revue et analysent des métriques, telles que les temps de disponibilité des serveurs, les opérations, les performances et la sécurité.

Les métriques des réseaux sont incluses dans la surveillance de l'infrastructure IT. La surveillance réseau cherche les incidents provoqués par les composants réseau ralentis ou défaillants, ou les failles de sécurité. Les métriques incluent le temps de réponse, le temps de disponibilité, les échecs de demande de statut et les contrôles HTTP/HTTPS/SMTP.

Surveillance des performances des applications

La surveillance des performances des applications (Application performance monitoring, APM) collecte des métriques sur les performances des applications basées sur l'expérience de l'utilisateur final et la consommation des ressources de calcul. Ces métriques sont, par exemple, le temps de réponse moyen pendant les pics de charge, les données de àdes performances et les temps de chargement et de réponse.

Options d'outils de surveillance IT disponibles

Les fournisseurs se distinguent en matière de systèmes surveillés, de type de surveillance, de capacité de prise en charge avec ou sans agent et de présentation des métriques. Certains fournisseurs APM proposent également des fonctions de surveillance de l'infrastructure IT, et vice versa, tandis que d'autres outils sont conçus spécialement pour surveiller le réseau ou les performances du processeur, etc.

Voici quelques exemples, non exhaustifs, d'outils de supervision :

-Microsoft System Center Operations Manager (SCOM) peut surveiller les performances de l'infrastructure et des applications en temps réel. SCOM applique la gestion avec et sans agent et s'intègre aux systèmes d'exploitation Windows (OS). Il surveille le matériel des serveurs, les performances de l'OS, les hyperviseurs et les applications.

-Datadog est un service de surveillance des applications et des infrastructures en temps réel. Il applique une surveillance avec agent. Il collecte et analyse automatiquement les journaux, les taux d'erreur et la latence, et alerte les utilisateurs en cas d'anomalie par e-mail, Slack ou PagerDuty.

-Nagios, logiciel open source, surveille l'infrastructure et les logiciels. Ses utilisateurs peuvent collecter des métriques sur les applications, les réseaux et les ressources des serveurs, avec ou sans agent.

Cette définition a été mise à jour en octobre 2018

Pour approfondir sur Applications d'entreprise

Close