Qu'est-ce que la reconnaissance d'images ?
La reconnaissance d'images, dans le contexte de la vision industrielle, est la capacité d'un logiciel à identifier des objets, des lieux, des personnes, des écritures et des actions dans des images numériques. Les ordinateurs peuvent utiliser les technologies de vision industrielle en combinaison avec une caméra et un logiciel d'intelligence artificielle (IA) pour réaliser la reconnaissance d'images.
Les termes "reconnaissance d'images", "reconnaissance d'images" et "reconnaissance de photos" sont utilisés de manière interchangeable.
Comment fonctionne la reconnaissance d'images ?
Alors que les cerveaux animal et humain reconnaissent facilement les objets, les ordinateurs éprouvent des difficultés à accomplir cette tâche. Il existe de nombreuses façons d'effectuer le traitement d'images, y compris l'apprentissage profond et les modèles d'apprentissage automatique. Toutefois, l'approche employée est déterminée par le cas d'utilisation. Par exemple, les techniques d'apprentissage profond sont généralement utilisées pour résoudre des problèmes plus complexes que les modèles d'apprentissage automatique, comme la sécurité des travailleurs dans l'automatisation industrielle et la détection du cancer dans le cadre de la recherche médicale.
En règle générale, la reconnaissance d'images implique la construction de réseaux neuronaux profonds qui analysent chaque pixel de l'image. Ces réseaux sont alimentés par le plus grand nombre possible d'images étiquetées afin de les entraîner à reconnaître des images apparentées.
Ce processus est généralement divisé en trois étapes :
- Un jeu de données contenant des images et leurs étiquettes est rassemblé. Par exemple, une image de chien doit être identifiée comme un "chien" ou comme quelque chose que les gens reconnaissent.
- Un réseau neuronal sera alimenté et entraîné sur ces images. Les processeurs de réseaux neuronaux convolutifs sont très performants dans ces situations, car ils peuvent détecter automatiquement les caractéristiques significatives sans aucune supervision humaine. Outre les multiples couches de perceptron, ces réseaux comprennent également des couches de convolution et des couches de mise en commun.
- L'image qui ne figure pas dans l'ensemble d'apprentissage est introduite dans le système pour obtenir des prédictions.
Les algorithmes de reconnaissance d'images comparent les modèles tridimensionnels et les apparences de différents points de vue en utilisant la détection des bords. Ils sont souvent formés à l'aide de l'apprentissage automatique guidé sur des millions d'images étiquetées.
Cas d'utilisation de la reconnaissance d'images
La reconnaissance d'images est utilisée pour effectuer de nombreuses tâches visuelles basées sur des machines, telles que l'étiquetage du contenu des images avec des balises méta, la recherche de contenu d'images et le guidage de robots autonomes, de voitures auto-conduites et de systèmes d'évitement d'accidents.
Voici quelques cas d'utilisation de la reconnaissance d'images dans le monde réel :
- Reconnaissance faciale. La reconnaissance faciale est utilisée dans divers contextes - médias sociaux, systèmes de sécurité et divertissement - et implique souvent l'identification de visages sur des photos et des vidéos. Par exemple, lorsqu'une personne télécharge une photo de ses amis sur Facebook, l'application suggère instantanément les amis qui, selon elle, figurent sur cette photo. Les algorithmes d'apprentissage profond sont utilisés dans la reconnaissance faciale pour évaluer la photo d'une personne et produire l'identité exacte de l'individu sur l'image. L'algorithme peut être étendu pour extraire des attributs importants tels que l'âge, le sexe et les expressions faciales d'une personne à partir de son image. La fonction de reconnaissance faciale des smartphones, ainsi que la vérification informatisée de l'identité par photo aux points de contrôle de sécurité tels que les aéroports ou les entrées de bâtiments, sont les applications les plus courantes de la reconnaissance d'images.
- Recherche visuelle. La recherche d'images à l'aide de mots-clés ou de caractéristiques visuelles fait appel à la technologie de la reconnaissance d'images. Par exemple, Google Lens permet aux utilisateurs d'effectuer des recherches basées sur des images et l'application Translate de Google offre une traduction en temps réel en scannant du texte à partir de photographies. Ces avancées technologiques permettent aux consommateurs d'effectuer des recherches en temps réel. Par exemple, si quelqu'un trouve une fleur lors d'un pique-nique et souhaite en savoir plus, il peut simplement prendre une photo de la fleur et utiliser Internet pour rechercher immédiatement des informations à son sujet.
- Diagnostic médical. Grâce à la technologie de reconnaissance d'images, les professionnels de la santé et les cliniciens examinent l'imagerie médicale pour diagnostiquer des maladies et des affections. Par exemple, les logiciels de reconnaissance d'images peuvent être entraînés à analyser et à repérer des modèles dans les données provenant d'appareils d'IRM ou de radiographie. Cela permet aux cliniciens de trouver, de détecter et de signaler les anomalies médicales à un stade précoce. La radiologie, l'ophtalmologie et la pathologie sont trois domaines qui utilisent fréquemment la reconnaissance d'images pour le diagnostic médical.
- Contrôle de la qualité. L'inspection manuelle traditionnelle de la qualité demande beaucoup de travail, de temps et d'erreurs. Cependant, en utilisant un ensemble de photos annotées d'un produit d'intérêt, un modèle d'intelligence artificielle ou un réseau neuronal peut être formé pour repérer automatiquement les schémas de dysfonctionnement de l'équipement. Il est ainsi possible d'identifier et d'isoler les articles qui ne répondent pas aux normes, ce qui permet d'améliorer la qualité globale du produit.
- Détection des fraudes. La procédure de détection des fraudes peut être automatisée et améliorée grâce à l'utilisation d'outils de reconnaissance de photos par l'IA. Par exemple, une méthode de détection de la fraude consiste à utiliser un outil de reconnaissance d'images d'IA pour traiter les chèques ou autres documents soumis aux banques. Pour évaluer l'authenticité et la légalité d'un chèque, l'ordinateur analyse les images numérisées de celui-ci afin d'en extraire des données cruciales telles que le numéro de compte, le numéro de chèque, le montant du chèque et la signature du titulaire du compte.
- Identification des personnes. Les agences gouvernementales, les forces de l'ordre et les autres agences de sécurité utilisent la reconnaissance d'images pour identifier et collecter des informations sur les personnes présentes sur les photographies et les vidéos.
Les applications actuelles et futures de la reconnaissance d'images comprennent les photothèques intelligentes, la publicité ciblée, les médias interactifs, l'accessibilité pour les malvoyants et l'amélioration des capacités de recherche.
Quels sont les types de reconnaissance d'images ?
L'apprentissage des systèmes de reconnaissance d'images peut se faire de trois manières : apprentissage supervisé, apprentissage non supervisé ou apprentissage auto-supervisé. En général, l'étiquetage des données d'apprentissage est la principale distinction entre les trois approches d'apprentissage.
- Apprentissage supervisé. Ce type de reconnaissance d'images utilise des algorithmes d'apprentissage supervisé pour distinguer différentes catégories d'objets - comme une personne ou une voiture - à partir d'une collection de photographies. Une personne peut utiliser les étiquettes "voiture" et "pas voiture", par exemple, si elle veut que le système de classification d'images reconnaisse des photographies de voitures. Avec ce type de reconnaissance d'images, les deux catégories d'images sont explicitement étiquetées dans les données d'entrée avant que les images ne soient introduites dans le système.
- Apprentissage non supervisé. Un modèle de reconnaissance d'images est alimenté par un ensemble d'images sans qu'on lui dise ce qu'elles contiennent. En conséquence, le système détermine, par l'analyse des attributs ou des caractéristiques des images, les similitudes ou les différences importantes entre les images.
- Apprentissage auto-supervisé. L'apprentissage auto-supervisé est souvent considéré comme un sous-ensemble de l'apprentissage non supervisé, car il utilise également des données non étiquetées. Il s'agit d'un modèle de formation dans lequel l'apprentissage s'effectue à l'aide de pseudo-étiquettes créées à partir des données elles-mêmes. Il permet à une personne d'apprendre à représenter les données avec des données moins précises. Avec ce point de départ, on peut apprendre à une machine à imiter les visages humains en utilisant l'auto-supervision, par exemple. Une fois l'algorithme formé, l'apport de données supplémentaires lui permet de générer des visages totalement nouveaux.
Quelle est la différence entre la reconnaissance d'images et la détection d'objets ?
La reconnaissance d'images et la détection d'objets sont des techniques similaires et relèvent toutes deux de la vision par ordinateur. Elles présentent toutefois les différences suivantes :
Reconnaissance d'images
- La reconnaissance d'images permet d'identifier et de classer des objets, des personnes ou d'autres éléments dans une image ou une vidéo.
- Les logiciels de reconnaissance d'images attribuent normalement une étiquette de classification à chaque image d'une photo ou d'une vidéo.
- Les systèmes de reconnaissance d'images peuvent n'avoir besoin que d'identifier la présence de certaines caractéristiques ou de certains modèles dans une image ou une vidéo, sans nécessairement les localiser.
Détection d'objets
- La détection d'objets permet de trouver des instances et des emplacements d'objets dans l'image, ainsi que leur classe ou leur type.
- Les systèmes de détection d'objets utilisent des boîtes de délimitation - le rectangle utilisé pour entourer une image et pour indiquer la position et les dimensions d'objets distincts dans une image ou une vidéo - ainsi que la classe ou le type de chaque objet.
- La détection d'objets est généralement plus complexe que la reconnaissance d'images, car elle nécessite l'identification des objets présents dans une image ou une vidéo, ainsi que leur localisation et la détermination de leur taille et de leur orientation.
Les techniques courantes de détection d'objets comprennent le réseau neuronal convolutionnel à base régionale plus rapide (R-CNN) et You Only Look Once (YOLO), version 3. Le R-CNN appartient à une famille de modèles d'apprentissage automatique pour la vision par ordinateur, en particulier la détection d'objets, tandis que YOLO est un algorithme bien connu de détection d'objets en temps réel.
L'avenir de la reconnaissance d'images
La reconnaissance d'images gagne énormément en popularité et peut déboucher sur toute une série de nouvelles applications à l'avenir, notamment les suivantes :
- Voitures sans conducteur. Même si cette technologie n'a pas encore atteint son apogée, de nombreuses entreprises utilisent activement l'IA, la ML, la vision par ordinateur et la reconnaissance d'images pour commercialiser des véhicules autonomes. L'une des technologies fondamentales permettant la conduite autonome, y compris la création de mesures de sécurité, est la vision par ordinateur. En particulier, la technologie de reconnaissance d'images permet de prévoir la position, la vitesse et le mouvement d'autres objets en mouvement, ainsi que d'identifier des objets, des personnes, des itinéraires et des virages dangereux sur les autoroutes. Les scientifiques développent l'IA pour permettre aux voitures de s'adapter à des conditions météorologiques difficiles et de voir dans l'obscurité.
- Lunettes intelligentes. Grâce à la reconnaissance d'images intégrée, les technologies portables telles que les lunettes intelligentes devraient tenir leurs promesses. Par exemple, une personne portant des lunettes intelligentes serait informée si le produit qu'elle vient de mettre dans son panier est disponible de l'autre côté de la rue à un prix inférieur.
- Réalité augmentée. La réalité augmentée (RA), propulsée par l'industrie du jeu, est un autre domaine qui peut grandement bénéficier de la reconnaissance d'images. La technologie RA est déjà utilisée dans des jeux tels que Pokemon Go, mais à l'avenir, elle jouera un rôle important dans les secteurs de la mode, de la médecine et de l'éducation.
- Prévoir le comportement des consommateurs. Les applications précieuses de la reconnaissance d'images pourraient contribuer à la publicité des marques, au ciblage des annonces et à l'amélioration du service à la clientèle. Grâce à la reconnaissance d'images, les marques peuvent cibler les photos téléchargées par les clients pour mieux connaître leurs préférences et leurs habitudes de consommation. Armées des informations nécessaires sur leurs clients, les marques peuvent facilement proposer un marketing ciblé et efficace aux consommateurs.
Problèmes de protection de la vie privée dans le cadre de la reconnaissance d'images
Google, Facebook, Microsoft, Apple et Pinterest font partie des nombreuses entreprises qui investissent des ressources et des recherches importantes dans la reconnaissance d'images et les applications connexes. Les préoccupations en matière de protection de la vie privée liées à la reconnaissance d'images et aux technologies similaires sont controversées, car ces entreprises peuvent extraire un grand volume de données des photos d'utilisateurs téléchargées sur leurs plateformes de médias sociaux.
La vision industrielle a de nombreuses applications dans différents secteurs. Découvrez comment le secteur manufacturier utilise l'IA pour améliorer l'efficacité de ses processus.
