kras99 - Fotolia

Data scraping, screen scraping, web scraping : quels liens avec le RPA ?

Le data scraping, le screen scraping et le web scraping sont trois techniques d’extraction de données utilisées par les éditeurs de solutions BPM et RPA. À quelles fins ? Voici quelques réponses dans cet article.

Afin d’extraire et de transférer des données d’un système à un autre, les éditeurs ont déployé tout un ensemble de connecteurs. Cependant, certaines applications legacy sont trop anciens pour supporter des méthodes de connexions par API. De même, un connecteur ODBC (Open DataBase Connectivity) ne peut ne plus fonctionner si l’un des systèmes interconnectés est mis à jour régulièrement. Pour pallier ce problème, les éditeurs de logiciels BPM ou RPA utilisent les techniques de data, screen et web scraping.

Data Scraping

Commençons par le data scraping. Cette expression anglo-saxonne désigne une technique d’extraction de données lisibles par l’homme, contrairement aux transactions effectuées au sein d’un programme ou entre application. Elle a en premier lieu émergé dans le but de retransmettre des informations textuelles à un utilisateur final.

Ainsi, quelle que soit la méthode associée, un logiciel de data scraping peut être programmé pour ignorer certains types de fichiers comme des images, des vidéos, etc. La technique est généralement appliquée depuis un ordinateur afin de récupérer les informations textuelles d’une application dont l’API serait indisponible ou inexistante. Elles sont ensuite reporter directement dans un autre système, par exemple pour faire le lien entre un mainframe vieillissant et un ERP ou un CRM.

Screen scraping

Le screen Scraping est une variante du data scraping qui implique l’extraction de textes depuis un bureau d’ordinateur, une application ou sur le web. Cette technique peut être manuelle ou automatique. Un logiciel de capture de données d’écran doit être configuré pour reconnaître les applications ou les types d’applications.
Celui-ci est programmé pour lire une interface visuelle présente dans sa base de données. Les développeurs peuvent, eux, reprendre des éléments en provenance du code source d’une de leurs anciennes applications pour les réutiliser au sein d’un autre projet. Suivant les besoins, le logiciel de screen scraping reformate les données afin de les afficher aux utilisateurs ou aux systèmes auxquelles il se connecte.

Web scraping

À cela s’ajoute le web scraping qui est probablement la technique de screen scraping la plus répandue. Certains scripts, API et des outils comme Selenium IDE ou PhantomJS permettent d’extraire des données textuelles structurés depuis des pages HTML pour les formater en JSON au sein de tables de base de données ou au sein de tableur comme Excel. Cette technique peut être utilisée à des fins de comparaisons ou d’analyse sur les contenus publiés sur le web.

Power BI de Microsoft propose une fonctionnalité de ce type. Pour cela, il faut spécifier une URL dans l’onglet « Obtenir des données ». Il s’agit ensuite d’indiquer des exemples sur lesquels un algorithme s’appuiera pour enregistrer les informations dans une table.

Il n’est plus forcément question d’exposer ces informations à un humain, mais à les rejouer pour automatiser une tâche. Ces techniques sont particulièrement utiles dans le milieu bancaire et dans la comptabilité où il faut souvent chercher des identifiants des entreprises (SIREN/SIRET) et vérifier leur solvabilité.

Les informations sont alors coupler à un système de scripts ou à une plateforme BPM ou RPA. Par exemple UiPath utilise le screen scraping pour extraire les données textuelles non structurées pour les transférer dans une table ou surtout les inclure au sein d’un processus métier. Chez UiPath, le data scraping correspond à un outil qui extrait des données structurées des pages web pour les transférer dans une table.

Des acteurs comme Automation Anywhere ou Jacada proposent des fonctionnalités similaires.

OCR, NLP, Computer Vision redéfinissent l’extraction de données

UiPath et Microsoft proposent d’associer ces techniques avec de la reconnaissance optique de caractères (OCR) pour récupérer du texte d’images ou de documents au format PDF, par exemple, et les convertir en code ASCII. De même, les techniques de computer vision ou de NLP permettent de récupérer des données au sein de ce type de documents.
Pour cela, Google Cloud propose Google Vision, une offre qui peut être intégré certains éditeurs de solutions RPA. Dans ce cas-là, cela implique des processus de calcul supplémentaire et donc une facturation différente. Des éditeurs comme UiPath ou Pegasystems associent ces techniques à des scripts qui détectent ou simulent la frappe de touches sur un clavier et les clics de souris. Cela permet d’automatiser l’ensemble d’une logique métier qui requiert de la recherche, puis de la transcription d’informations.

Si ces technologies sont pensées pour gagner du temps, toutefois, il ne faut pas oublier de poser un cadre organisationnel et de protection de données. Si ces techniques sont appliquées dans des environnements maîtrisés par la DSI, cela pose peu de problèmes. En revanche, le web scraping peut être considéré comme illégal si les données sont réutilisées à des fins commerciales. Certains éditeurs de sites Web mettent en place des éléments pour s’en protéger (mots de passe à usage unique, firewalls, cookies, etc.).

Pour approfondir sur Formats et Archivage

Close