Fotolia

Adobe Document Cloud : deux nouvelles APIs pour l’extraction et la génération de PDF

Le créateur du format sort deux outils pour inclure les PDF dans des workflows documentaires. Il n’est pas le premier. Mais son poids devrait mettre dans la lumière des usages encore peu répandus, dixit la PDF Association.

Adobe vient de sortir deux nouvelles APIs pour Adobe Document, sa gamme d’outils de gestion documentaires (dont Acrobat). La première API concerne l’extraction des données d'un PDF pour mieux en exploiter les informations. La seconde API cible la génération automatisée de documents qui incluent des données « dynamiques ».

L’éditeur entre ainsi dans un marché déjà bien rempli avec de nombreux outils concurrents. Mais en tant qu'inventeur du format PDF, Adobe possède un atout certain.

Adobe PDF Extract API

L’API PDF Extract analyse la structure des fichiers PDF et en extrait tous les éléments (texte, données de tableau, images). L’intérêt est multiple. Le premier est de mieux indexer les documents. De manière plus poussée, il peut automatiser leur intégration dans un processus (comme republier le contenu de PDF dans un CMS).

L’organisme de certification Cambridge Assessment a par exemple utilisé cette API pour numériser un siècle d’épreuves et créer une banque de données pour élaborer de futurs contenus pédagogiques.

Cette API utilise Liquid Mode d’Adobe. Initialement, Liquid Mode est un outil à base d’Intelligence Artificielle qui analyse la structure d’un document PDF pour en améliorer le confort de lecture (par exemple en réorganisant les éléments pour les adapter à l’écran d’un smartphone). PDF Extract « détourne » cet usage pour taguer les différents éléments et comprendre la structure fine d’un PDF.

La reconnaissance des éléments d'un PDF à des fins d'automatisation de workflow constitue depuis longtemps un problème technique épineux - tant pour Adobe que pour les éditeurs tiers d'outils PDF, resitue Vibhor Kapoor, directeur marketing d’Adobe Document Cloud.

Les nouvelles API rejoignent les API d’Adobe qui existent déjà et qui permettent d'effectuer des tâches sur les PDF comme l'apposition de e-signatures, la création de PDF à partir de documents Word, la fusion de PDF, la compression de PDF volumineux, la reconnaissance optique de caractères (OCR) sur un PDF, ou encore la rotation et la suppression de pages. Il existait déjà des API d'extraction et de génération de documents chez Adobe, mais elles n'utilisaient pas le Liquid Mode.

Adobe Document Generation API

L’API Adobe Document Generation vise à compiler des éléments issus de différents systèmes (ERP, CRM, e-signature, etc.) pour concevoir des « templates » de documents professionnels en PDF (contrats de vente, de travail, cahiers des charges ou autres documents juridiques).

Cette API arrive avec un connecteur pour Power Automate, l’outil low code de Microsoft. Pour Duff Johnson, président de la PDF Association, L'utilisation des APIs dans ce contexte et les modèles qui permettent de créer des documents Word puis de les exporter vers des PDF montrent clairement la stratégie d’Adobe.

« C'est un pas de plus vers les grands groupes qui ont profondément investi dans les technologies Microsoft », déchiffre-t-il. Vibhor Kapoor confirme que ces APIs ont trois cibles : les grandes entreprises, les intégrateurs systèmes, et les éditeurs qui pourront incorporer ces API dans leurs propres produits.

Pas le premier, mais l’inventeur du PDF garde un avantage incomparable

« Adobe n'est peut-être pas le premier [à proposer ces fonctionnalités] – mais si on se met à leur place, ils n'ont pas forcément besoin d'être les premiers », continue le responsable de la PDF Association.

La PDF Association est une organisation basée à Berlin qui promeut des normes internationales et des standards autour du PDF. Son PDG, Duff Johnson, rappelle que des éditeurs comme Abbyy, spécialisées dans l'OCR, utilisent également l'IA pour réaliser le taging de la structure des PDF afin de mieux numériser les documents.

Mais le fait qu'Adobe - qui est à l'origine du format PDF dans les années 1990 - ait publié ses propres API serait un signe fort.

Pour Duff Johnson, il est probable que les éditeurs concurrents accueilleront favorablement l’initiative. Plutôt que de cannibaliser le marché, Adobe attirera en effet l'attention sur ces fonctionnalités dans un secteur de la gestion documentaire en pleine expansion.

Adobe affirme que 2,5 trillions de PDFs sont générés chaque année. L’éditeur constate par ailleurs une augmentation de 80 % des inscriptions à ses outils développeurs et de 50 % des intégrations avec Adobe Document Services depuis le début de l'année.

« Le monde n'utilise pas encore tout cela », constate Duff Johnson. Mais « [les API Adobe PDF] font prendre conscience aux gens de ce qu'il est possible de faire avec le PDF. C'est une bonne chose pour tous les acteurs de notre secteur. Si les gens commencent à concevoir ces usages, ils vont ensuite se demander comment aller encore plus loin avec le PDF ».

Pour approfondir sur GED, signature électronique et partage de fichiers

Close