Les données non structurées encore trop délaissées, selon IDC

Les entreprises peinent à maîtriser et à exploiter leurs données non structurées, constate IDC dans une enquête menée pour le compte de Box. Une situation qui pourrait évoluer rapidement si les organisations souhaitent exploiter le potentiel de l’IA générative.

En mai dernier, à la demande de Box, IDC a réalisé une étude auprès de 414 dirigeants IT et métiers travaillant pour des entreprises du Midmarket (501 à 2 000 employés) et de grands groupes (plus de 2 001 employés).

Dans un contexte d’effervescence autour de l’IA générative et au vu des risques identifiés par le marché et les entreprises, le spécialiste de la gestion de contenus s’intéresse plus particulièrement à la manière dont les organisations traitent leurs données non structurées.

Selon IDC, en 2022, elles représentaient 90 % de la totalité des données générées par les entreprises et un volume estimé de 57 280 exaoctets.

Ordre d’achat, inventaires, enregistrement d’import/export, contenus marketing, contrats, fichiers patients, vidéos de surveillance, films, livres numériques… Les données non structurées sont partout et sont essentielles au fonctionnement des entreprises.

Elles servent de « nourriture » aux IA génératives qui, en ce moment, insufflent l’espoir aux entreprises d’automatiser un très grand nombre de tâches. « Seulement 3 % des répondants n’envisagent pas actuellement de déployer la technologie », constatent les analystes d’IDC.

Encore faut-il pouvoir savoir où sont les données non structurées, comment les gérer et les exploiter.

Des données non structurées peu réutilisées et analysées

De prime abord, les entreprises semblent s’en sortir.

Ainsi, 43 % des personnes questionnées estiment que leur organisation est « très bonne » ou « excellente » pour inventorier ces fichiers, leur emplacement et les cas d’usage associés. Ceux-là auraient en très grande majorité (98 %) centralisé la gestion desdits documents. Environ 32 % des dirigeants interrogés considèrent que leur entreprise est « bonne » à cet exercice, tandis que 25 % d’entre eux la jugent comme « moyenne » ou « médiocre » en la matière.

Dans un même temps, 55 % des sondés déclarent que moins de la moitié des données non structurées de leurs entreprises sont partagées entre les employés ou les systèmes.

Le cabinet d’analystes estime que 22 % des données non structurées sont répliquées inutilement « parce que les entreprises ne savent tout simplement pas celles qu’elles possèdent et où les trouver ».

En ce sens, 41 % des décideurs affirment que moins de la moitié d’entre elles sont réutilisées, tout comme 46 % des sondés signalent que moins de la moitié des données non structurées sont analysées. « Et si elles sont analysées, le processus s’avère encore très manuel », assène IDC.

La méthodologie d’IDC

IDC a tenté d’obtenir un panel équilibré de sondés en provenance de services financiers (15 %), d’organisations gouvernementales (15 %), de retailers (15 %), de média et de groupes marketing (15 %), ou encore de spécialistes des sciences de la vie (15 %). Près de 25 % des répondants sont affiliés à « d’autres secteurs ». Le panel est composé en majorité de responsables IT (74 %). Environ 37 % d’entre eux sont nord-américains, 38 % européens et 25 % proviennent de la région Asie-Pacifique.

Des budgets encore difficiles à obtenir

D’après IDC, l’automatisation du traitement des données non structurées permettrait de générer un retour sur l’actif (ROA), puis une fois analysé, un retour sur investissement.

Or, seulement 44 % des répondants estiment qu’il est facile de justifier le financement de projets consacrés à une meilleure utilisation des données non structurées.

Les principaux freins, selon les réponses à l’étude d’IDC, résident dans la mécompréhension ou la bonne appréciation des données non structurées par les responsables IT (51 %) et par les lignes métiers (42 %), l’incapacité à quantifier un ROI des projets impliquant les données non structurées (39 %), ainsi que le manque d’expérience ou d’expertise concernant les technologies de type NoSQL (36 %).

« Selon les recherches d’IDC en matière d’investissements IT, nous estimons que 40 % de toutes les dépenses dans les technologies “data” sont allouées aux traitements des données non structurées », écrivent les analystes.

IDC identifie quatre défis de taille liés aux données non structurées : la complexité, les risques métiers, la conformité et la productivité.

50 % des sondés ont expliqué aux analystes que leurs données non structurées sont « grandement ou totalement » cloisonnées. Un quart des organisations ne connaîtrait pas ou ne sauraient pas cataloguer toutes leurs données non structurées. « Cela n’est pas surprenant si l’on considère que l’employé moyen utilise 37 logiciels au quotidien, et que 70 % d’entre eux le sont pour créer, consommer ou manipuler des données non structurées », complètent les analystes.

Quarante-sept pour cent des données non structurées sont partagées à travers des outils ou des plateformes de gestion de contenus centralisés, tandis que le restant est transmis « point à point » ou « de personne à personne » à travers des mails, des serveurs FTP, des Drive partagés, des échanges sur des outils de collaboration, etc.

Les entreprises paient le prix d’une gestion en dents de scie

Cette fragmentation serait synonyme de risques de sécurité pour les organisations, selon IDC.

Selon les informations récoltées auprès des sondés et les estimations d’IDC, « une plus grande fragmentation conduit à un doublement des coûts annuels des failles de sécurités (4,5 millions de dollars, contre 2,2 millions de dollars) ».

En outre, les entreprises auraient du mal à suivre le nombre de connexions grandissantes entre les données non structurées (un défi majeur pour 28 % des sondés), tandis que l’intégration des technologies capables de les traiter serait complexe pour 40 % des dirigeants sollicités.

La quantité et la variété des données non structurées poseraient également des difficultés. « Si [nos clients] ont un accident, ils peuvent enregistrer une vidéo haute définition en 4K », illustre un assureur auprès des analystes d’IDC. « [Les données] ne font que s’accroître et se complexifier ».

La fragmentation, les volumes grandissants, l’hétérogénéité des fichiers et des sources, la vélocité à laquelle ils sont produits et stockés provoquent par ailleurs des problèmes de conformité.

Selon l’étude, le respect des règles concernant le traitement et la protection des données est un défi prioritaire pour 46 % des sondés. En outre, un peu plus de la moitié des répondants (51 %) signalent que leur entreprise s’est fait épingler pour non-respect des lois en vigueur en matière de traitement de données au cours des douze derniers mois. Cela représenterait un coût total moyen de 1,03 million de dollars par organisation concernée.

Pour autant, les sondés sont majoritairement « confiants » ou « très confiants » dans la capacité de leur entreprise à respecter les règlements internes (73 %) et les régulations externes (59 %).

Outre les risques légaux, IDC rappelle que la mauvaise gestion des données peut avoir des impacts sur la réputation d’une entreprise et sa marque, tandis que la fuite de données de propriété intellectuelle les expose à concurrence.

La situation va-t-elle s’améliorer ? Les sondés, eux, sont partagés. Si 40 % d’entre eux estiment que les processus de financement des projets de gestion de données non structurées vont rester les mêmes au cours des trois prochaines années, 40 % des dirigeants interrogés s’attendent à ce que ce processus soit simplifié. « Il semble bien qu’il s’agisse de l’un des avantages de la popularisation de l’IA générative », observent les analystes d’IDC.

L’IA générative, une pression supplémentaire sur les épaules des dirigeants

« Pour non seulement rester compétitives, mais aussi prospérer à l’ère de l’IA, les organisations doivent traiter leurs données comme des actifs », recommandent les analystes. « C’est déjà largement le cas pour les données structurées conservées dans les bases et les entrepôts de données. Pour autant, l’attention apportée au traitement des données non structurées reste inférieure à celle accordée aux données structurées ».

Et si 97 % des sondés entendent exploiter pleinement l’IA générative, ils seront bien obligés d’investir dans une pile technologique pour ordonner, indexer, rechercher, analyser puis exploiter leurs données non structurées, considère Ravi Malick, DSI de Box.

« Le “problème du contenu” n’est pas nouveau, mais il ne reçoit pas l’attention qu’il mérite. Avec l’arrivée d’IA générative, la pression pour maîtriser toutes ces données non structurées est soudainement beaucoup plus forte », note-t-il.

Pour approfondir sur Big Data et Data lake

Close