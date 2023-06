L’embedding est une technique particulièrement populaire en data science.

Par exemple, lors de l’entraînement d’un modèle de traitement du langage naturel, cela peut servir à associer un mot et ses synonymes. La technique peut s’appliquer à un ensemble de cas d’usage, de recommandation de produits sur un site e-commerce, à la recherche de contenu sur le Web, à la détection de fraude (plus largement à la détection d’anomalies) ou encore à la classification d’éléments.

Il s’agit en premier lieu de faire comprendre à un algorithme si deux objets sont parents ou non. « La distance entre deux vecteurs mesure leur parenté. Les petites distances indiquent une forte parenté et les grandes distances une faible parenté », explique OpenAI, dans sa documentation.

Pour ce faire, l’on opère un plongement, consistant à convertir l’objet en question en vecteurs mathématiques. Il existe plusieurs techniques et modèles d’intelligence artificielle pour se faire (TD-IDF, Word2vec, Glove, BERT, etc.).

Dans l’idée, il s’agit de vectoriser les données d’entreprise, de les placer dans une base de données inaccessible au modèle, d’effectuer une recherche de similarité entre une demande et les embeddings, d’intégrer les embeddings relatifs à un prompt dans un appel API vers le modèle afin d’obtenir un résultat plus cohérent.

Dans le cadre de la recherche vectorielle, les embeddings sont stockés dans une base de données vectorielle, couplés à un moteur de recherche et des API. Plusieurs technologies spécifiques émergent comme Pinecone, Weawiate, Qdrant, Milvus, Chroma, Typesense, mais il est également de se servir de produits plus généralistes tels Redis, Elasticsearch, MongoDB Atlas , OpenSearch, etc.

De son côté, OpenAI recommande l’exploitation de la recherche vectorielle. « Bien que le réglage fin puisse sembler être l’option la plus naturelle [...] nous ne le recommandons généralement pas comme moyen d’enseigner des connaissances au modèle [GPT] », écrivent les ingénieurs d’OpenAI sur GitHub . « Le fine-tuning est mieux adapté à l’enseignement de tâches ou de styles spécialisés, et il est moins fiable pour le rappel de faits ».

Avec l’émergence des modèles d’IA générative, un autre usage s’impose. Comme des modèles de fondation ( à l’instar de GPT-4 , PaLM 2 , Stable Diffusion, Llama, etc.) sont entraînés sur des corpus généraux, les contenus qu’ils produisent peuvent s’avérer imprécis, biaisés ou inappropriés. En utilisant des embeddings et une base de connaissances associées à une invite, il est possible d’enrichir les réponses générées et de les rendre plus prédictibles.

Les embeddings peuvent être décodés

Est-ce bien sécurisé ? Pas vraiment. Les acteurs tels OpenAI et Azure ne récoltent pas par défaut de données sur les demandes et les réponses obtenues des utilisateurs. Pour ce faire, l’usager doit donner son accord explicite.

Bien que les envois et les résultats sont chiffrés en transit et au repos, il y a un risque que les réponses obtenues contenant des informations confidentielles soient accessibles par le fournisseur du modèle. Pour l’heure, dans leurs conditions d’utilisation, OpenAI, Google, AWS déconseillent fortement (à défaut d’interdire) d’insérer des données sensibles dans les requêtes envoyées vers leurs API. Avec les embeddings, il est bien possible d’embarquer du contexte dans une invite. Cependant, la réponse demeure accessible au fournisseur, même s’il ne promet de rien en faire.

En clair, la combinaison de texte et d’embeddings représentant des données non publiques est pertinente tant que l’information traitée n’est pas sensible. Dans les faits, la frontière entre information non publique et confidentielle est ténue.

Effectivement, les embeddings ne sont pas convertis en plein texte pour être lu par un modèle NLG. Si cela limite l’accès à des documents (public ou non) encodés dans une base de données vectorielle, il existe tout de même un risque. En 2020, les chercheurs Congzheng Song de l’Université Cornell, et Ananth Raghunathan de l’université de Stanford et employé de Facebook ont prouvé qu’il était possible de déchiffrer 50 à 70 % d’un corpus de texte préalablement vectorisé. Certaines techniques permettent d’apprendre aux modèles de génération d’embeddings à « bruiter » les données sensibles, mais elles sont complexes à mettre en place au sein d’algorithmes utilisant des dizaines de milliards de paramètres, selon les chercheurs.

En mai 2023, trois chercheurs de l’université de Sciences et de Technologies d'Hong Kong ont approfondi ce travail en mettant au point une attaque par inversion capable de retrouver l’ensemble des éléments de phrases représentées par des embeddings.

La recherche progresse également pour protéger ces vecteurs potentiellement critiques. Un an plus tôt, trois chercheurs de l’Université de Californie San Diego ont réussi à prouver qu’il pouvait protéger l’intégrité de phrases vectorisées au niveau d’un document en utilisant une technique de substitution similaire à l’approche homomorphique.

S’il n’est pas certain que l’architecture d’un fournisseur d’un modèle d’IA générative soit sensible à ce type d’attaque, l’usage d’un tel service dans un contexte d’entreprise repose principalement sur la confiance. Par exemple, l’outil de création d’embeddings le plus compatible avec les modèles d’OpenAI n’est autre… qu’un modèle OpenAI : text-embeddings-ada-002. Ici, les données en entrée sont potentiellement consultées par l’entreprise (a minima à des fins de sécurité).

OpenAI et Azure proposent des instances dédiées pour utiliser les LLMs, mais elles sont en premier lieu destinées à améliorer les performances et à utiliser une version spécifique d’un modèle autrement inaccessible. Surtout, les deux acteurs ciblent les organisations qui « consomment plus de 450 millions de tokens par jour ». Si l’on compte environ quatre caractères par token en anglais (comme le fait OpenAI sur son site), cela équivaut à ingérer/générer plus de… 580 645 pages Word par jour comprenant environ 3 100 caractères chacune.