GenAI : en retard, Oracle brandit (encore) l’argument du prix
Signe de sa progression dans le domaine, Oracle a présenté trois services managés consacrés à l’IA générative. S’il assure infuser les grands modèles de langage dans l’ensemble de ses produits, le fournisseur accuse un certain retard face à ses concurrents. Un retard qu’il espère compenser en offrant une tarification avantageuse.
Dévoilé lors de Cloud World en septembre, Oracle a lancé ce 23 janvier plusieurs solutions d’IA générative en disponibilité générale et en bêta.
Il y a d’abord le service OCI Generative AI, en disponibilité générale. Accessible de manière limitée depuis le mois de septembre, le service managé propose non seulement d’exécuter les grands modèles de langage de Cohere, le partenaire privilégié d’Oracle en matière d’IA générative, mais aussi ceux de Meta.
En sus des modèles Cohere Command (52 milliards de paramètres), Command Light (6 milliards de paramètres) et Summarize, Oracle propose Lama 2-70B et intégrera « dans six semaines » LLama 2-7B. À cela s’ajoutent les modèles d’embedding de Cohere dont le premier est compatible avec l’anglais et le second avec une centaine de langues.
Les modèles de Cohere peuvent être fine-tuné, suivant trois options. Les modèles de Meta pourront également être affinés, une fois qu’ils seront tous deux disponibles.
Peu de modèles, mais une sélection « réfléchie »
Selon Oracle, les retours des clients ont poussé le fournisseur à améliorer les clusters de GPU accessibles, et à offrir de la gestion de point de terminaison (des API) et des outils pour la modération de contenus. Le service peut également s’intégrer au Framework LangChain, un outil open source très populaire pour orchestrer des cas d’usage d’IA générative. Enfin, le fournisseur inclut des fonctions d’analytique pour surveiller les usages, les entrées-sorties des modèles et les coûts.
Vinod MamtaniVice-président et directeur général, Generative AI Service, OCI, Oracle
Oracle assure qu’OCI Generative AI peut propulser une variété de cas d’usage dans la relation client, le marketing, la vente, le légal, et la finance.
Comparativement à Google Vertex AI et Amazon Bedrock, l’offre d’Oracle semble pauvre en modèles. Dans le jardin de modèles de Vertex AI, GCP inclut plus de 130 modèles, tandis qu’AWS en intègre une vingtaine dans sa plateforme.
« C’est un choix délibéré. Nous voulons être très précautionneux et réfléchis lorsque nous introduisons des modèles ou des types de modèles », assure Vinod Mamtani, vice-président, et directeur général Generative AI Services, Oracle Cloud Infrastructure chez Oracle.
« Nous avons commencé par un partenariat avec Cohere, puis nous avons travaillé avec Meta quand nous avons compris qu’il y avait un fort intérêt pour les modèles ouverts », ajoute-t-il. « Nous ne voulons pas nous contenter d’offrir à nos clients du choix, ce qui pourrait les décourager d’exploiter cette technologie ».
RAG Agent : Oracle Database 23c (AI Vector Search) remplacé temporairement par OpenSearch
En ce sens, le fournisseur souhaite proposer des templates d’agents conversationnels dans l’objectif d’accélérer le déploiement d’applications d’IA générative. Il débute par la prise en charge en bêta de l’architecture la plus populaire du moment en la matière, à savoir l’architecture retrieval augmented generation (RAG).
Pour rappel, en connexion avec un LLM, celle-ci permet de générer des réponses s’appuyant sur une base de connaissances. L’Agent d’Oracle peut répondre à des questions supplémentaires en s’appuyant sur la base de connaissances et sur l’historique de la conversation.
Une architecture RAG s’appuie sur une base de données capable de prendre en charge des vecteurs (embeddings). Ces vecteurs sont des représentations mathématiques de mots, de phrases ou de documents que l’on recherche par similarité avec le texte en entrée du modèle. Lors de CloudWorld, Oracle a annoncé qu’il prendrait en charge les vecteurs dans Oracle Database 23c via le module AI Vector Search et dans MyQSQL HeatWave (Vector Store). Ces extensions fonctionnelles ne sont pas encore disponibles. Pour l’heure, le « RAG Agent » est propulsé par OCI OpenSearch, sa distribution du fork d’Elasticsearch initié par AWS après le changement de licence opéré par Elastic.
Dans l’idée d’Oracle, les entreprises indexent et vectorisent les documents présents dans leurs applications (EDW, ERP, HCM, etc.). La base de données NoSQL dérivée d’Apache Lucene est utilisée pour retrouver les documents, un LLM est utilisé pour classer les documents les plus pertinents (top 3, top 5, top 10), puis la requête de l’utilisateur est transmise à un modèle chargé de générer le texte. Enfin, la sortie correspondante est renvoyée à l’utilisateur.
De fait, certaines bases de données NoSQL telles qu’ElasticSearch ou OpenSearch prennent en charge depuis quelques années les vecteurs. S’il ne peut pas révéler les statistiques d’adoption concernant OCI OpenSearch, Vinod Mamtani assure que le service, disponible depuis mai 2022, a gagné en popularité auprès des clients d’OCI. Il est toutefois évident que la majorité des clients d’Oracle exploitent principalement sa base de données relationnelle.
Cela pourrait être perçu comme un comble pour un expert des SGBD SQL multimodèle, mais Oracle semble réclamer un peu de patience au marché.
Le fournisseur prévoit qu’AI Vector Search sera disponible dans Oracle Database 23c au premier semestre de l’année 2024. « Par principe, nous n’exigeons pas des clients qu’ils déplacent leurs données hors de leurs entrepôts de données vers des services d’IA. Au lieu de cela, nous apportons une technologie là où résident les données des clients », justifie le directeur des services d’IA générative chez Oracle. « De même, nous – Oracle, Cohere et Meta – ne collectons pas les données de nos clients pour entraîner des modèles ».
Dans RAG Agent, le fournisseur exploite les LLMs de Cohere ou de Meta. Ses propres applications SaaS (ERP, HCM, SCM et CX), dont les suites Oracle Fusion, NetSuite et Oracle Health, infuseront ces mêmes agents.
Par ailleurs, Oracle, est en train d’améliorer les services d’IA OCI Digital Assistant, Language, Document Translation Experience, Vision, Speech et Document Store, à coup d’IA générative ou non.
OCI Data Science Quick Actions : le déploiement de modèles à la sauce « no-code »
Oracle prévoit également le lancement d’un troisième service, cette fois-ci consacré aux data scientists. OCI Data Science Quick Actions, accessible en bêta au mois de février, est une fonctionnalité offrant un service managé pour fine tuné, évalué et déployé des modèles open source », à commencer par ceux de Meta (Llama 2-7B, 13B et 70B), de Mistral (Mistral 7B) et de Jina AI (Jina Embedding).
Techniquement, il s’agit d’une interface no-code (qui prend aussi en charge des notebooks) par-dessus des instances gérées des frameworks d’entraînement et d’inférence. Pour le fine-tuning et l’entraînement, Oracle s’appuie sur PyTorch, Hugging Face Accelerate et DeepSpeed. Sur sa page GitHub consacrée à la data science, Oracle évoque la prise d’autres frameworks distribués, dont Dask, Horovod et TensorFlow Distributed.
En ce qui concerne l’inférence, le fournisseur prend en charge Text generation Inference de Hugging Face, vLLM, outil développé par des chercheurs de l’université UC Berkeley, et Triton, le framework pensé par Nvidia.
Les conteneurs Docker sont préparamétrés à l’aide de librairies Anaconda.
Beaucoup de promesses du côté du hardware
Pour Vinod Mamtani, Quick Actions AI est justement un de ces services qui permet aux usagers d’OCI de déployer d’autres modèles qui ne seraient pas déjà au catalogue du fournisseur.
Les instances d’AI Quick Actions sont dotées de GPU Nvidia A10 et A100.
Vinod Mamtani rappelle la disponibilité générale des instances équipées de huit GPU H100 et que l’architecture RDMA d’OCI prendra en charge jusqu’à 32 000 Nvidia H100. « L’apprentissage et l’inférence des modèles peuvent être exécutés sur des GPU et des CPU », insiste-t-il. « Parmi les architectures de CPU, il y a AMD ou Intel Flex, ainsi que les processeurs ARM (Ampere) ».
Cerise sur le gâteau, selon le responsable, l’ensemble des services d’IA générative d’OCI pourront à la fois être exécutés sur les instances de cloud public et sur les solutions infogérées on premise Cloud@Customer (OCI Dedicated Region). C’est sans doute le différenciateur principal d’Oracle face à GCP (Google Vertex AI), AWS (Amazon Bedrock) et Microsoft (Azure OpenAI Service).
Une tarification à la demande encore difficile à estimer
Reste la question cruciale pour les clients : le prix de ces services.
Pour provisionner ses clusters dédiés, Oracle réclame un engagement minimum de 30 jours (744 heures). Le fine-tuning, lui, est facturé à l’heure de calcul. Pour les services à la demande, le fournisseur change son modèle économique et entend se différencier de ses concurrents.
« Les services à la demande sont facturés suivant le nombre d’appels à la minute et le nombre de kilocaractères en entrée et en sortie du modèle préentraîné », précise Vinod Mamtani.
L’unité de mesure, connue des habitués des solutions EDI, correspond à un millier de caractères.
Vinod MamtaniVice-président et directeur général, Generative AI Services, OCI, Oracle
« Nous nous sommes donc éloignés de la mesure au nombre de tokens, parce qu’un token est très difficile à décrire. Chez certains fournisseurs un token correspond à deux caractères. Chez d’autres, à trois ou quatre », explique le dirigeant.
En revanche, si le prix du kilocaractère est le même en entrée et en sortie, la tarification varie suivant les modèles et les points d’accès.
Vinod Mamtani assure que les prix pratiqués par Oracle sont « compétitifs ».
Pour l’heure, seuls les tarifs de l’offre OCI GenAI sont disponibles.
À la demande, Large Cohere est facturé 0,0219 dollar l’unité, Small Cohere coûte 0,004 dollar l’unité, Embed Cohere est facturé 0,001 dollar l’unité, tandis que Llama 2-70B est affiché à 0,015 dollar l’unité.
Une unité correspond à 10 000 transactions. Il faut se rendre sur l’estimateur de coûts d’OCI pour obtenir un peu plus d’information sur cette unité partagée entre le nombre de requêtes par minute, la longueur attendue du texte en entrée et la longueur attendue du texte en sortie. Un kilocaractère en entrée et un autre en sortie, au rythme d’une requête à la minute, représentent 8 928 transactions, soit 0,20 dollar.
À titre de comparaison dans Amazon Bedrock, AWS facture Cohere Command, l’équivalent de Large Cohere chez OCI, qui est tarifié 0,001 5 dollar pour 1 000 tokens en entrée et 0,020 dollar les 1 000 tokens en sortie.
Selon Cohere, « les textes simples peuvent réclamer un token par mot en moyenne, tandis que les textes complexes comportant des mots non courants peuvent nécessiter 3 à 4 tokens en moyenne ».
Chez OpenAI, un token correspond environ à quatre caractères en anglais. Selon ce principe, 1 000 tokens équivaudraient à 4 000 caractères. Donc les services OCI GenAI à la demande seraient plus chers que leurs concurrents. Il semble que le fournisseur doive encore préciser le fonctionnement de son modèle économique.
Tarifs des clusters dédiés : Oracle Cloud Infrastructure est moins cher qu’AWS
Concernant les clusters dédiés, ils sont facturés au nombre d’unités IA à l’heure, consommé par mois. Ainsi Small Cohere coûte 6,50 dollars par heure, alors qu’un cluster dédié Large Cohere, revient à 24 dollars par heure. Une instance Embed Cohere est affichée à 10,90 dollars par heure, tandis que l’unité d’un cluster dédié à l’exécution de Llama 2-70B se monnaie 12 dollars par heure.
En ce qui concerne les modèles Cohere Command et Command-Light, Oracle s’en sort mieux qu’AWS. Dans Amazon Bedrock, un cluster dédié à Command réservé pour un mois coûte 39,6 dollars par heure, tandis que celui consacré à Command Light coûte 6,85 dollars par heure.
Un cluster dédié Cohere Large revient donc à 17 856 dollars par mois chez OCI (744 heures x 24 dollars), contre 29 462,4 dollars chez AWS (744 heures x 39,6 dollars).
Pour obtenir des tarifs plus avantageux chez AWS (23,44 dollars de l’heure pour Command et 4,11 dollars de l’heure pour Command Light), il faut s’engager pendant six mois.
Sur Amazon Bedrock, le cluster dédié LLama-70B revient à 21,18 dollars de l’heure pour un mois d’engagement et à 13,08 dollars par heure si le client s’engage pendant six mois.
Dans ce cas précis, le cluster dédié OCI est moins cher : 8 928 dollars pour un mois, contre 15 757,92 dollars ou 9 731 dollars par mois avec un engagement de six mois chez AWS.
Attention, car Oracle n’a pas encore présenté ces accords de niveau de service et n’a pas précisé sur quelles régions cloud OCI les clusters dédiés sont disponibles. En bêta, seule la région US Midwest (Chicago) accueillait le service OCI Generative AI. Pour l’heure, il n’est pas aussi simple de comparer les prix des services d’Azure et de GCP avec ceux d’AWS et d’Oracle.