phonlamaiphoto - stock.adobe.com

Gemini Pro débarque dans Google Vertex AI et AI Studio

Suite logique de l’annonce de la collection de modèles d’IA générative Gemini, Google a dévoilé leur intégration progressive dans les produits GCP, dont Vertex AI et AI Studio. Outre une actualisation de sa plateforme pour tenir le pavé face à AWS et Microsoft Azure, Google mise sur des appels API moins chers que ceux de ses concurrents.

Comme prévu, Gemini Pro, le LLM de taille moyenne de cette collection est accessible via API en préversion publique dans Vertex AI et AI Studio.

Les assistants Duet AI dans Chronicle, pour l’aide aux opérations de cybersécurité et Duet AI for Developers sont en disponibilité générale et intégreront ces LLM, dont Gemini Pro, l’année prochaine.

Il faudra attendre pour Gemini Pro en Europe

Google n’a pas détaillé le nombre de paramètres de Gemini Pro, mais il est officiellement doté d’une fenêtre de contexte de 32 000 tokens, comme GPT-4. Le géant du cloud prévoit déjà d’accroître ce paramètre important, sans poser une date sur le calendrier. Gemini Pro peut générer jusqu’à 8 192 tokens de contenus et prend en charge 38 langues dans 180 pays.

Pour l’heure, trois types de points de terminaison sont disponibles : le premier se limite à la production de texte, le deuxième, Gemini Pro Vision, permet de créer des images et le troisième interprète du texte, des images, des vidéos et des sons.

Simples à tester, ces API ne sont pas encore accessibles sur les data centers européens de GCP. Actuellement, les interfaces sont listées sur les régions cloud de Montréal, de l’Iowa, de la Virginie du Nord, de l’Oregon, de Las Vegas, de Séoul, de Singapour et de Tokyo.

À L’instar du lancement de PaLM 2, Google Cloud étoffe son outillage pour « exploiter au mieux » les capacités de ces LLM multimodaux et des 130 modèles présents dans le « jardin » de sa plateforme. Pour l’occasion, Google officialise son partenariat avec Mistral AI en accueillant Mistral 7B, mais aussi les modèles ImageBind et DITO.

Outre Gemini Pro, Google Cloud apporte de son côté Imagen 2, une version augmentée de son modèle de diffusion qui peut générer des images « de haute qualité », des logos et répondre à des questions posées sur des images. Les acteurs de l’industrie biomédicale ont le droit en accès restreint à MedLM, deux variantes de Med-PaLM 2 entraîné pour accomplir « des tâches médicales spécifiques ».

Vertex AI demeure une fabrique à algorithmes. En conséquence, Thomas Kurian, PDG de Google Cloud, promet de « multiples manières de personnaliser des agents construits avec Gemini ». 

Google Cloud met Vertex AI au niveau d’Amazon Bedrock

Pour cela, il y a d’abord la prise en charge de plusieurs techniques de fine-tuning, dont le réglage fin du jeu de données de préentraînements, d’une partie des poids d’un modèle, mais aussi de la distillation, de l’entraînement de modèles « adaptateurs » (à l’aide de la technique PEFT), de checkpoints Low-Rank Adaptation (LoRA). Enfin, GCP entend confier à ses clients des capacités d’apprentissage par renforcement avec feed-back humain (RLHF), après avoir récolté des retours d’information de la part d’utilisateurs, une capacité disponible en bêta. GCP recommande l’utilisation de 100 à 500 exemples et 100 à 1 000 étapes d’entraînement (époque) pour exécuter ce RLHF suivant la typologie de cas d’usage (classification, synthèse, question-réponse extractive, chat).

Lors de sa conférence de presse, Google Cloud a illustré cette fonction avec Gemini Pro. Le LLM a été exploité pour commenter une vidéo de présentation d’un bien filmé au nom d’une agence immobilière. Google a fine-tuné le modèle avec le lexique et le style d’écriture de l’agence pour décrire de manière adéquate le contenu de la vidéo.

Avant d’en arriver là, il sera sans doute conseillé d’utiliser la fonctionnalité Automatic Side by Side (Auto SxS). Comme AWS avec Amazon Bedrock, GCP entend fournir à ses clients un moyen de comparer automatiquement les performances de deux modèles et de sélectionner le plus pertinent.

GCP avait déjà annoncé des capacités de « retreival augmented generation » (RAG) à travers une base de données vectorielle, des capacités d’embeddings et de recherche via Vertex AI Search (ex Matching Engine). L’année prochaine, le fournisseur introduira une expérience no-code managée pour produire avec Gemini Pro des résumés de recherche et générer des réponses à partir d’une base documentaire. Thomas Kurian explique que le géant du cloud entend proposer un système de recherche mixte qui permettra d’interroger en langage naturel des données présentes dans différentes applications.

En ce sens, GCP poursuit le développement d’extensions, d’appel de fonction dans le code et d’orchestration en ajoutant des connecteurs tiers vers les sources de données et les bases de code. Vertex AI sera intégré à Android Studio, le service de notebooks managé Google Colab, la DbaaS Firebase et le SDK Flutter. D’autres kits de développement doivent permettre d’utiliser Gemini Pro dans des applications écrites en Python, Kotlin (Android), Node.js, Swift et JavaScript.

Selon les porte-parole de Google Cloud, Vertex AI est conçu selon une approche asymétrique : « tout ce que vous pouvez faire en écrivant du code, vous devez pouvoir le reproduire en no-code ». Et vice-versa. C’est le rôle d’AI Studio (ex-Generative AI Studio ?).

Cet environnement permet de tester et de créer des prompts, du texte, du code, d’analyser des fichiers vidéo (deux minutes maximum, 10 Mo au format MKV, MP4, MOV ou WEBM), puis d’insérer le tout dans une application via l’onglet « Get Code ». Comme avec le Playground d’OpenAI, les utilisateurs peuvent ajuster la température du modèle, le nombre de réponses, des paramètres de probabilités de sélection des tokens (Top K, Top P), et configurer les paramètres de sûreté. Les mêmes options sont configurables depuis l’API.

Le prix, l’argument préféré de Thomas Kurian

En attendant la disponibilité générale de Gemini Pro dans AI Studio, son utilisation n’est pas facturée tant que les développeurs ne dépassent pas la limite de 60 requêtes par minute.

Une fois officiellement commercialisé, le modèle sera facturé 0,00025 dollar pour 1 000 tokens en entrée et 0,000 5 dollar pour 1 000 tokens en sortie. Le traitement des images coûtera 0,0025 dollar par fichier. Google ne précise pas le prix du traitement vidéo. Pour rappel, un token équivaut à une séquence de trois à quatre caractères, comme une syllabe ou une ponctuation et ses espaces insécables.

Thomas Kurian a justement insisté sur la pertinence financière de l’offre de GCP.

« Nous proposons un tarif compétitif par rapport aux services disponibles sur le marché », insiste plusieurs fois le PDG de Google, lors d’une conférence de presse virtuelle.

Pour rappel, les variantes Text Bison et Chat Bison de PaLM 2 (fenêtre de contexte de 8 192 tokens) coûtent 0,0005 dollar pour 1 000 tokens par requête en entrée et 0,000 5 dollar en sortie. Text Unicorn, disponible depuis le 30 novembre, est facturé 0,0025 dollar pour 1 000 tokens en entrée et 0,0075 dollar tous les 1 000 tokens en sortie. Il existe aussi une option de requêtes en batch, un peu moins cher.

À titre de comparaison, avec GPT-4 Turbo et GPT-4 Turbo Vision, eux aussi en préversion, OpenAI a augmenté la fenêtre de contexte des LLM à 128 000 tokens tout en baissant ses prix. L’utilisation de ces deux modèles est proposée à 0,01 dollar pour 1 000 tokens en entrée et 0,03 dollar pour 1 000 tokens en sortie. Le tarif de traitement d’une image de 512 x 512 pixels (la résolution standard des images produites par les modèles de diffusion) est pratiquement identique (0,00255 dollar) à celui pratiqué par Google.

De son côté, AWS opère des distinctions tarifaires par région. En Europe, Titan Text Express est proposé à 0,0012 dollar pour 1 000 tokens en entrée et 0,0023 dollar pour 1 000 tokens en sortie, tandis qu’aux États-Unis, la requête aux API du LLM estampillé Amazon est facturée 0,0008 dollar pour 1 000 tokens en entrée et 0,0016 dollar pour 1 000 tokens en sortie.

Au vu de la taille de la fenêtre de contexte de Claude et Claude 2, Anthropic compte 8 dollars pour 1 million de tokens en entrée, et 24 dollars pour le même nombre d’unités lexicales en sortie.

Pas de dépendance forte à Nvidia

La tarification de Google est probablement moins élevée parce que le géant du cloud a utilisé ses propres accélérateurs pour entraîner ses modèles de fondation, par rapport à d’autres fournisseurs qui s’appuient sur des GPU du marché, selon Chirag Dekate, analyste chez Gartner Research.

« Si vous êtes un fournisseur de cloud qui exploite des GPU du marché, vous répercutez ces coûts sur les clients. Avec une stack que vous maîtrisez, vous pouvez instaurer de l’élasticité dans votre tarification ».
Chirag DekateAnalyste, Gartner

« Si vous êtes un fournisseur de cloud qui exploite des GPU du marché, vous répercutez ces coûts sur les clients », affirme Chirag Dekate auprès de SearchEnterprise AI, une publication sœur du MagIT. « Avec une stack que vous maîtrisez, vous pouvez instaurer de l’élasticité dans votre tarification ».

Pour rappel, Nvidia domine ce marché avec ses puces et ses logiciels. Or, ses pratiques tarifaires encouragent fournisseurs de cloud et éditeurs à chercher des alternatives. Google a introduit ses propres puces en 2016. À l’origine, elles ont été conçues pour son framework de machine learning TensorFlow.

Google a entraîné ses modèles Gemini sur une architecture multi data center à l’aide de ses accélérateurs, les TPUv4 et v5, rassemblés dans des « hyperpods ». Le géant du cloud a détaillé dans une étude les avantages des TPUv4 (disponibles depuis 2020) dans un article de recherche publié en 2023. « Pour des systèmes de taille similaire, il [le TPUv4] est environ 4,3 à 4,5 fois plus rapide que l’IPU Bow de Graphcore et est 1,2 à 1,7 fois plus rapide et consomme 1,3 à 1,9 fois moins de puissance que le Nvidia A100 [l’A100 s’accompagne d’un TDP de 400 Watts, N.D.L.R] », assurent les auteurs de l’article. « Les TPU v4 déployés dans les centres de données optimisés sur le plan énergétique de Google Cloud consomment 2 à 6 fois moins d’énergie et produisent en 20 fois moins de CO2 que les accélérateurs contemporains dans les centres de données sur site ».

Reste, pour les entreprises, à évaluer les coûts de fine-tuning des modèles. Ceux-là, comme chez AWS, sont facturés à l’heure et au nombre de nœuds sollicités.

Pour approfondir sur Intelligence Artificielle et Data Science