IA générative, ton univers impitoyable. Il faut désormais exister médiatiquement face aux deux acteurs majeurs de l’écosystème : OpenAI et Anthropic. Quelques semaines après les annonces d’Anthropic consacrées à Claude 3.5 Sonnet et à Computer Use – qui rapproche la GenAI de la RPA – et en même temps que le train de douze annonces chez OpenAI, Google présente le premier LLM de sa collection Gemini 2.0.

Tous les acteurs en place ne jurent dorénavant que par l’IA agentique. Google ne déroge pas à la règle. De fait, sa filiale cloud pariait en avril dernier sur la multiplication des agents d’IA. C’est donc sans surprise que Gemini 2.0 Flash doit répondre aux besoins particuliers de cette architecture. Pour rappel, l’IA agentique consiste à confier à un grand modèle de langage des flux de travail qu’il peut orchestrer en autonomie partielle ou totale.

D’abord, établissons le portrait de ce Gemini 2.0 Flash, pour l’instant accessible dans un mode expérimental à travers Google AI Studio, l’API Gemini et Vertex AI.

Gemini 2.0, une collection de modèles véritablement multimodaux

Selon Google, il s’agit d’un véritable modèle multimodal et non pas seulement d’un VLM (modèle de langage-vision). Celui-ci accueille en entrée du texte, du code, des images, des vidéos et des fichiers audio. En retour, il peut générer du texte, du code et du son. La création d’images est accessible en anticipé, après autorisation de Google.

Comme son aîné Gemini 1.5 Flash, il est doté d’une fenêtre de contexte de 1 million de tokens. Cela représente 10 000 lignes de code, 700 000 mots en anglais, une heure de vidéo ou 11 heures d’audio. En revanche, il ne génère en retour que l’équivalent de 8 000 tokens. Sa connaissance d’Internet (Knowledge cutoff) est arrêtée en août 2024.

Les premiers parangonnages de Gemini 2.0 Flash laissent apparaître un modèle légèrement moins performant que Claude 3.5 Sonnet et GPT-4o sur les tâches de compréhension et de raisonnement sur du texte (à partir des scores MMLU-Pro et DROP, qui sont toutefois au-dessus de Llama 3.3 70B et Llama 3.1 405B), mais meilleur sur les tests de raisonnement, de programmation, de mathématiques et ceux consacrés à la gestion de tâches multimodales.

Il surpasse Gemini 1.5 Flash et Pro 002, mais la variante Pro est encore la plus indiquée pour gérer une longue fenêtre de contexte et effectuer des tâches de transcript à partir de fichier audio.

La manière la plus simple de tester les capacités de Gemini 2.0 Flash et de ses aînés est d’utiliser Google AI Studio, un outil freemium de type « playground ». Le modèle semble particulièrement rapide et explique clairement et en détail ses réponses. Ses résultats semblent indiquer que son entraînement a été optimisé avec la technique Chain of Though : le LLM détaille plusieurs étapes après une requête et fournit les explications pour les tâches à effectuer.

Il s’agit ici d’une déduction : Google Deepmind n’a pas communiqué sur la manière d’entraîner cette collection. En parallèle, quelques membres de l’équipe de recherche ont étudié la tendance qu’ont les LLM à effectuer des raisonnements multisauts de manière latente – à consolider les données de plusieurs sources différentes sans qu’on leur demande explicitement de le faire – quand ils doivent répondre à certaines requêtes.

L’on apprend aussi que pour entraîner Gemini 2.0, Google Deepmind exploite les puces TPU Trillium, en disponibilité générale depuis hier sur Google Cloud. Sundar Pichai, PDG de Google, assure même que l’équipe n’utilise pas d’autres puces.