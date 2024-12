La collection de modèles Sora propose des générateurs de vidéos qui ont impressionné les internautes pour la qualité des visuels produits. Il faut dire que cette technologie n’a rien de trivial.

En ce sens, Sora et Sora Turbo sont capables de « prédire plusieurs images à la fois » et de faire en sorte que le sujet (un homme, un animal, une voiture, etc.) ne change pas du tout au tout d’une image à l’autre. Ici, OpenAI a entraîné les modèles avec des vidéos compressées puis divisées que les chercheurs décomposent en « patchs spatio-temporels ». Ceux-là encodent le mouvement et le visuel sur « de courts intervalles ». Dans son rapport technique, OpenAI illustre son propos avec une petite série d’images d’un poisson tropical qui se cache dans des algues.

Ainsi, Sora et Sora Turbo génèrent « une vidéo de base bruitée, et la transforment en retirant le bruit étape par étape », résume OpenAI.

Contrairement à GPT-4o , Sora n’est pas à proprement parler un grand modèle de langage (Large Language Model ou LLM), mais un modèle de diffusion latente et plus particulièrement un « diffusion transformer ».

Un outil de montage pour tenter de contrôler les résultats

Quand Sora peut créer des vidéos d’une longueur d’une minute à la résolution de 720p, Sora Turbo se limite 20 secondes, mais en « full HD », c’est-à-dire en 1920x1080 pixels (la résolution de la formule standard de Netflix). Comme son nom l’indique, Sora Turbo génère plus rapidement du contenu que la préversion lancée en février, dixit OpenAI.

Outre Sora Turbo, l’entreprise a développé une interface Web afin de faciliter la génération de vidéos en faisant varier le format, la résolution et le nombre d’itérations. Des outils de montage permettent d’éditer les vidéos ou de les réutiliser pour générer d’autres contenus.

Pour l’heure, Sora et Sora Turbo sont parmi les modèles les plus performants de leur catégorie. Il faudra comparer les résultats avec les modèles Nova d’Amazon, présentés la semaine dernière lors de l’événement re:Invent 2024. Toutefois, OpenAI prévient que ses « diffusion transformers » ne sont pas encore parfaits, loin de là. « La version de Sora que nous déployons présente de nombreuses limitations. Elle génère souvent des effets physiques irréalistes et a du mal à gérer des actions complexes sur de longues durées », préviennent les chercheurs.

En clair, il semble peu probable qu’une équipe marketing ou des spécialistes de la production vidéo l’exploitent de but en blanc. Elle paraît en revanche pertinente pour réaliser des maquettes ou des mockups publicitaires.

Aussi, OpenAI doit relever plusieurs défis : elle tente de bloquer au mieux les contenus nocifs, elle appose un filigrane pour empêcher les « deep fakes » (ou les problèmes de droits), et la technologie est encore chère.

Les deux modèles sont accessibles par les utilisateurs de ChatGPT Pro et Plus à travers un site distinct : sora.com. Avec Sora, les usagers de ChatGPT Plus peuvent générer jusqu’à 50 vidéos d’une résolution de 480p ou « un peu moins de vidéos » en 720p. Avec ChatGPT Pro, il est possible de créer 500 vidéos. En revanche, ces modèles ne sont pas disponibles en France et dans le reste de l’Union européenne.