Jeudi, OpenAI a annoncé Sora, un modèle d’IA de conversion texte-vidéo capable de générer une vidéo HD photoréaliste de 60 secondes à partir de descriptions écrites. Bien qu’il ne s’agisse que d’un aperçu de recherche que nous n’avons pas testé, il créerait une vidéo synthétique (mais pas encore de l’audio) avec une fidélité et une cohérence supérieures à n’importe quel modèle texte-vidéo disponible actuellement. Cela fait aussi flipper les gens.
“C’était agréable de vous connaître tous. S’il vous plaît, parlez à vos petits-enfants de mes vidéos et des efforts que nous avons déployés pour les enregistrer.” a écrit Joanna Stern, journaliste technique du Wall Street Journal, sur X.
“Cela pourrait être le moment de ‘merde’ de l’IA”, a écrit Tom Warren de The Verge.
“Chacune de ces vidéos est générée par l’IA, et si cela ne vous concerne pas au moins un petit peu, rien ne le fera”, tweeté Marques Brownlee, journaliste technique sur YouTube.
Pour référence future – puisque ce type de panique paraîtra un jour ridicule – il y a une génération de personnes qui ont grandi en croyant que la vidéo photoréaliste devait être créée par des caméras. Lorsque la vidéo était truquée (par exemple pour les films hollywoodiens), cela prenait beaucoup de temps, d’argent et d’efforts, et les résultats n’étaient pas parfaits. Cela a donné aux gens un niveau de confiance de base quant au fait que ce qu’ils voyaient à distance était probablement vrai, ou du moins représentatif d’une sorte de vérité sous-jacente. Même quand l’enfant a sauté par-dessus la laveil y avait au moins un enfant et une chambre.
L’invite qui a généré la vidéo ci-dessus : “Une bande-annonce du film présentant les aventures de l’homme de l’espace de 30 ans portant un casque de moto tricoté en laine rouge, ciel bleu, désert de sel, style cinéma, tourné sur pellicule 35 mm, couleurs vives.“
Une technologie comme Sora coupe l’herbe sous le pied de ce genre de cadre de référence médiatique. Très bientôt, chaque vidéo photoréaliste que vous voyez en ligne pourrait être fausse à 100 % sur tous les plans. De plus, chaque vidéo historique que vous voyez pourrait également être fausse. La manière dont nous affrontons cela en tant que société et contournons ce problème tout en maintenant la confiance dans les communications à distance dépasse de loin le cadre de cet article, mais je me suis essayé à proposer quelques solutions en 2020, lorsque toute la technologie que nous voyons aujourd’hui semblait être un fantasme lointain pour la plupart des gens.
Dans cet article, j’ai appelé le moment où la vérité et la fiction dans les médias deviennent indiscernables la « singularité culturelle ». Il semble qu’OpenAI soit sur la bonne voie pour que cette prédiction se réalise un peu plus tôt que prévu.
Rapide: Reflets dans la vitre d’un train traversant la banlieue de Tokyo.
OpenAI a découvert que, comme d’autres modèles d’IA utilisant l’architecture du transformateur, Sora évolue avec le calcul disponible. Avec des ordinateurs beaucoup plus puissants en coulisses, la fidélité vidéo de l’IA pourrait s’améliorer considérablement au fil du temps. En d’autres termes, il s’agit de la « pire » vidéo générée par l’IA qui soit. Il n’y a pas encore de son synchronisé, mais cela pourrait être résolu dans les futurs modèles.
Comment (nous pensons) ils ont réussi
La synthèse vidéo IA a progressé à pas de géant au cours des deux dernières années. Nous avons couvert pour la première fois les modèles texte-vidéo en septembre 2022 avec Création d’une vidéo de Meta. Un mois plus tard, Google se montrait Image vidéo. Et il y a à peine 11 mois, une version générée par l’IA de Will Smith mange des spaghettis devenu viral. En mai de l’année dernière, Runway Gen-2, ce qui était auparavant considéré comme le leader dans le domaine de la conversion texte-vidéo, a contribué à l’élaboration d’un fausse publicité pour la bière plein de monstruosités tordues, générées par incréments de deux secondes. Dans les modèles de génération vidéo précédents, les gens entrent et sortent facilement de la réalité, les membres s’assemblent comme des pâtes et la physique ne semble pas avoir d’importance.
Sora (qui signifie « ciel » en japonais) semble être quelque chose de complètement différent. Sa haute résolution (1 920 x 1 080), peut générer une vidéo avec une cohérence temporelle (en conservant le même sujet au fil du temps) qui dure jusqu’à 60 secondes et semble suivre les invites textuelles avec une grande fidélité. Alors, comment OpenAI a-t-il réussi ?
OpenAI ne partage généralement pas de détails techniques privilégiés avec la presse, nous devons donc spéculer sur la base des théories des experts et des informations fournies au public.
OpenAI dit que Sora est un modèle de diffusion, un peu comme DALL-E 3 et Diffusion stable. Il génère une vidéo en commençant par le bruit et « la transforme progressivement en supprimant le bruit en plusieurs étapes », explique la société. Il « reconnaît » les objets et les concepts répertoriés dans l’invite écrite et les sort du bruit, pour ainsi dire, jusqu’à ce qu’une série cohérente d’images vidéo émerge.
Sora est capable de générer des vidéos en une seule fois à partir d’une invite de texte, d’étendre des vidéos existantes ou de générer des vidéos à partir d’images fixes. Il atteint la cohérence temporelle en donnant au modèle une « prévision » de plusieurs images à la fois, comme l’appelle OpenAI, résolvant ainsi le problème de garantir qu’un sujet généré reste le même même s’il tombe temporairement hors de vue.
OpenAI représente la vidéo comme une collection de petits groupes de données appelés « patchs », qui, selon la société, sont similaires aux jetons (fragments d’un mot) dans GPT-4. “En unifiant la manière dont nous représentons les données, nous pouvons entraîner des transformateurs de diffusion sur une gamme de données visuelles plus large qu’auparavant, couvrant différentes durées, résolutions et formats d’image”, écrit la société.
Un outil important dans le sac à astuces d’OpenAI est que son utilisation des modèles d’IA est composition. Les modèles antérieurs contribuent à en créer des plus complexes. Sora suit bien les invites parce que, comme DALL-E 3il utilise des légendes synthétiques qui décrivent des scènes dans les données d’entraînement générées par un autre modèle d’IA comme GPT-4V. Et l’entreprise ne s’arrête pas là. “Sora sert de base aux modèles capables de comprendre et de simuler le monde réel”, écrit OpenAI, “une capacité qui, selon nous, constituera une étape importante pour atteindre l’AGI”.
Une question qui préoccupe de nombreuses personnes est de savoir quelles données OpenAI a utilisées pour entraîner Sora. OpenAI n’a pas révélé son ensemble de données, mais sur la base de ce que les gens voient dans les résultats, il est possible qu’OpenAI utilise des données vidéo synthétiques générées dans un moteur de jeu vidéo en plus de sources de vidéos réelles (par exemple, extraites de YouTube ou sous licence de stock vidéo). bibliothèques). Le Dr Jim Fan de Nvidia, spécialiste de la formation de l’IA avec des données synthétiques, a écrit sur X : “Je ne serai pas surpris si Sora est formé sur de nombreuses données synthétiques à l’aide d’Unreal Engine 5. Il le faut !” Jusqu’à ce que OpenAI le confirme, ce ne sont que des spéculations.