Sora 2: OpenAI lance une application sociale pour créer des vidéos générées par IA, dont vous pouvez être le héros

En lançant Sora 2, OpenAI fait d'une pierre deux coups. A l'approche de son dixième anniversaire, la start-up de Sam Altman dévoile une nouvelle version majeure de son générateur de vidéos par intelligence artificielle lancé en février 2024.
L'expérience s'articule autour d'une application dédiée sur iOS, qui a tout d'un réseau social, à la différence près que l'ensemble du contenu est justement créé uniquement par l'IA. En outre, une option "caméo" permet de s'intégrer soi-même dans ces vidéos, qu'importe le style choisi à la base, réaliste, dessin animé, etc.
Un modèle qui gère mieux la physique
Car avec le modèle Sora 2, OpenAI affirme avoir grandement amélioré la physique des corps, des objets et des éléments. Il permet aussi de mieux gérer les prompts un peu farfelus, afin de proposer ensuite une vidéo plus réaliste. De même, OpenAI semble avoir corrigé un des travers des modèles plus anciens qui sont dits "trop optimistes". C'est-à-dire qu'ils vont avoir tendance à modifier des éléments, la trajectoire d'un objet, bref à déformer la réalité pour se plier au prompt. Par exemple, un ballon de basket qui se téléporte de quelques centimètres pour entrer dans un panier qui allait être raté. Sora 2 lui fera en sorte que le ballon rebondisse sur le panneau de basket, par exemple. Mais OpenAi insiste sur le fait qu'il est important de modéliser aussi bien le succès que l'échec d'une action pour produire un "simulateur de monde utile".
Autre chemin pour aboutir à un rendu plus réaliste, la capacité du modèle à suivre et gérer des instructions complexes réparties sur plusieurs plans, de façon à ce que l'action soit continue et cohérente. Elle a été renforcée, et si tout n'est évidemment pas encore parfait, les progrès sont évidents.
Par rapport au premier modèle, qui donnait lieu à des bizzareries, Sora 2 entend être "le meilleur générateur de vidéo au monde". C'est en tout cas en ces termes qu'est décrit ce modèle par Gabriel Petersson, chercheur au sein de la division Sora, d'OpenAI.
Sur X, il a partagé une courte vidéo où on peut le voir chevaucher un dragon, échapper à la police, plonger dans l'eau. Dans chaque plan, son visage est reconnaissable, de bout en bout. Le résultat est impressionnant, mais il pose cependant la question des données. Si vous "donnez" votre visage à OpenAI, que deviendra-t-il ? Sera-t-il ensuite utilisé pour l'entraînement des modèles, répliqué?
Par ailleurs, on sent que des améliorations restent largement possibles, notamment sur la gestion de la physique des petits objets ou certaines situations peu réalistes. Dans la vidéo de Gabriel Petersson, on voit tantôt un homme se prendre un mur et "disparaître" à l'intérieur, tantôt un objet qui ne bouge pas alors qu'une jambe l'a touché. Des petits détails qui permettent encore de voir que la vidéo est générée par l'IA, mais jusqu'à quand?
Notez que pour l'utiliser, Sora 2 nécessite un abonnement à ChatGPT Plus (22,99 euros par mois) ou ChatGPT Pro (à 200 dollars par mois) et qu'il faut un compte App Store américain ou canadien.