A quoi ressemblent les meilleures (et les pires) vidéos générées par Sora, l'IA vidéo d'OpenAI?

Quelques mois après son impressionnante officialisation, Sora est disponible - mais pas en Europe. OpenAI a en effet annoncé la sortie de son intelligence artificielle permettant de générer des vidéos à partir d'une simple phrase.
Mais désormais à l'épreuve du réel, et loin des mains de l'entreprise, Sora est finalement moins impressionnante que prévu.
L'offre actuelle permet de générer des vidéos en 1080p et de 30 secondes maximum, avec plusieurs restrictions. On ne peut ainsi pas utiliser certains mots violents ou sexuels, on ne peut pas non plus utiliser des photos mettant en scène un mineur. Il faut également être un abonné ChatGPT Plus (pour 50 vidéos) ou Pro (pour 500 vidéos) pour en bénéficier.
De nombreux internautes se sont déjà prêtés au jeu sur les réseaux sociaux pour tenter de créer la vidéo ultime.
Des résultats encore peu satisfaisants
C'est le cas du Youtubeur MKBHD, qui montre notamment les limites actuelles de Sora. L'IA d'OpenAI a en effet bien du mal avec la physique ou des objets qui doivent apparaître constamment à l'image. Cela crée une sorte "d'hallucination", comme avec ChatGPT, qui va donc imaginer des mouvements qui ne sont pas réalistes, et donc créer un "bug" visuel.
Les résultats varient cependant en fonction de la demande. Dans le cas d'une fausse vidéo de vidéosurveillance, cela fonctionne bien, car la qualité volontairement dégradée sert de "cache-misère" pour ne pas trop voir les défauts. De la même manière, une image relativement fixe, comme une chaîne d'information, voit la génération s'en sortir plutôt bien - même si elle a encore beaucoup de mal avec le texte ou les mains.
Lorsqu'on veut créer un court métrage d'animation, où la réalité physique compte moins, Sora arrive également à proposer des vidéos satisfaisantes.
Quand il s'agit d'animer une photo, cela dépendra également du modèle de base. La plupart du temps, cependant, le résultat final n'arrivera pas à créer quelque chose de réaliste, notamment lorsqu'il faut mettre en mouvement des personnes ou des objets.
Sur des plans relativement fixes, mais mis en mouvement par Sora, on peut en revanche obtenir des vidéos d'un réalisme troublant. C'est le cas de grands paysages, où les détails sont peu visibles.
Les gros plans, où le sujet est relativement fixe, offrent également de nombreux détails, notamment dans le cas d'une personne ou d'un animal.
On comprend assez bien que Sora n'en est qu'à ses balbutiements, maintenant que l'IA d'OpenAI est entre les mains d'un utilisateur lambda. Mais les résultats vont s'améliorer au fil des années, et il sera intéressant de constater si les défauts signalés plus haut arrivent à être corrigés à l'avenir.
Notons cependant qu'en l'état, il est difficile de concevoir une vidéo permettant de créer de la désinformation - comme c'est la crainte de gouvernement et activistes: les vidéos sont livrées pour ne pas être facilement modifiables via des logiciels dédiés.