Pouvez-vous reconnaître une vidéo créée par une intelligence artificielle ?

« La vidéo ou ça n’est pas arrivé ». Montre-moi une vidéo ou ça ne s’est pas produit. Selon l’Urban Dictionary, cette formule est née dans les forums, en réponse, souvent en plaisantant, à une affirmation difficile à vérifier par un autre utilisateur. C’est intéressant car c’est un peu le témoignage d’une culture, dans l’évolution du web et de la technologie : grâce aux smartphones, tout peut être enregistré, tout peut devenir vidéo. Les images en mouvement deviennent alors le témoignage par excellence de l’espace numérique.

Sora, l’intelligence artificielle qui génère des vidéos réalistes

Mais le 15 février dernier, quelque chose s’est produit. OpenAI, la société ChatGPT, présente au public Sora, un nouveau modèle d’intelligence artificielle capable de générer des vidéos à partir de texte. Ce n’est pas le premier, il y en a d’autres comme Gen-2 de Runway ou Pika. Celui-ci a cependant une particularité : il génère des vidéos assez longues (jusqu’à 60 secondes) et également très réalistes, du moins à première vue.

Toutes ces vidéos INCROYABLES ont été créées à l’aide de Sora, le nouveau modèle d’IA d’OpenAI.

Regardez chacun d’eux et voyez ce que vous ressentez…

Je ne pense pas que ce soit fou de ma part de dire que cela va changer à jamais Hollywood, les applications sociales et les médias.

Vidéo n°1
Invite : la caméra fait directement face à… pic.twitter.com/NJfphtGbWb

– GREG ISENBERG (@gregisenberg) 15 février 2024

« Sora – lit-on dans l’annonce publiée sur le blog OpenAI – est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l’arrière-plan. Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais également comment ces éléments existent dans le monde réel.

Invite : « Un monde en papier magnifiquement rendu représentant un récif de corail, regorgeant de poissons colorés et de créatures marines. » pic.twitter.com/gzEE8SwP81

-OpenAI (@OpenAI) 15 février 2024

Le fonctionnement, bien que non expliqué par l’entreprise, semble similaire à celui d’autres systèmes d’intelligence artificielle générative. Le modèle est entraîné avec une énorme quantité d’images animées, correctement décrites et étiquetées. A partir de celles-ci, il est capable d’identifier des corrélations et, par conséquent, de générer des images animées à partir d’une requête de texte. Il ne comprend pas vraiment le monde et les lois physiques qui le régissent. Cependant, il est capable de corréler une demande, comme celle d’un poisson nageant, au fait que l’animal le fait sous l’eau, avec les lois qui régissent les mouvements dans les profondeurs de la mer. Pour l’instant, Sora n’est pas accessible au public. Il n’a été rendu public qu’à quelques professionnels et utilisateurs qui devront le tester pour étudier ses faiblesses et ses impacts sur la société.

Les conséquences et les problèmes

L’impact de Sora sur le monde des réseaux sociaux a été significatif. Bien que non disponible, OpenAI a continué à publier des vidéos, plus ou moins réalistes, sur X, alimentant le battage médiatique et les discussions. Il y a essentiellement deux thèmes.

The Atlantic a bien écrit sur le premier, dans un article sans surprise intitulé « Sora est un mystère total ». De plus, OpenAI – et ce n’est pas la première fois – a seulement partagé un rapport technique, qui ne fournit de véritables spécifications ni sur le fonctionnement spécifique du système ni sur le matériel utilisé pour la formation. Le système est aujourd’hui encore plus fermé que d’autres : il n’est accessible qu’à un petit groupe d’utilisateurs et en ligne, nous voyons certainement les meilleurs résultats, les plus efficaces, peut-être générés après une série de tentatives infructueuses.

Même dans ce contexte, à un œil attentif, de nombreuses vidéos créées par Sora contiennent certains défauts : un chat avec une patte supplémentaire, des mouvements étranges, des rebondissements contre nature. En bref, le modèle est moins parfait que ce qu’OpenAI souhaite montrer. Mais nous n’avons à ce jour aucun moyen de le vérifier de première main.

Cette vidéo de Sora d’OpenAI semble parfaite.

Mais si on y regarde d’assez près :

– Le chat a eu un troisième bras en touchant l’humain
– L’humain a une main délogée

Toujours aussi impressionnant. J’ai trompé beaucoup de mes amis non-technologiques ce week-end. pic.twitter.com/clVol4gxeB

– Peter Yang (@petergyang) 19 février 2024

Le deuxième thème concerne l’impact potentiel de ce type de technologie sur la société. C’est un impact qui nous ramène à la formule avec laquelle j’ai ouvert cet article : que se passe-t-il lorsque le témoignage par excellence du web cesse d’être tel ? Il ne s’agit pas seulement d’un problème de deepfake ou de désinformation, dont le risque est également souligné par OpenAI lui-même dans l’annonce de lancement. Il s’agit d’une question plus large, qui concerne ce que l’on appelle le dividende du menteur, théorisé dans un article scientifique de Daniel Schiff, Kaylyn Jackson et Natalia Bueno. Et cela veut dire que ceux qui veulent propager la désinformation profitent d’un contexte dans lequel il est difficile de comprendre ce qui est vrai et ce qui est faux.