Vidéos générées par l’IA montrant Will Smith mange une assiette de spaghetti sont devenus, en l’espace de quelques années, bien plus qu’un mème viral : ils représentent aujourd’hui un test simple mais efficace pour mesurer à quel point la capacité de l’IA à simuler le comportement humain s’est améliorée. Cette expérience purement empirique, connue en ligne sous le nom « Will Smith mange des spaghettis »concentre en quelques secondes certains des enjeux les plus complexes de la génération vidéo : la cohérence du visage d’une image à l’autre, le naturel des mouvements, la relation entre les mains, les couverts et la nourriture, ou encore la synchronisation entre l’audio et les lèvres. En retraçant son évolution, on comprend pourquoi un clip qui en 2023 semblait être un exemple classique de slop d’IA a aujourd’hui atteint un niveau proche du cinéma, et ce que cela nous apprend sur l’état actuel des recherches sur l’intelligence artificielle générative, sans céder à un enthousiasme facile ou au contraire à des craintes injustifiées.
L’évolution du mème Will Smith mangeant des spaghettis : 2023 vs 2026
La première vidéo, parue dans mars 2023 sur Reddita montré un Will Smith méconnaissable, avec des traits du visage et des gestes mécaniques en constante évolution, loin de toute expérience réelle. Il avait été réalisé avec ModèlePortéeun outil de conversion texte en vidéo : signifie que l’utilisateur saisit une description écrite, appelée rapideet le modèle essaie de transformez-le en images animées. Le résultat était pour le moins inquiétant, précisément parce que le cerveau humain est extrêmement sensible aux anomalies des visages et aux actions quotidiennes comme manger. Ce n’est pas un hasard si le film s’est répandu rapidement, générant un mélange d’hilarité et d’anxiété chez ceux qui le regardaient, devenant la matière première de parodies et de discussions de toutes sortes.
A partir de ce moment, « Will Smith mange des spaghettis » il a commencé à fonctionner comme une sorte de référence non officielle, c’est-à-dire un test utilisé par la communauté pour comparer les progrès des différents modèles. Dans le 2024 les nouvelles itérations montraient déjà des progrès : les mouvements étaient plus fluides et la scène plus stable, mais des erreurs évidentes persistaient, comme des fourchettes déformées ou des spaghettis qui semblaient ignorer la force de gravité.
Le saut le plus intéressant arrive 2025quand des outils comme Google Veo 3 ils produisent des versions de test beaucoup plus convaincantes. Les visages sont plus cohérents, les postures crédibles et l’action globale plus naturelle. Des détails étranges subsistent, comme des bruits de mastication trop « craquants », mais nous sommes confrontés à de subtiles imperfections, non plus à des erreurs macroscopiques. C’est à ce stade que le deepfake cesse d’être une simple curiosité expérimentale et devient une technologie plus mature, du moins d’un point de vue visuel. Bien entendu, cette maturité visuelle n’implique pas une réelle compréhension de l’action par l’IA, mais une simulation de plus en plus raffinée dans la manière dont la réalité est représentée dans les vidéos de synthèse.
Dans les derniers développements, le test évolue encore grâce à des générateurs tels que Kling 3.0développé par la société chinoise Technologie Kuaishou. Ici, on ne voit plus seulement un homme mangeant devant la caméra, mais une scène réelle est représentée dans laquelle on voit deux personnages assis à table (l’un des deux est Will Smith évidemment), agrémentés de dialogues, de changements de caméra, etc. Les voix, également synthétiques, sont lip-sync, ce qui est techniquement complexe car il nécessite une génération cohérente de l’audio et de la vidéo. Mais jugez par vous-même des progrès réalisés de 2023 à aujourd’hui.
Arrêter les extraits de Will Smith mangeant des spaghettis ?
Curieusement, à mesure que la qualité des vidéos générées par l’IA augmente, le test des spaghettis commence à atteindre ses limites. Des entreprises comme OpenAI Et xAI (la société d’Elon Musk qui développe le controversé Grok) adoptant garde-corps de plus en plus strictes, avec des règles automatiques qui empêchent la génération d’images attribuables à des personnes réelles ou protégées par le droit d’auteur. Il est donc de plus en plus difficile de reproduire la même expérience avec des acteurs célèbres, notamment aux États-Unis, où l’industrie du divertissement est particulièrement attentive à la protection de sa propriété intellectuelle.