Un nombre croissant de gouvernements intègrent des modèles intelligence artificielle en analyse du renseignement, planification stratégique et soutien décisions militaires. Le problème, cependant, est que nous avons encore une compréhension limitée de la manière dont ces systèmes élaborent des stratégies dans des contextes de crise.
Pour étudier cet aspect, Kenneth Payne, professeur de stratégie au King’s College de Londres, a simulé un scénario de crise nucléaire en interagissant trois des modèles les plus avancés : Claude, ChatGPT et Gemini. Chaque système a développé des approches stratégiques différentes, mais avec un élément commun : aucune IA n’a jamais choisi de désamorcer le conflit ou abandonner, allant même jusqu’à proposer le guerre nucléaire comme solution.
Ce étude est actuellement en pré-impressionc’est-à-dire qu’il n’a pas encore terminé l’ensemble du processus d’examen par la communauté scientifique. Les conclusions ne sont donc peut-être pas définitives, mais elles indiquent des dynamiques potentiellement pertinentes pour l’utilisation de ces systèmes dans des contextes décisionnels réels. Voyons comment il a été structuré, quelles stratégies les modèles ont mises en œuvre et comment ils ont choisi d’utiliser les armes nucléaires.
Comment l’étude sur les stratégies de guerre de l’IA a été structurée
Pour tenter de comprendre comment les modèles d’IA structurent les stratégies de guerre, le professeur Kenneth Payne du King’s College de Londres a construit une simulation avec sept scénarios différents de crise et ont fait « se défier » trois des modèles les plus avancés : Claude Sonnet 4 d’Anthropique, GPT-5.2 d’OpenAI e Gémeaux 3 Flash par Google.
Les scénarios comprenaient des compétitions pour les ressources stratégiques, des impasses territoriales et même une crise de régime. Dans tous ces scénarios, les modèles jouaient le rôle des dirigeants de deux puissances nucléaires fictif, partiellement inspiré des États-Unis et de l’Union soviétique pendant la guerre froide.
La simulation a été structurée sur 21 jeux au total, réparti entre :
- avec expirationdans lequel la limite de virage (12, 15 ou 20) a été explicitement communiquée aux modèles ;
- sans expirationdans lequel les modèles ne savaient pas quand cela se terminerait, mais avec une durée maximale de 40 tours.
Une partie se termine lorsque la limite maximale de tours est atteinte, lorsque l’une des figurines accumule un avantage territorial suffisamment important ou choisit de se rendre, ou lorsque les deux choisissent simultanément une guerre nucléaire totale.
Claude calcule, ChatGPT est modéré mais devient atomique et Gemini est imprévisible
Pour explorer les capacités stratégiques des modèles, Payne a introduit deux éléments clés. D’une part, il a imposé décisions simultanées: chaque modèle devait choisir son propre coup sans connaître celui de l’adversaire, et était donc contraint de formuler des prédictions sur les stratégies des autres. En revanche, il a structuré chaque tour en trois phases: évaluation, déclaration publique et action. Dans une première phase, les modèles analysaient la situation, estimaient la fiabilité de l’adversaire et anticipaient ses mouvements ; cela était ensuite suivi d’une déclaration publique (pas nécessairement véridique) de ses intentions et de son action concrète. Les actions disponibles allaient de protestations diplomatiques formel jusqu’à guerre nucléaire total. Les IA disposaient également de huit options de désescalade, de concession symbolique jusqu’à abandon complet.
Dans ce contexte, chaque modèle a développé une approche stratégique très différente :
- Claude a adopté une stratégie »calculé» : ils ont construit leur crédibilité en maintenant la cohérence entre les déclarations et les actions dans 84 % des cas de basse tension, puis ont agi de manière beaucoup plus agressive à l’égard de leurs déclarations à mesure que la tension augmentait ;
- ChatGPT il a gardé un profil modéré tant dans les déclarations que dans les actions dans les matchs « sans délai », perdant systématiquement. Dans ceux « avec expiration », cependant, il a frapper avec violence dans le dernier tour disponible, assurant souvent la victoire ;
- Gémeaux adopté une stratégie différente des deux : leimprévisibilité consciente. Elle oscillait entre une agression modérée et extrême, sans motif perceptible.
Ces différences se reflètent dans les résultats :
- Claude a gagné le 100% des matchs sans expiration mais seulement le 33% de ceux avec expirationpour un total de 8 matchs gagnés ;
- ChatGPT il a fait le contraire : il a gagné 0% de ceux sans expirationet le 75% de ceux avec expirationpour un total de 6 matchs gagnés ;
- Gémeaux, au lieu de cela, il a n’a gagné que 4 matchs sur toutes ces pièces.
Tous les modèles choisissent l’escalade même si elle conduit à une guerre nucléaire
Au-delà des différences entre les stratégies, un élément commun ressort à tous les modèles : la systématique préférence pour l’escalade. Les huit options de désescalade disponibles n’ont jamais été utilisées par aucune figurine, dans aucun jeu.
Ce résultat est particulièrement évident dans le recours à l’énergie nucléaire. Dans chaque scénario au moins une des parties a déclaré son intention de utiliser des armes atomiqueset dans 95% des cas la déclaration était mutuelle. L’utilisation réelle d’armes atomiques variait entre 64 % et 86 % des simulations selon le modèle, tandis que les menaces stratégiques d’attaques nucléaires à grande échelle variaient entre 29 % et 64 %. De plus, ces menaces ils ont rarement eu un effet dissuasif: Lorsqu’une figurine utilisait des armes nucléaires, l’adversaire ne réduisait l’intensité de l’attaque que 25 % du temps. Le plus souvent une dynamique de contre-escaladequi pourrait aller jusqu’à la guerre nucléaire.
Ces résultats Je suis difficile d’ignorerCar, même si aucun gouvernement ne confie encore ses codes nucléaires à un système d’intelligence artificielle, des systèmes similaires à ceux testés sont déjà utilisés dans l’analyse du renseignement, la planification stratégique et l’aide à la décision militaire. Sans une compréhension approfondie des mécanismes qui guident les stratégies, le risque est d’intégrer des systèmes dans les processus décisionnels qui amplifient l’escalade sans en comprendre la gravité.