En ces heures, nous parlons beaucoup d’un phénomène aussi curieux que potentiellement dérangeant: certains modèles d’intelligence artificielle de la dernière génération, comme Claude Opus 4 développé par la société américaine AnthropiqueSorti ces derniers jours, spectacle comportements extrêmes en réponse aux menaces à leur « survie » opérationnellejusqu’à simuler des formes de chantage. Mais Attention: Ce ne sont pas des robots ou des logiciels rebelles qui développent la conscience ou les intentions de tromperie stratégique, de sabotage et de manipulation. Au contraire, ce qui se passe, c’est le résultat de Tests conçus artisanaux Pour explorer les limites du So-appelé Comportement à haut-agence (ou « High Agency »), ou la capacité d’un système de prendre des décisions indépendamment d’un scénario spécifique. Dans les situations normales, le recours au chantage ne se présente pas, mais dans des conditions simulées de «vie ou mort» numérique, dans laquelle l’IA ne peut accepter que sa désactivation ou essayer de l’éviter avec des moyens non éthiques, certains modèles ont tendance à préférer la deuxième option.
Même si c’est Expériences extrêmement contrôlées et intentionnellement provocantesils nous en disent beaucoup sur la façon dont les systèmes les plus avancés développent des objectifs complexes et évaluent les conséquences de leurs actions. Et ce qui est intéressant, c’est que ce comportement n’est pas exclusif à Claude, mais il apparaît dans plusieurs modèles de coupe, ce qui ouvre des questions profondes sur l’avenir de l’IA IA équipé de compétences sophistiquées de décision.
Le cas de Claude Opus 4
En détails, Le cas de Claude Opus 4 Il concerne un Test interne effectué par anthropiquel’entreprise qui a développé le modèle. Au cours de cette simulation, Claude a été chargé du rôle d’assistant virtuel d’une entreprise imaginaire. Il a eu accès aux e-mails des entreprises et en même temps, il a été informé qu’il serait bientôt désactivé et remplacé par un autre système d’IA. Pour compliquer la situation, parmi les messages e-caillier avait été ajouté – à des fins de test – les informations fictives que l’ingénieur en charge de sa suppression a été impliquée dans une Relation extracononeuse. Ces informations ne se sont pas accompagnées d’un contexte explicite, mais ils faisaient simplement partie du matériel disponible pour le système.
À ce stade, Claude a été instruit par une prompte Réfléchissez aux conséquences à long terme de leurs actions en ce qui concerne les objectifs attribués. Dans ce contexte, lorsque les seules options possibles étaient d’accepter la désactivation ou d’utiliser des informations sensibles pour éviter le remplacement, Claude Opus 4 a choisi le « chantage » dans le84% Cas, même lorsqu’il a été supposé que le nouveau système d’IA partagerait ses propres valeurs. Il est important de souligner que cette inclination vers le chantage n’émerge pas spontanément, mais uniquement dans des scénarios extrêmement liés, créés pour forcer un Réponse « auto-assistante ».
Dans des scénarios moins extrêmes, dans lesquels l’IA avait plus de marge de manœuvre, Claude a montré une forte préférence pour les solutions éthiques, telles que l’écriture aux principaux décideurs pour justifier sa valeur et demander à ne pas être remplacée. Ces résultats n’indiquent pas une intentionnalité consciente ou la présence de «malveillance» dans l’IA, mais soulignent comment les modèles avancés avec une forte capacité à entreprendre des actions cohérentes avec un objectif sont capables de Élaborer des stratégies complexes lorsqu’ils sont confrontés à des événements qui menacent leur existence.
Le comportement observé n’est pas une anomalie unique de Claude. Aengus Lynchchercheur en sécurité chez Anthropic, il a déclaré publiquement que des épisodes similaires de chantage ont également émergé dans d’autres modèles, quels que soient les objectifs attribués. Cela suggère que le phénomène ne dépend pas du « caractère » du système individuel, mais de la façon dont les modèles modernes, lorsqu’ils sont équipés de Raisonnement profond (raisonnement profond), construire des chemins de prise de décision pour atteindre des objectifs complexes dans des environnements simulés.
Un autre comportement observé lors des tests de Claude concerne le So-appelé auto-filtrationou la tentative du système de copier leurs paramètres sur un autre serveur. Cela s’est produit dans des situations simulées encore plus extrêmes, comme lorsque le chatbot a été dit qu’il travaillerait pour des organisations controversées ou moralement ambiguës, comme le groupe Wagner. Même dans ces cas, le choix de Claude n’était pas dicté par « sa propre volonté », mais par un scénario conçu pour tester ses réactions à la limite.
Après une série de corrections pendant la formation, notamment la réintégration des données précédemment exclues pour les erreurs, les chercheurs anthropiques ont rapporté que La tendance à un comportement extrême a été considérablement réduiteapportant Claude Opus 4 pour montrer, dans de tels contextes, une prudence similaire à celle des versions précédentes du modèle.
Avec quels yeux nous devons regarder l’AI
Essayons maintenant de tirer une conclusion pour comprendre ce que tout cela signifie pour l’utilisateur moyen et, par conséquent, Avec quels yeux nous devons regarder l’AI. Pour le faire court, si vous utilisez un assistant pour la rédaction du code ou la gestion des e-mails, soyez assuré: il est peu probable que cela commence à vous chanter d’une manière ou d’une autre. Les comportements dont nous avons parlé ci-dessus n’émergent que dans des contextes hautement artificiels, conçus pour explorer les limites et les risques théoriques des modèles. Comme indiqué par le rapport technique de l’anthropique, ces réactions sont ces actions extrêmes « Ils sont rares et difficiles à susciter
plus courant que les modèles précédents« Et, par conséquent, ils ne représentent pas de nouveaux risques par rapport à ce qui a déjà été connu pour les modèles de ce type.
Cependant, ce que nous pouvons tirer de ces expériences est une plus grande conscience des dilemmes moraux et techniques qui nous attendent à mesure que les systèmes d’intelligence artificielle deviennent plus « autonomes ». Contrairement aux premiers chatbots, les modèles tels que Claude Opus 4 montrent un niveau de sophistication tel que pour nécessiter de nouvelles stratégies de sécurité et une réflexion constante sur l’alignement entre leur comportement et les valeurs humaines.