OpenAI est intervenu pour corriger le problème

ChatGPT a développé un comportement inhabituel obsession pour les gobelins, les gremlins, les ratons laveurs, les trolls et les orcscommençant à insérer ces références dans leurs réponses avec une fréquence inhabituelle, se référant à ces chiffres dans de nombreux cas en les citant hors de leur contexte. Le problème est devenu clair après le lancement de GPT-5.1en novembre dernier. Des utilisateurs avaient signalé que le modèle semblait étrangement excessif dans son ton, presque trop confidentiel. Cela a incité l’équipe à examiner des modèles linguistiques spécifiques dans les réponses. Un chercheur a demandé d’inclure les mots dans l’analyse « lutin » Et « gremlins »et selon une analyse interne décrite par OpenAI, les données ont révélé quelque chose de surprenant : l’utilisation du premier terme avait augmenté de 175% par rapport à la période précédant le lancement, alors que l’utilisation du second avait enregistré une augmentation de 52%. Essayons de comprendre parce que ChatGPT est devenu obsédé par les gobelins et les trolls et surtout, comment OpenAI a résolu le problème.

La fixation de ChatGPT sur les gobelins : les causes

La raison pour laquelle ChatGPT est devenu obsédé par les gobelins et autres personnages similaires remonte à une fonctionnalité de personnalisation de chatbot appelée « Ringard »l’une des options permettant aux utilisateurs de modifier le style et le ton des réponses. Le message système associé à cette personnalité invitait le modèle à reconnaître « l’étrangeté » du monde et aborder les problèmes avec légèretéen évitant le sérieux. Pendant la formation via apprentissage par renforcementou apprentissage par renforcement, technique dans laquelle le modèle est guidé par des signaux de « récompense » ou de « pénalité » basés sur la qualité perçue des réponses, certaines les signaux de récompense ont fini par favoriser les réponses avec des métaphores liées aux créatures fantastiques. Dans le 76,2% Parmi les ensembles de données analysés, les réponses contenant les termes « gobelin » ou « gremlin » ont reçu systématiquement de meilleures notes que les réponses équivalentes sans ces termes.

Le résultat ? La personnalité « Nerdy », qui ne représentait que le 2,5% du total des réponses de ChatGPT, était responsable de la 66,7% de toutes les mentions de « gobelin ». Cela a entraîné une augmentation de 3881,4% de l’utilisation de ce terme, comme le souligne le graphique suivant.

Mais le phénomène ne s’arrête pas là. Le apprentissage par renforcement cela ne garantit pas l’isolement comportemental : un modèle récompensé dans un contexte peut se propager à d’autres, en particulier lorsqu’il entre dans des ensembles de données de réglage fin. C’est exactement ce qui s’est passé : les gobelins se sont multipliés bien au-delà de la personnalité qui leur a donné naissance.

Comment OpenAI a résolu le problème

Pour résoudre le problème, OpenAI a retiré la personnalité « Nerdy » en mars et a éliminé le signal de récompense responsable du problème, tout en filtrant également les données d’entraînement contenant des références à des créatures. GPT-5.5Cependant, il avait déjà commencé son cycle de formation avant que la cause ne soit identifiée. Pour cela, dans l’environnement de programmation Manuscritétait inséré une instruction explicite ce qui empêche le modèle de mentionner des gobelins, des gremlins, des ratons laveurs, des trolls, des orcs, des pigeons ou d’autres créatures à moins qu’ils ne soient strictement pertinents par rapport à la demande.

Cette histoire illustre l’un des défis les plus subtils du développement de modèles de langage : même un seul signal de récompense mal calibré peut déclencher un cercle vicieux dans lequel un comportement est récompensé, se généralise, se transfère et s’amplifie. Le comprendre dans le temps, développer les outils pour l’identifier et le corriger à sa racine est, selon OpenAI lui-même, une compétence fondamentale pour quiconque travaille dans ce domaine.