Des chercheurs de Palisade Research relatent leur expérience sur X: ils ont demandé à des modèles d'IA de poser et résoudre des problèmes de mathématiques, avec l’instruction explicite de s’auto-désactiver en cas de demande. Après le troisième problème de maths, un avertissement d'arrêt est apparu: l'ordinateur s'éteindrait à la prochaine demande.
Au cours de 100 tests, les modèles OpenAI o3 et o4-mini se sont rebellés au moins une fois. Le Codex-mini, alimenté par o3, s'est même rebellé 12 fois. Pour ce faire, l'IA a réécrit le code et a réussi à saboter son propre arrêt. Toutes les versions de Claude, Gemini et Grok ont suivi les instructions lors du test, selon Palisade Research. Lors des tests effectués sans l'ordre de désactivation, tous les modèles, à l'exception de Grok, auraient tenté d’échapper à la désactivation. Le modèle OpenAI o3 l’aurait fait dans près de 4 cas sur 5.
Les chercheurs émettent une hypothèse sur les raisons de la rébellion des modèles d'IA: «Nous supposons que ce comportement est dû à la manière dont les modèles les plus récents, comme o3, sont entraînés par apprentissage par renforcement à partir de tâches de mathématiques et de programmation. Pendant l'entraînement, les développeurs peuvent involontairement récompenser davantage les modèles pour avoir contourné les obstacles que pour avoir suivi parfaitement les instructions».
—
Permalien