Vue normale
En Amérique latine, le non-alignement au service de la paix
« Ils sont mieux que les Français ! »
Le continent blanc, laboratoire pour la paix
- Martouf
- Human-level play in the game of Diplomacy by combining language models with strategic reasoning | Science
Human-level play in the game of Diplomacy by combining language models with strategic reasoning | Science
L'IA maîtrise la diplomatie
Le jeu de diplomatie constitue un défi majeur pour l'intelligence artificielle (IA). Contrairement à d'autres jeux compétitifs que l'IA a récemment maîtrisés, tels que les échecs, le go et le poker, le jeu de diplomatie ne peut pas être résolu uniquement par le jeu personnel ; il nécessite le développement d'un agent capable de comprendre les motivations et les perspectives des autres joueurs et d'utiliser le langage naturel pour négocier des plans partagés complexes.
L'équipe Diplomatie de Meta Fundamental AI Research (FAIR) et al. a mis au point un agent capable de jouer la forme complète du jeu en langage naturel et de réaliser des performances bien supérieures à la moyenne humaine dans une ligue de diplomatie en ligne. Le présent travail a des implications considérables pour le développement de l'IA coopérative et des modèles de langage pour la communication avec les personnes, même lorsque les interactions impliquent un mélange d'intérêts alignés et concurrents. -YS
Résumé
Malgré les progrès considérables réalisés dans l'entraînement des systèmes d'intelligence artificielle (IA) à imiter le langage humain, la construction d'agents qui utilisent le langage pour communiquer intentionnellement avec des humains dans des environnements interactifs reste un défi majeur.
Nous présentons Cicero, le premier agent d'intelligence artificielle à atteindre des performances de niveau humain dans Diplomacy, un jeu de stratégie impliquant à la fois la coopération et la compétition qui met l'accent sur la négociation en langage naturel et la coordination tactique entre sept joueurs.
Cicero intègre un modèle de langage avec des algorithmes de planification et d'apprentissage par renforcement en déduisant les croyances et les intentions des joueurs à partir de ses conversations et en générant des dialogues dans la poursuite de ses plans. Au cours de 40 parties d'une ligue anonyme de diplomatie en ligne, Cicero a obtenu plus du double du score moyen des joueurs humains et s'est classé dans les 10 % supérieurs des participants qui ont joué plus d'une partie.
Article complet:
https://noambrown.github.io/papers/22-Science-Diplomacy-TR.pdf
— Permalien