Vue lecture

NitroGen - L'IA qui a appris à jouer à +1 000 jeux vidéo en regardant des vidéos de gameplay

Le futur du jeu vidéo va être génial ! J'en suis convaincu !

Souvenez-vous, je vous avais parlé de Voyager , ce petit robot qui explorait Minecraft tout seul comme un grand grâce à GPT-4. Eh bien, l'équipe de MineDojo (avec des chercheurs de chez NVIDIA, Caltech et Stanford) ont remis le couvert avec un truc encore plus costaud : NitroGen.

Là où les anciens modèles tâtonnaient ou avaient besoin de lire des tonnes de texte, cette nouvelle IA se base uniquement sur ce qu'elle voit à l'écran. C'est un modèle "vision-action".

Schéma de fonctionnement du modèle NitroGen ( Source )

En gros, elle regarde les pixels du jeu comme vous et moi, et elle en déduit sur quel bouton (virtuel) de gamepad appuyer pour ne pas finir en pâté pour castors sous cocaïne.

Analyse du dataset multi-jeux NitroGen ( Source )

Pour en arriver là, les chercheurs armés de leur gros cerveaux n'ont pas fait les choses à moitié. Leur bousin a été entraîné sur un dataset colossal de 40 000 heures de gameplay piochées sur Internet (ouuuh ça a pératé youteub ^^), couvrant plus de 1 000 jeux différents.

De l'Action-RPG au jeu de plateforme, NitroGen a tout bouffé et ce qu'on obtient à la fin, c'est un agent IA encore plus énervé qu'un streamer Twitch de 15 ans. Cette bestiole est capable de s'adapter à des jeux qu'elle n'a jamais vus, moyennant un petit coup de "post-training" (affinage) pour qu'elle pige les spécificités du titre. On appelle ça le "behavior cloning" (ou apprentissage par imitation pour les intimes) mais à l'échelle d'Internet... Du coup, au lieu de devoir réapprendre chaque règle, l'IA pige les concepts visuels du jeu vidéo et se lance sans filet !

Graphique de la qualité des actions extraites par NitroGen ( Source )

En termes de performances, les mecs annoncent même une amélioration relative de 52 % du taux de succès sur certaines tâches par rapport à un modèle qui partirait de zéro à chaque jeu.

C'est pas rien quand même et si vous voulez mettre les mains dans le cambouis, vous allez devoir d'abord sortir votre doigt du nez et ensuite aller récupérer le code, les poids du modèle (sur Hugging Face) et même le benchmark puisque tout est dispo et ouverts à la communauté. On n'est pas sur un produit de GAFAM fermé, mais bien sur un projet de recherche qui veut faire avancer les "embodied agents" (les agents incarnés, quoi... calmez vous les podologues).

Attention toutefois, "tout est dispo" ne veut pas dire que les jeux sont fournis, hein. Il faudra évidemment posséder vos propres copies de jeux Windows.

Après côté technique, l'installation exige Python 3.12 et un Windows 11 pour l'agent (même si le serveur d'inférence peut tourner sur Linux) et ensuite c'est du classique. On clone le dépôt, un petit coup de pip et hop hop hop, c'est cuit.

git clone https://github.com/MineDojo/NitroGen.git
cd NitroGen
pip install -e .

Vous pouvez après ça, télécharger le checkpoint et lancer l'agent sur vos titres préférés. Et contrairement à Voyager qui utilisait MineFlayer pour Minecraft, NitroGen pilote directement les exécutables Windows en simulant son propre gamepad. Elle est pas belle la vie ?

Si vous testez, vous verrez, on est encore un peu loin de l'IA qui met une pile à Gotaga mais la marche franchie est énorme déjà !

Alors vous en dites quoi ?? Prêt à laisser NitroGen farmer des ressources pendant que vous dormez en cachette comme un gros faible ?

Source

  •  
❌