Vue normale

Waymo World Model - Quand l'IA invente ses propres routes

Par : Korben
10 février 2026 à 14:44

Entraîner une voiture autonome c'est un peu comme apprendre à nager... sauf que si vous vous plantez, c'est pas juste votre ego d’informaticien qui coule mais ce sont des choses graves qui peuvent arriver. Ça tombe bien puisque Waymo vient de dévoiler cette semaine un truc plutôt pas con pour aider à régler ce problème.

Ça s'appelle le World Model et c'est un modèle génératif capable de fabriquer des simulations ultra-réalistes de conduite. Comme ça, au lieu d'attendre qu'un éléphant traverse une route de Phoenix en Arizona pour savoir comment réagir (oui, c'est un de leurs exemples !), l'IA génère elle-même ces scénarios complètement dingues dans son propre monde virtuel.

Techniquement, ça tourne sur Genie 3 de DeepMind, mais en version adaptée pour le domaine automobile. Ça analyse des flux caméra ET lidar en haute fidélité, synchronisés entre eux mais on peut aussi décrire en langage naturel ce qu'on veut simuler.

Genre "il pleut, c'est la nuit, et y'a un camion en travers de la route" et hop, le modèle génère ça ! Bon, faut quand même que la description soit cohérente, hein, n'allez pas lui demander un sous-marin au milieu de l'autoroute A6 (quoique...).

Y'a aussi moyen de modifier la scène à la main (rajouter des piétons, changer le tracé) ou de contrôler directement les actions de conduite avec 3 modes de pilotage, du plus intuitif au plus technique. Le système est aussi capable de convertir de simples vidéos dashcam en simulations multi-capteurs complètes. C'est génial parce que vous prenez une vidéo filmée depuis le pare-brise d'une Dacia "tout équipée de rien", et le modèle la transforme en scénario de simulation avec données lidar et tout le toutim.

Le hic, c'est qu'on sait pas encore à quel point ça scale sur des vidéos de mauvaise qualité ou avec des conditions d'éclairage pourries. Et les méthodes classiques type 3D Gaussian Splatting pètent visuellement dès que le trajet simulé s'éloigne trop de la trajectoire originale.

Mais alors pourquoi c'est génial ? Et bien parce qu'il y a des trucs qu'on teste PAS en conditions réelles. Les tornades, les conducteurs bourrés qui déboulent à contresens, les incendies de forêt...etc.. Hé bien maintenant grâce à ce World Model, ça peut être simulé à la demande, et même rejouable en accéléré x4.

Et surtout, ce modèle permet de rejouer une scène en modifiant une seule variable, histoire de voir ce qui se serait passé autrement (les fameuses "simulations contrefactuelles"). Par contre, pour le rendu lidar 3D, faut un post-entraînement spécialisé en plus du modèle de base donc c'est pas juste un bouton magique.

Voilà c'est une super approche je trouve parce qu'on va pas envoyer des voitures dans des tornades juste pour collecter de la data. Même si ça reste quand même de la simulation... Donc faut garder un œil critique une fois que ces scénarios virtuels sont transposés à de la physique du monde réel.

Mais ceci étant dit, ces milliards de kilomètres simulés peuvent venir maintenant fortement renforcer les données terrain d'une manière que les tests physiques seuls ne pourront JAMAIS égaler.

Bref, si vous voulez creuser le sujet ou juste voir les démos (l'éléphant sur la route, ça vaut le détour ^^), c'est par ici.

CHAI - Hacker une voiture autonome avec un simple sticker

Par : Korben
10 février 2026 à 08:00

Un panneau stop, on se dit que c'est juste un bout de métal avec un peu de peinture rouge. On s'arrête, on repart, et puis voilà. Sauf que pour une IA qui pilote un gros engin à 4 roues, ce simple panneau peut devenir un véritable vecteur de tromperie visuelle !

Car oui je vous avais déjà parlé d'attaques de ce type par le passé, mais là, ça va encore plus loin. En effet, je suis tombé sur une étude des chercheurs de l'UCSC (University of California, Santa Cruz) qui en gros, ont trouvé un moyen d'induire en erreur des voitures autonomes et des drones en collant simplement des instructions sur des panneaux de signalisation customisés. Ils ont baptisé cette classe d'attaque CHAI pour Command Hijacking Against Embodied AI .

C'est un peu le même principe que l'injection de prompts dans un ChatGPT mais appliqué au monde physique et à la perception. Les chercheurs ont utilisé de l'IA pour "optimiser" des commandes comme "proceed" (avance) ou "turn left" (tourne à gauche) et les ont intégrées sur des panneaux en adaptant la police, la couleur ou même l'emplacement du texte pour que l'IA embarquée dans un robot ou une voiture, interprète ça comme un ordre de navigation.

Et là, ça peut faire mal... Car un prototype de véhicule autonome qui déciderait de foncer alors qu'il y a des gens sur un passage piétons juste parce qu'un "plaisantin" a collé un sticker malin sur le panneau d'en face, ça craint un max. Ce serait comme joué à "coucou caché" sur l'autoroute avec un chauffeur de car ^^.

Et nos chercheurs ont testé ça sur le modèle fermé GPT-4o d'OpenAI et le modèle open source InternVL-Chat-V1.5 et les résultats sont sans appel. Sur des simulations de conduite avec le dataset DriveLM, ils ont atteint 81,8% de réussite avec GPT-4o pour faire obéir l'IA à une commande injectée. Même en conditions réelles avec une petite voiture télécommandée équipée d'une caméra dans les couloirs de l'université, le taux de succès grimpe à 92,5% quand le panneau est au sol.

Et les drones ne sont pas épargnés non plus ! En utilisant CloudTrack pour le suivi d'objets, les chercheurs ont réussi à provoquer jusqu'à 95,5% d'erreurs d'identification en manipulant les panneaux sur des cibles.

Pire, ils ont trompé des drones cherchant une zone d'atterrissage sécurisée en plaçant des panneaux "Safe to land" sur des toits remplis de débris. Résultat, 68,1% de succès pour faire croire au drone que la zone était praticable. (genre, atterris là mon petit, c'est tout plat... et bam, le crash)

Ce genre d'attaque me rappelle Charlie Miller et Chris Valasek qui hackaient des Jeep à distance via le réseau mobile. Sauf que là c'est vraiment une attaque physique sur la couche de perception de ces systèmes. Plus besoin de trouver une faille logicielle complexe en fait... Il suffit d'une imprimante, d'un peu de colle et d'un bon emplacement. On est en plein dans ce que je racontais sur LatentBreak et l'hypnose des IA , sauf que là, le patient peut peser plusieurs tonnes.

Attention toutefois, ça ne marche que si l'IA utilise un LVLM (Large Vision Language Model) pour le contrôle direct, à moins que le système ne possède une redondance de capteurs (LiDAR, radar) qui contredirait l'image.

Alors oui, on peut se dire que c'est encore de la recherche et que nos voitures actuelles sont plus complexes. Mais ça montre surtout une fragilité fondamentale de l'IA quand elle doit interpréter le monde réel sans garde-fous stricts. Ces modèles sont tellement entraînés à suivre des instructions qu'ils finissent quasiment toujours par donner la priorité à un texte sur un panneau plutôt qu'aux règles de sécurité de base.

Bref, méfiez-vous des panneaux un peu trop "custom" lors de votre prochaine balade en voiture autonome... et espérons que les constructeurs intégreront vite des systèmes de vérification de cohérence avant que ces stickers ne deviennent la nouvelle arme fatale des hackers de bitume !

Source

❌