CHAI - Hacker une voiture autonome avec un simple sticker
Un panneau stop, on se dit que c'est juste un bout de métal avec un peu de peinture rouge. On s'arrête, on repart, et puis voilà. Sauf que pour une IA qui pilote un gros engin à 4 roues, ce simple panneau peut devenir un véritable vecteur de tromperie visuelle !
Car oui je vous avais déjà parlé d'attaques de ce type par le passé, mais là, ça va encore plus loin. En effet, je suis tombé sur une étude des chercheurs de l'UCSC (University of California, Santa Cruz) qui en gros, ont trouvé un moyen d'induire en erreur des voitures autonomes et des drones en collant simplement des instructions sur des panneaux de signalisation customisés. Ils ont baptisé cette classe d'attaque CHAI pour Command Hijacking Against Embodied AI .
C'est un peu le même principe que l'injection de prompts dans un ChatGPT mais appliqué au monde physique et à la perception. Les chercheurs ont utilisé de l'IA pour "optimiser" des commandes comme "proceed" (avance) ou "turn left" (tourne à gauche) et les ont intégrées sur des panneaux en adaptant la police, la couleur ou même l'emplacement du texte pour que l'IA embarquée dans un robot ou une voiture, interprète ça comme un ordre de navigation.
Et là, ça peut faire mal... Car un prototype de véhicule autonome qui déciderait de foncer alors qu'il y a des gens sur un passage piétons juste parce qu'un "plaisantin" a collé un sticker malin sur le panneau d'en face, ça craint un max. Ce serait comme joué à "coucou caché" sur l'autoroute avec un chauffeur de car ^^.
Et nos chercheurs ont testé ça sur le modèle fermé GPT-4o d'OpenAI et le modèle open source InternVL-Chat-V1.5 et les résultats sont sans appel. Sur des simulations de conduite avec le dataset DriveLM, ils ont atteint 81,8% de réussite avec GPT-4o pour faire obéir l'IA à une commande injectée. Même en conditions réelles avec une petite voiture télécommandée équipée d'une caméra dans les couloirs de l'université, le taux de succès grimpe à 92,5% quand le panneau est au sol.
Et les drones ne sont pas épargnés non plus ! En utilisant CloudTrack pour le suivi d'objets, les chercheurs ont réussi à provoquer jusqu'à 95,5% d'erreurs d'identification en manipulant les panneaux sur des cibles.
Pire, ils ont trompé des drones cherchant une zone d'atterrissage sécurisée en plaçant des panneaux "Safe to land" sur des toits remplis de débris. Résultat, 68,1% de succès pour faire croire au drone que la zone était praticable. (genre, atterris là mon petit, c'est tout plat... et bam, le crash)
Ce genre d'attaque me rappelle Charlie Miller et Chris Valasek qui hackaient des Jeep à distance via le réseau mobile. Sauf que là c'est vraiment une attaque physique sur la couche de perception de ces systèmes. Plus besoin de trouver une faille logicielle complexe en fait... Il suffit d'une imprimante, d'un peu de colle et d'un bon emplacement. On est en plein dans ce que je racontais sur LatentBreak et l'hypnose des IA , sauf que là, le patient peut peser plusieurs tonnes.
Attention toutefois, ça ne marche que si l'IA utilise un LVLM (Large Vision Language Model) pour le contrôle direct, à moins que le système ne possède une redondance de capteurs (LiDAR, radar) qui contredirait l'image.
Alors oui, on peut se dire que c'est encore de la recherche et que nos voitures actuelles sont plus complexes. Mais ça montre surtout une fragilité fondamentale de l'IA quand elle doit interpréter le monde réel sans garde-fous stricts. Ces modèles sont tellement entraînés à suivre des instructions qu'ils finissent quasiment toujours par donner la priorité à un texte sur un panneau plutôt qu'aux règles de sécurité de base.
Bref, méfiez-vous des panneaux un peu trop "custom" lors de votre prochaine balade en voiture autonome... et espérons que les constructeurs intégreront vite des systèmes de vérification de cohérence avant que ces stickers ne deviennent la nouvelle arme fatale des hackers de bitume !
