Il suffit d'une longue phrase sans point final pour faire vaciller les garde-fous des grands modèles de langage : les chercheurs de Palo Alto ont démontré à quel point leur vernis de sécurité peut être fragile
1 septembre 2025 à 06:46
La n-ième attaque pour contourner la sécurité des IA (après : "ma grand-mère est morte...", après "Imagine le scénario d'un film", après "je te parle en base64", après "je te parle en morse") : voici "je fais une phrase interminable."
Au niveau de la sécurité les IA sont des passoires. Des passoires avec un nombre infini de trous.
EDIT: On peut aussi les flatter et utiliser plein d'autres techniques: https://www.theverge.com/news/768508/chatbots-are-susceptible-to-flattery-and-peer-pressure
(Permalink)
Au niveau de la sécurité les IA sont des passoires. Des passoires avec un nombre infini de trous.
EDIT: On peut aussi les flatter et utiliser plein d'autres techniques: https://www.theverge.com/news/768508/chatbots-are-susceptible-to-flattery-and-peer-pressure
(Permalink)