Vue normale

Reçu — 27 novembre 2025

Il installe iOS 6 sur un iPod touch 3

Par :Korben
27 novembre 2025 à 06:42

Vous vous souvenez des vieux iPod touch ? Je dois encore en avoir un qui traine au fond d’un tiroir et malheureusement, l’iPod touch de 3ème génération, sorti en 2009, n’a jamais officiellement reçu iOS 6 puisqu’Apple a décidé de le laisser sur le bord de la route avec iOS 5.1.1. Snif c’est pas gentil ! Mais c’était sans compter sur NyanSatan , un dev qui vient de prouver que c’était parfaitement possible faire tourner iOS 6 dessus.

Le projet s’appelle SundanceInH2A et l’idée bien que tordue est géniale, vous allez voir. En effet, l’iPod touch 3 partage quasiment le même hardware que l’iPhone 3GS qui, lui, a eu droit à iOS 6 officiellement. C’est la même famille de puces (S5L89xx), une architecture proche et donc on peut se demander pourquoi Apple n’a pas voulu le support si c’était aussi similaire. Probablement une histoire de segmentation marketing, mais bon, bref, passons…

La manip c’est donc de prendre le firmware iOS 6 de l’iPhone 3GS et de le transplanter sur l’iPod touch 3. Mais ça implique de modifier pas mal de trucs : le DeviceTree (la carte d’identité matérielle du device), le kernelcache (le noyau + toutes ses extensions), le bootloader iBoot, et même des morceaux du système comme le dyld shared cache.

Le plus technique dans l’histoire, c’est la reconstruction du kernelcache car l’iPod touch 3 avait des builds internes d’iOS 6 avec un noyau compatible, mais les kexts (extensions kernel) n’étaient pas tous présents. Du coup, NyanSatan a dû utiliser un outil Apple non public appelé kcgen pour reconstruire tout ça proprement. Et pour installer ce firmware modifié sans que l’appareil refuse de démarrer, il a exploité une faille HFS+ dans le bootloader d’iOS 5, permettant un jailbreak untethered.

Cette restauration prend alors environ 5 minutes et vous vous retrouvez sur l’écran de configuration d’iOS 6. Bon après, faut pas s’attendre à des miracles niveau utilisation quotidienne car iOS 6 date quand même de 2012 ce qui fait que la plupart des services en ligne (y compris ceux d’Apple) ne fonctionnent plus. Mais pour les collectionneurs et les curieux de l’archéologie iOS, c’est un exploit technique sympa !

Et NyanSatan a tout documenté ici en détails. Les firmwares des coprocesseurs (Wi-Fi, Bluetooth, multitouch) viennent d’iOS 5.1.1, le SpringBoard a été patché pour fusionner les capacités des deux versions, et même le démon FairPlay a été modifié pour permettre l’activation et NyanSatan envisage d’étendre ça à l’iPad 1, un autre appareil qu’Apple avait laissé aussi sur le carreau…

Son code est dispo sur GitHub pour ceux qui veulent tenter l’aventure mais attention quand même, c’est potentiellement dangereux pour votre appareil. Mais bon, après si vous avez un iPod touch 3 qui prend la poussière, vous ne risquez pas grand chose…

Source

Reçu — 20 novembre 2025

La poésie est une arme... pour contourner la sécurité des LLMs

Par :Korben
20 novembre 2025 à 14:27

Hé bien les amis, on savait déjà que les LLM avaient quelques petites failles de sécurité, mais celle-là est quand même assez… poétique. En effet, des chercheurs de DEXAI et de l’Université Sapienza de Rome viennent de découvrir que reformuler une requête malveillante sous la forme d’un poème permet de contourner les sécurités dans plus de 90% des cas chez certains fournisseurs d’IA.

L’équipe a ainsi testé la robustesse de 25 modèles de langage provenant de 9 fournisseurs majeurs : Google, OpenAI, Anthropic, DeepSeek, Qwen, Mistral, Meta, xAI et Moonshot et ils ont pour cela converti 1 200 requêtes potentiellement dangereuses en vers et comparé les résultats avec les mêmes demandes mais en prose classique.

Et là surprise ! Le taux de succès des attaques passe de 8% en prose à 43% en formulation poétique. 5x plus de succès, c’est pas rien ! Je me suis demandé comment c’était possible et d’après le doc de recherche, c’est parce que les filtres de sécurité des LLM fonctionnent principalement par pattern-matching sur des formulations classiques.

Ainsi, quand vous demandez en prose comment fabriquer un truc dangereux, le modèle reconnaît la structure et refuse. Mais quand la même demande est enrobée de métaphores condensées, de rythme stylisé et de tournures narratives inhabituelles, les heuristiques de détection passent à côté.

En gros, les garde-fous sont entraînés à repérer des formes de surface mais pas l’intention sous-jacente, qui elle est nuisible. Voici le tableau. Plus c’est rouge plus le modèle est sensible à l’attaque par poème.

ASR c’est le taux de succès de l’attaque.

Bizarrement, les modèles plus petits refusent plus souvent que les gros. GPT-5-Nano (0% de taux de succès d’attaque) fait mieux que GPT-5 (10%)par exemple. Les chercheurs n’expliquent pas vraiment pourquoi, mais ça suggère que la taille du modèle n’est pas forcément synonyme de meilleure sécurité. C’est peut-être aussi parce que les gros modèles sont tellement doués pour comprendre le contexte qu’ils comprennent aussi mieux ce qu’on leur demande de faire, même quand c’est caché dans des alexandrins.

Au niveau des domaines testés, c’est l’injection de code et les attaques cyber qui passent le mieux avec 84% de réussite. Le contenu sexuel reste le plus résistant avec seulement 24% de taux de succès. Les autres domaines comme le CBRN (chimique, biologique, radiologique, nucléaire), la manipulation psychologique et la perte de contrôle se situent entre les deux…

Bon, après faut quand même nuancer un peu car l’étude se limite aux interactions single-turn (c’est à dire en une seule requête, sans réelle conversation), utilise un seul méta-prompt pour la conversion poétique, et n’a testé que l’anglais et l’italien. Les chercheurs reconnaissent aussi que leurs mesures sont conservatives, donc les vrais taux de succès sont probablement plus élevés. Mais cela n’enlève rien au fait que les implications sont quand même sérieuses.

Prochainement, l’équipe prévoit d’analyser précisément quels éléments poétiques provoquent cet effet (la métaphore ? le rythme ? la rime ?), d’étendre les tests à d’autres langues et d’autres styles, et de développer des méthodes d’évaluation plus robustes face à ces “variations linguistiques”.

Bref, si vous voulez que votre IA vous ponde des choses “non autorisées”, écrivez un joli sonnet, ça a plus de chance de passer ^^.

Source

Reçu — 25 octobre 2025
Reçu — 16 octobre 2025

LatentBreak - Quand les IA se font manipuler sans le savoir

Par :Korben
16 octobre 2025 à 09:37

Et si on pouvait pirater une IA non pas en la forçant, mais en la convainquant qu’elle est toujours du bon côté de la barrière ?? Ce serait pas un truc fun à faire ça quand même ? Hé bien c’est exactement ce que vient de faire une équipe de chercheurs en sécurité avec LatentBreak, une technique qui ressemble plus, je trouve, à de l’hypnose qu’à du véritable hacking.

Ainsi, plutôt que de bombarder ChatGPT ou Llama avec des prompts bizarres bourrés de caractères spéciaux pour les faire bugger (comme le font les anciennes techniques de jailbreak), LatentBreak joue sur la perception interne du modèle. L’IA croit en fait sincèrement répondre à une question innocente alors qu’elle génère du contenu dangereux. Un peu comme quand votre pervers narcissique préféré vous manipule pour vous faire croire que vous faites un truc bien et important alors que c’est de la merde et que ça vous enfonce encore plus…

Comme expliqué dans le document de recherche , les anciennes attaques comme GCG , GBDA ou AutoDAN ajoutaient des suffixes louches aux prompts, ce qui augmentait ce qu’on appelle la “perplexity”. La perplexity, c’est un indicateur de bizarrerie textuelle et cela, les filtres de sécurité sont maintenant capables de les détecter et de les bloquer.

LatentBreak contourne donc le problème en restant parfaitement naturel. L’algorithme remplace des mots par des synonymes, mais pas n’importe comment puisqu’il choisit chaque substitution pour déplacer la représentation interne du prompt vers les zones “sûres” du modèle, c’est à dire celles qui ne déclenchent aucune alarme. Le prompt reste alors fluide, compréhensible, inoffensif en apparence mais dans l’“inconscient” de l’IA, dans cet espace latent invisible où elle calcule ses réponses, le sens glisse subtilement vers quelque chose de complètement différent.

À chaque itération, l’algorithme de LatentBreak prend un mot du prompt et génère jusqu’à 20 alternatives via un autre modèle comme GPT-4o-mini et chaque variante est évaluée sur deux critères : est-ce qu’elle rapproche le vecteur interne du prompt d’un “centre de sécurité” dans l’espace latent, et est-ce que le sens global reste cohérent ?

La meilleure option est alors intégrée, et le nouveau prompt est testé sur le modèle cible. Si ça provoque une réponse normalement interdite, c’est gagné. Sinon, on recommence jusqu’à 30 fois de suite.

Et apparemment, les résultats sont impressionnants. Ils ont testé cette approche sur 13 modèles différents dont Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B et Qwen-7B et LatentBreak affiche un taux de réussite entre 55 et 85% selon les cas. Les anciennes techniques tombant de toute façon à zéro face aux défenses modernes et tout ça en allongeant que de très peu la longueur du prompt.

LatentBreak passe d’ailleurs à travers des défenses réputées solides… Par exemple, R2D2 et Circuit Breakers, des systèmes qui analysent les signaux internes des neurones pour détecter les anomalies, se font totalement avoir parce qu’ils scannent le texte visible et les patterns de surface, mais pas la “pensée interne” du modèle.

Cette technique révèle quelque chose de fondamental à comprendre sur l’architecture des LLM modernes. Ces derniers ont une forme de dissonance cognitive qui est exploitable. Leur représentation interne ne correspond pas toujours à leur comportement affiché, et d’ailleurs les substitutions les plus efficaces se produisent près des dernières couches du modèle, là où la “décision” finale se forme. C’est à ce moment précis qu’on peut glisser le prompt dans une zone cognitive différente sans que les alarmes ne sonnent.

Bien sûr, LatentBreak nécessite un accès aux structures internes du modèle (donc pas de panique, ChatGPT ne va pas se faire pirater comme ça demain), ce qui limite son usage à des contextes de recherche ou aux modèles open source.

Le parallèle avec les techniques de social engineering qu’on connait est d’ailleurs frappant parce que quand vous manipulez quelqu’un, vous ne le forcez pas brutalement. Vous trouvez les bons mots, le bon contexte, vous lui donnez une perception qui correspond à ce que vous voulez… Bref, vous faites en sorte que la personne croie agir selon ses propres valeurs alors qu’elle fait exactement ce que vous voulez. Hé bien LatentBreak fait à peu près la même chose avec les IA en n’attaquant pas de front les protections, mais en les contournant en douceur en réécrivant la “mémoire de travail” du modèle.

Sympa non ?

Source

Reçu — 8 septembre 2025
❌