pdfinfo -meta document.pdf
Dans les documents judiciaires qui ont récemment fuité, les métadonnées ont révélé les noms des personnes qui avaient édité les fichiers, les dates exactes des modifications, et parfois des chemins de fichiers sur les serveurs internes... Oups.
Maintenant, la technique la plus vicieuse ça reste quand même l'analyse des positions de glyphes. En effet, des chercheurs ont publié un papier intitulé "
Story Beyond the Eye
" qui démontre qu'on peut parfois deviner le contenu masqué en analysant la largeur des zones masquées.
Le principe c'est que dans un PDF, chaque caractère a une largeur précise définie par sa police de caractère. Si vous savez quelle police est utilisée (et c'est souvent le cas, puisque les tribunaux américains adorent Times New Roman par exemple), vous pouvez calculer combien de caractères tiennent dans la zone noire. Et si vous avez du contexte (comme le début ou la fin d'une phrase), vous pouvez parfois deviner le mot exact.
Avec des polices à chasse fixe comme Courier, c'est encore plus facile puisque chaque caractère fait exactement la même largeur. Comptez alors les pixels, divisez par la largeur d'un caractère, vous avez le nombre de lettres.
Un outil qui facilite tout ça c'est
X-Ray
, développé par le Free Law Project qui est capable d'analyser les PDF et de détectre automatiquement les censures défectueuses.
Autre outil sympa que je vous conseille, c'est
unredactor
, qui tente de reconstruire automatiquement le texte sous les blocs de masquage en utilisant diverses heuristiques.
Ça c'est pour les PDF, mais pour les images PNG ou les captures d'écran censurées, y'a aussi des trucs à faire. Leurs métadonnées EXIF peuvent contenir des informations sur l'appareil, la géolocalisation, la date, mais surtout, si l'image a été éditée avec certains logiciels, des données résiduelles peuvent trainer.
La technique du "thumbnail" est par exemple particulièrement fourbe puisque certains logiciels génèrent une miniature de l'image AVANT les modifications et l'embarquent dans les métadonnées. Donc vous ouvrez la miniature, et vous voyez l'image originale non censurée. C'est arrivé plusieurs fois dans des affaires judiciaires. Voici comment l'extraire avec Exiftool :
exiftool -b -ThumbnailImage image_redactee.jpg > thumbnail.jpg
Pour les professionnels du forensique, y'a aussi la technique de l'analyse des données compressées. Comme les algorithmes JPEG et PNG ne sont pas parfaits, les zones éditées ont parfois des artefacts de compression différents du reste de l'image. Cela peut révéler où des modifications ont été faites.
Bon et maintenant que vous savez comment récupérer des infos censurées, parlons maintenant de comment BIEN censurer un document, histoire de pas vous planter.
En fait, la seule méthode vraiment sûre c'est de supprimer définitivement le contenu. Je répète : Ne masquez pas le contenu, supprimez le !
Adobe Acrobat Pro a par exemple une fonction "Redact" qui fait ça correctement car cette fonction supprime réellement le texte et les métadonnées associées.
Alternativement, vous pouvez aussi exporter le document en PDF (ça aplatit toutes les couches), utiliser des outils comme pdf-redact-tools qui suppriment vraiment le contenu, et le convertir en image puis le reconvertir en PDF (bourrin mais efficace)
Et SURTOUT, vérifiez toujours le résultat avec les techniques mentionnées plus haut avant de diffuser quoi que ce soit.
Voilà, vous avez maintenant un petit arsenal de techniques OSINT pour analyser des documents "confidentiels". Bien sûr, comme d'hab, utilisez ces connaissances de manière responsable et éthique car une fois encore, le but c'est de comprendre les failles pour mieux se protéger, et pas de violer la vie privée des gens.
Voilà... Et la prochaine fois que vous verrez un document officiel avec des gros rectangles noirs, vous saurez que c'est peut-être pas aussi opaque que ça en a l'air. Niark niark...