`site:catalog.update.microsoft.com "nom du périph"`
…pour tomber sur des pages que personne ne linke plus, mais qui existent encore. Et si vous voyez un “Index of /” sur un serveur, traitez ça comme un miroir public, mais surtout pas comme une invitation à aspirer tout le disque au risque de vous faire ban ou de voir le site se mettre en croix.
Bonus moteur de recherche rien que pour vous,
Yandex
peut parfois remonter des résultats différents (langues, régions, caches), mais oubliez le mythe “anti-DMCA magique” car Yandex retire aussi les liens qui vont vers du contenu sous copyright.
Voilà, utilisez plusieurs moteurs de recherche pour multiplier les angles de recherche. C’est un bon début.
Ensuite, Archive.org que vous connaissez tous, ne se limite pas aux vieilles versions de sites web. Le move le plus propre c’est de coller l’URL d’origine dans la Wayback Machine et vous remonterez le temps. Et si vous voulez jouer au chirurgien (URLs mortes, patterns, dates), il y a même
une API CDX
qui interroge l’index des captures, comme ça, un driver disparu en 2008 a peut-être été crawlé. Ou pas. Mais bon, ça prend 30 secondes à vérifier donc pourquoi se priver ?
Il restait aussi, c’est vrai, des dinosaures qui traînaient comme Uloz.to, longtemps cité comme “cimetière vivant”, mais qui malheureusement a annoncé
la fin du partage public
en 2023. En revanche, pour les vieux drivers et outils, vous avez des spots nettement plus propres tels que
VOGONS Drivers
(vintage hardware) et même le
Microsoft Update Catalog
pour des drivers connus.
Mais attention au piège des faux liens car sur certains vieux hébergeurs et pages louches, une grosse partie des résultats récents sont des redirections vers des sondages, des installateurs chelous ou des malwares. La règle c’est donc de privilégier les uploads anciens, de vérifier la taille du fichier, et de comparer avec une taille attendue. Par exemple, une ISO de 150 Ko, c’est un fake évident ! Et si un hash est disponible sur un forum, vérifiez-le (idéalement en SHA-256).
Bon, et maintenant on va passer à un truc vraiment puissant : l’archéologie FTP.
Mamont’s Open FTP Index
et
son moteur de recherche
affichent plus de 4,29 milliards de fichiers listés. La plupart de ces serveurs ont été configurés dans les années 2000 et certains traînent encore en mode portes ouvertes du coup, on y trouve des sauvegardes de sites web morts, des miroirs de projets, des archives de docs, de vieilles photos et parfois des drivers perdus. C’est l’Internet Archive version anarchique et non-curée.
Vous pouvez par exemple chercher par extension (.zip, .rar, .7z), vous triez par date, et vous privilégiez les serveurs qui ressemblent à des miroirs publics (projets, universités, labos). Et si vous voulez un index avec stats visibles, y’a une alternative qui s’appelle
NAPALM FTP Indexer
et qui annonce environ 459 millions de fichiers répartis sur 1 437 serveurs FTP, avec une date d’update affichée.
Par contre, petit piège classique, y’a beaucoup de serveurs FTP publics qui bloquent l’accès web, mais acceptent les clients FTP. Donc si un index affiche un lien mort, essayez avec un client FTP en lecture seule (FileZilla, lftp…). Sur l’anonymous FTP, quand c’est activé. Le combo classique c’est user: anonymous (et parfois un mail en mot de passe, juste pour la forme). Et une fois encore, ce qui est accessible n’est pas toujours prévu pour être siphonné donc prenez uniquement ce dont vous avez besoin.
Et si vous cherchez des fichiers vraiment rares, on ne peut pas ignorer le P2P décentralisé. C’est vrai que tout le monde est passé au streaming, mais il reste une communauté silencieuse qui fait tourner eMule depuis 2004 et comme le réseau Kad (Kademlia) fonctionne sans serveur central côté recherche, ça change tout en termes de résilience. Aujourd’hui c’est plus niche, mais c’est justement là que des fichiers ultra-spécifiques survivent.
Si vous voulez rester clean,
téléchargez eMule depuis la source officielle
. Ah et sous Mac et Linux, y’a
aMule
aussi. Ça me rappelle tellement de souvenirs !
Bien sûr, les fichiers rares peuvent mettre des jours à arriver et contrairement à BitTorrent où vous voyez “50 seeders”, eMule affiche juste “En attente” donc télécharger un fichier rare demande de la patience. Laissez tourner, et vous verrez bien… c’est souvent la condition du succès.
BitTorrent avec
BiglyBT
, c’est l’évolution moderne de tout ça puisque ce client supporte DHT, et il a une intégration I2P et Tor via plugin. La fonctionnalité “Swarm Discoveries” sert également à découvrir des torrents.
Gnutella et Shareaza, par contre, c’est le réseau zombie. Très peu d’utilisateurs, mais certaines archives uniques n’existent que là donc si vous avez épuisé eMule et BitTorrent, tentez Shareaza en dernier recours.
Une technique un peu old-school mais qui marche encore (dans les cas légitimes) c’est également l’URL guessing. Donc littéralement deviner les URLs. Vous trouvez site.com/download/v1.0.zip, mais il vous faut la v0.9. Testez site.com/download/v0.9.zip, puis v1.1, v2.0. Beaucoup de projets laissent traîner des anciennes versions sans les lier publiquement.
Et pour finir, Usenet qui est payant c’est vrai, un peu complexe, mais parfois très efficace. Usenet existe depuis 1980 et fonctionne comme un système distribué de serveurs qui se répliquent des messages. Aujourd’hui, côté binaire, faudra passer par un provider (rétention, vitesse, complétion) comme Eweka ou Newshosting. Y’a aussi des indexeurs NZB pour chercher comme NZBgeek, ou NZBfinder.
Votre succès avec Usenet dépend de deux paramètres très terre-à-terre : la rétention (combien de temps c’est gardé) et la complétion (si toutes les pièces existent). Un fichier de 2010 peut être incomplet si des parties ont sauté alors si la complétion est basse, vous perdez votre temps. Par contre, si elle est haute, Usenet est un bulldozer.
Je le redis encore une fois, ne JAMAIS double-cliquer sur un .exe récupéré dans la nature. Vérifiez les signatures quand il y en a, comparez les hashes, et testez d’abord en VM isolée. Hé oui, VirusTotal peut aider, mais un upload n’est pas forcément privé donc évitez d’y envoyer des fichiers sensibles, et ne confondez pas 0 détection avec 0 risque.
Voilà, cet Internet profond dont je parle n’a rien à voir avec le dark web, Tor et tout ça… C’est simplement l’Internet d’avant Google qui continue de tourner en silence avec ses miroirs, ses archives, ses réseaux P2P sans tête, et ses serveurs oubliés. Tout ça fonctionne encore, mais personne ne les explore vraiment. Grâce à cet article, vous venez donc d’apprendre à fouiller ces cyber ruines où 99% des gens ne pensent jamais à chercher.
Pour aller plus loin dans l’archéologie numérique, j’ai compilé les sources qui m’ont aidé à préparer ce modeste guide :
Lost Media Wiki Forum
pour la communauté,
Mamont
et
NAPALM FTP Indexer
pour l’archéo FTP,
Internet Archive
+
CDX API
pour la Wayback,
la doc eMule
et
Steiner et al. (IMC 2007)
pour Kad,
BiglyBT
+
Swarm Discoveries
pour BitTorrent,
VOGONS Drivers
et
Software Heritage
pour la préservation propre.