Vue lecture

Anna's Archive vient de sauvegarder la totalité de Spotify

Vous connaissez Anna's Archive , cette bibliothèque pirate qui sauvegarde tous les livres et articles scientifiques de l'humanité ? Hé bien ils viennent de s'attaquer à un nouveau chantier : sauvegarder Spotify (en tout cas le plus possible), c'est à dire des millions de morceaux + de la métadonnées, soit ~300 téraoctets de données !!

Anna's Archive se focalise normalement sur le texte (livres, et documents de recherche) parce que c'est ce qui a la plus haute densité d'information mais leur mission, c'est de préserver le savoir et la culture de l'humanité, et ça inclut donc aussi la musique. Et comme ils ont trouvé un moyen de scraper Spotify à grande échelle, ils se sont dit "Hey pourquoi pas ? On est des oufs".

Et ça donne la plus grande base de données de métadonnées musicales jamais rendue publique, avec 186 millions d'ISRCs uniques (ces codes qui identifient chaque enregistrement). Pour vous donner un ordre de grandeur, MusicBrainz n'en a que 5 millions. Niveau fichiers audio, ils ont aussi archivé environ 86 millions de morceaux, ce qui représente 99,6% des écoutes sur la plateforme (même si ça ne fait "que" 37% du catalogue total). Donc si vous écoutez un morceau au hasard sur Spotify, y'a 99,6% de chances qu'il soit dans l'archive.

Pour trier tout ça, ils ont utilisé la métrique "popularité" de Spotify qui va de 0 à 100. Ainsi, pour les morceaux avec une popularité supérieure à 0, ils ont récupéré quasiment tout en qualité originale (OGG Vorbis 160kbit/s) et pour les morceaux à popularité 0 (soit ~70% du catalogue, des trucs que personne n'écoute), ils ont réencodé en OGG Opus 75kbit/s pour gagner de la place… mais ils ne sont pas allés au bout de la longue traîne (trop de stockage pour trop peu de gain, et pas mal de contenu “bof” à popularité 0). Pour 99% des gens ça sonne pareil, même si je sais que les audiophiles vont me tuer dans les commentaires ^^.

En regardant les stats qu'ils ont produit à partir de ce qui a été scrappé, les 3 morceaux les plus populaires (Die With A Smile de Lady Gaga et Bruno Mars, BIRDS OF A FEATHER de Billie Eilish, et DtMF de Bad Bunny) ont été streamés plus de fois que les 20 à 100 millions de morceaux les moins populaires combinés. Bon, ils précisent aussi que la popularité est très dépendante du moment, donc ce top est un peu arbitraire mais ça montre à quel point la longue traîne est looooongue sur les plateformes de streaming...

Après le problème avec la préservation musicale actuelle (ce qu'on retrouve sur les sites de Torrent par exemple), c'est qu'elle se concentre uniquement sur les artistes populaires et la qualité maximale (FLAC lossless). Du coup, y'a plein de musique obscure qui ne survit que si une seule personne décide de la partager. Et ces fichiers sont souvent mal seedés. Et c'est pour ça que je trouve l'approche d'Anna's Archive plutôt pas mal car elle consiste à archiver tout ce qui existe (ou presque), même en qualité "suffisante", plutôt que de se concentrer sur un sous-ensemble en qualité parfaite.

Et comme vous vous en doutez, tout est distribué via des torrents, avec les métadonnées déjà disponibles (moins de 200 Go compressés) et les fichiers audio qui arrivent progressivement par ordre de popularité. Note la base s'arrête à juillet 2025, donc tout ce qui est sorti après peut ne pas être là (même s'il y a quelques exceptions).

Bref, c'est la première archive de préservation musicale vraiment ouverte, que n'importe qui peut mirrorer s'il a assez de stockage et voilà comment grâce à l'aide de tout le monde, le patrimoine musical de l'humanité sera protégé pour toujours des catastrophes naturelles, des guerres, des coupes budgétaires et autres désastres... Par contre, pas sûr que ça la protège de la boulimie des IA génératives.

Merci à Lilian pour l'info !

Source

  •  

La cassette fait son comeback - 362 pétaoctets et 20 000 ans de stockage grâce à de l'ADN

Vous vous souvenez des cassettes audio ? Mais siiii, ces trucs de nous les vieux quand on était jeune (spoiler : je suis toujours jeune !). Il fallait même rembobiner avec un crayon quand le lecteur bouffait la bande !!

Hé bien des chercheurs chinois viennent de ressusciter ce format… mais version ADN. Et au lieu de stocker 90 minutes de musique, leur cassette peut théoriquement embarquer des quantités astronomiques de données.

L’équipe de Xingyu Jiang, ingénieur biomédical à la Southern University of Science and Technology de Shenzhen, a développé une bande pas comme les autres. Au lieu de la traditionnelle couche d’oxyde de fer, c’est de l’ADN synthétique qui est déposé sous forme de petits points microscopiques sur un film plastique flexible. Son prototype fait environ 5 mm de large sur 15 mètres de long et offre 545 400 emplacements adressables par kilomètre de bande. Côté capacité, on parle donc de 362 pétaoctets théoriques par kilomètre , mais en conditions réelles, l’équipe a stocké 74,7 Go par kilomètre pour le moment.

Bon, comment ça marche ce bazar ? Les données numériques sont converties en séquences ADN en utilisant les 4 bases nucléotidiques (A, T, C, G) à la place des 0 et des 1 habituels. La bande contient ces centaines de milliers d’emplacements adressables, et un système de lecture optique basé sur des codes-barres peut scanner jusqu’à 1570 partitions par seconde. C’est pas mal pour un truc basé sur des molécules biologiques.

Le vrai avantage de l’ADN comme support de stockage, c’est sa densité de ouf. Selon les chercheurs, l’ADN offre une densité théorique d’environ 455 exaoctets par gramme. Toutes les informations numériques mondiales pourraient tenir dans un volume ridiculement petit.

Et côté durabilité, c’est encore plus dingue, car là où vos disques durs claquent au bout de 1 à 10 ans et où les bandes magnétiques doivent être remplacées tous les 7 à 10 ans, l’ADN protégé par un revêtement métallo-organique (appelé ZIF) peut conserver les données pendant plus de 345 ans à température ambiante (c’est 20°C).

Et si vous le stockez dans un environnement froid comme les montagnes de Changbai en Chine, c’est parti pour 20 000 ans de stockage OKLM. Vos arrière-arrière-arrière-petits-enfants pourront encore récupérer vos TikTok de vacances et autres backups de dickpics.

Le système permet aussi de récupérer des fichiers sans détruire les données sources. Les chercheurs ont testé 10 cycles de récupération sur une même partition et les données restent intègres. Mieux encore, on peut supprimer et redéposer de nouveaux fichiers sur les mêmes emplacements, tout cela grâce à un algorithme de correction d’erreurs (Reed-Solomon) qui permet de conserver une bonne fiabilité des données malgré les manipulations.

Pour l’instant, la technologie reste quand même hyper leeeeeeente. En mode continu, les chercheurs atteignent un débit théorique de 2,3 fichiers par seconde, mais ça reste très loin des performances des bandes LTO actuelles, et au niveau coût, c’est pas jojo non plus, car la synthèse d’ADN reste très coûteuse, même si les prix baissent. Bref, y’a encore du boulot.

L’objectif des chercheurs est donc très clair. Il s’agit de créer un support de stockage durable pendant des siècles et indépendant de l’obsolescence des technologies actuelles. Car ouais, en 2025 retrouver un fichier sur une disquette, c’est quasi mission impossible alors qu’avec l’ADN, le format de lecture (le séquençage) continuera d’exister tant que la biologie moléculaire existera.

Tout ça pour dire que même si on n’est pas près de stocker nos bibliothèques Steam sur une cassette ADN, pour tout ce qui est archivage à très long terme de données “froides”, ça a énormément de potentiel.

Source : Science Advances

  •  

L'archéologie numérique - Fouiller là où plus personne ne cherche

Vous cherchez un vieux driver obscur de 2003, une démo technique jamais rééditée, ou ce vieux shareware DOS que personne n’a archivé ? Pas de souci, vous allez sur Google qui vous crache 3 liens morts et vous renvoie sur Reddit ou je ne sais où ailleurs… et vous abandonnez l’idée en vous disant que ça n’existe plus.

Mais sachez que pendant que vous galérez sur le web de surface, il existe tout un écosystème de réseaux zombies où les fichiers continuent de circuler comme si de rien n’était. eMule tourne toujours (oui), et des index FTP affichent carrément des milliards de fichiers encore dispo.

Bienvenue dans l’archéologie numérique pratique où aujourd’hui, on va apprendre à fouiller là où personne ne cherche plus. Et petit rappel utile, je vais vous parler ici uniquement de fichiers publics et légitimes (genre des drivers, des freewares, des docs, des archives de projets…etc), et pas de téléchargement illégal.

Mais avant de plonger dans ces réseaux, parlons un petit peu avant de sécurité parce que vous allez quand même télécharger des fichiers d’origines douteuses. Donc, utilisez une VM Linux légère (Ubuntu 22.04 LTS dans VirtualBox, ou une install minimal), avec un VPN avec kill-switch activé, un antivirus avec scan automatique, et un gestionnaire de téléchargement comme JDownloader2 avec des filtres activés.

Alors, pourquoi isoler sa machine AVANT de télécharger, me direz-vous ?

Hé bien parce qu’un fichier vérolé dans une VM, vous effacez la VM. Alors qu’un fichier vérolé sur votre machine principale, vous commencez à négocier avec votre week-end.

On commence donc par le web indexé étendu. Google indexe beaucoup de choses c’est vrai, mais pas tout (et pas partout). Et les opérateurs de recherche, c’est juste l’art de poser les bonnes contraintes : site:, guillemets, filetype:, intitle:… c’est documenté noir sur blanc chez Google donc je vous laisse lire tout ça , mais voici un exemple…

`site:vogonsdrivers.com "Voodoo3" driver`

ou

`site:catalog.update.microsoft.com "nom du périph"`

…pour tomber sur des pages que personne ne linke plus, mais qui existent encore. Et si vous voyez un “Index of /” sur un serveur, traitez ça comme un miroir public, mais surtout pas comme une invitation à aspirer tout le disque au risque de vous faire ban ou de voir le site se mettre en croix.

Bonus moteur de recherche rien que pour vous, Yandex peut parfois remonter des résultats différents (langues, régions, caches), mais oubliez le mythe “anti-DMCA magique” car Yandex retire aussi les liens qui vont vers du contenu sous copyright.

Voilà, utilisez plusieurs moteurs de recherche pour multiplier les angles de recherche. C’est un bon début.

Ensuite, Archive.org que vous connaissez tous, ne se limite pas aux vieilles versions de sites web. Le move le plus propre c’est de coller l’URL d’origine dans la Wayback Machine et vous remonterez le temps. Et si vous voulez jouer au chirurgien (URLs mortes, patterns, dates), il y a même une API CDX qui interroge l’index des captures, comme ça, un driver disparu en 2008 a peut-être été crawlé. Ou pas. Mais bon, ça prend 30 secondes à vérifier donc pourquoi se priver ?

Il restait aussi, c’est vrai, des dinosaures qui traînaient comme Uloz.to, longtemps cité comme “cimetière vivant”, mais qui malheureusement a annoncé la fin du partage public en 2023. En revanche, pour les vieux drivers et outils, vous avez des spots nettement plus propres tels que VOGONS Drivers (vintage hardware) et même le Microsoft Update Catalog pour des drivers connus.

Mais attention au piège des faux liens car sur certains vieux hébergeurs et pages louches, une grosse partie des résultats récents sont des redirections vers des sondages, des installateurs chelous ou des malwares. La règle c’est donc de privilégier les uploads anciens, de vérifier la taille du fichier, et de comparer avec une taille attendue. Par exemple, une ISO de 150 Ko, c’est un fake évident ! Et si un hash est disponible sur un forum, vérifiez-le (idéalement en SHA-256).

Bon, et maintenant on va passer à un truc vraiment puissant : l’archéologie FTP.

Mamont’s Open FTP Index et son moteur de recherche affichent plus de 4,29 milliards de fichiers listés. La plupart de ces serveurs ont été configurés dans les années 2000 et certains traînent encore en mode portes ouvertes du coup, on y trouve des sauvegardes de sites web morts, des miroirs de projets, des archives de docs, de vieilles photos et parfois des drivers perdus. C’est l’Internet Archive version anarchique et non-curée.

Vous pouvez par exemple chercher par extension (.zip, .rar, .7z), vous triez par date, et vous privilégiez les serveurs qui ressemblent à des miroirs publics (projets, universités, labos). Et si vous voulez un index avec stats visibles, y’a une alternative qui s’appelle NAPALM FTP Indexer et qui annonce environ 459 millions de fichiers répartis sur 1 437 serveurs FTP, avec une date d’update affichée.

Par contre, petit piège classique, y’a beaucoup de serveurs FTP publics qui bloquent l’accès web, mais acceptent les clients FTP. Donc si un index affiche un lien mort, essayez avec un client FTP en lecture seule (FileZilla, lftp…). Sur l’anonymous FTP, quand c’est activé. Le combo classique c’est user: anonymous (et parfois un mail en mot de passe, juste pour la forme). Et une fois encore, ce qui est accessible n’est pas toujours prévu pour être siphonné donc prenez uniquement ce dont vous avez besoin.

Et si vous cherchez des fichiers vraiment rares, on ne peut pas ignorer le P2P décentralisé. C’est vrai que tout le monde est passé au streaming, mais il reste une communauté silencieuse qui fait tourner eMule depuis 2004 et comme le réseau Kad (Kademlia) fonctionne sans serveur central côté recherche, ça change tout en termes de résilience. Aujourd’hui c’est plus niche, mais c’est justement là que des fichiers ultra-spécifiques survivent.

Si vous voulez rester clean, téléchargez eMule depuis la source officielle . Ah et sous Mac et Linux, y’a aMule aussi. Ça me rappelle tellement de souvenirs !

Bien sûr, les fichiers rares peuvent mettre des jours à arriver et contrairement à BitTorrent où vous voyez “50 seeders”, eMule affiche juste “En attente” donc télécharger un fichier rare demande de la patience. Laissez tourner, et vous verrez bien… c’est souvent la condition du succès.

BitTorrent avec BiglyBT , c’est l’évolution moderne de tout ça puisque ce client supporte DHT, et il a une intégration I2P et Tor via plugin. La fonctionnalité “Swarm Discoveries” sert également à découvrir des torrents.

Gnutella et Shareaza, par contre, c’est le réseau zombie. Très peu d’utilisateurs, mais certaines archives uniques n’existent que là donc si vous avez épuisé eMule et BitTorrent, tentez Shareaza en dernier recours.

Une technique un peu old-school mais qui marche encore (dans les cas légitimes) c’est également l’URL guessing. Donc littéralement deviner les URLs. Vous trouvez site.com/download/v1.0.zip, mais il vous faut la v0.9. Testez site.com/download/v0.9.zip, puis v1.1, v2.0. Beaucoup de projets laissent traîner des anciennes versions sans les lier publiquement.

Et pour finir, Usenet qui est payant c’est vrai, un peu complexe, mais parfois très efficace. Usenet existe depuis 1980 et fonctionne comme un système distribué de serveurs qui se répliquent des messages. Aujourd’hui, côté binaire, faudra passer par un provider (rétention, vitesse, complétion) comme Eweka ou Newshosting. Y’a aussi des indexeurs NZB pour chercher comme NZBgeek, ou NZBfinder.

Votre succès avec Usenet dépend de deux paramètres très terre-à-terre : la rétention (combien de temps c’est gardé) et la complétion (si toutes les pièces existent). Un fichier de 2010 peut être incomplet si des parties ont sauté alors si la complétion est basse, vous perdez votre temps. Par contre, si elle est haute, Usenet est un bulldozer.

Je le redis encore une fois, ne JAMAIS double-cliquer sur un .exe récupéré dans la nature. Vérifiez les signatures quand il y en a, comparez les hashes, et testez d’abord en VM isolée. Hé oui, VirusTotal peut aider, mais un upload n’est pas forcément privé donc évitez d’y envoyer des fichiers sensibles, et ne confondez pas 0 détection avec 0 risque.

Voilà, cet Internet profond dont je parle n’a rien à voir avec le dark web, Tor et tout ça… C’est simplement l’Internet d’avant Google qui continue de tourner en silence avec ses miroirs, ses archives, ses réseaux P2P sans tête, et ses serveurs oubliés. Tout ça fonctionne encore, mais personne ne les explore vraiment. Grâce à cet article, vous venez donc d’apprendre à fouiller ces cyber ruines où 99% des gens ne pensent jamais à chercher.

Pour aller plus loin dans l’archéologie numérique, j’ai compilé les sources qui m’ont aidé à préparer ce modeste guide : Lost Media Wiki Forum pour la communauté, Mamont et NAPALM FTP Indexer pour l’archéo FTP, Internet Archive + CDX API pour la Wayback, la doc eMule et Steiner et al. (IMC 2007) pour Kad, BiglyBT + Swarm Discoveries pour BitTorrent, VOGONS Drivers et Software Heritage pour la préservation propre.

  •  
❌