Vue normale

Reçu hier — 15 octobre 2025

Listing top Pypi keywords | BigQuery Datasets - PyPI Docs

15 octobre 2025 à 11:09

Using Google bq CLI, the following command allows to get the top Pypi keywords from the bigquery-public-data.pypi.distribution_metadata table:

bq query --use_legacy_sql=false 'SELECT keyword, COUNT(*) as keyword_count FROM `bigquery-public-data.pypi.distribution_metadata`, UNNEST(SPLIT(keywords, ", ")) as keyword GROUP BY keyword ORDER BY keyword_count DESC LIMIT 100'

Result for the top-15 keywords:

  • python : 128555 appearances
  • DuckDB Database SQL OLAP : 70739 appearances
  • ai : 64997 appearances
  • tensorflow tensor machine learning : 51144 appearances
  • pulumi : 50076 appearances
  • api : 47986 appearances
  • probabilities probabilistic-graphical-models inference diagnosis : 46552 appearances
  • rust : 45607 appearances
  • cli : 39512 appearances
  • OpenAPI : 38814 appearances
  • sdk : 38060 appearances
  • llm : 37487 appearances
  • OpenAPI-Generator : 36734 appearances
  • database : 35578 appearances
  • automation : 34393 appearances

Note that this is a very basic query, that does take into account that some packages have a lot more versions published on Pypi than others.


Permalink
Reçu avant avant-hier

The QLever SPARQL engine: fast, scalable, with autocompletion and text search

29 septembre 2025 à 13:52

Pour interroger tout le graphe (non divisé), il est possible d'utiliser QLever avec une syntaxe légèrement différente. Il s'agit d'une institution tierce qui fait une copie du graphe de manière régulière (tous les mois environ).
Exemple : Helen De Cruz (cf. ci-dessous)

PREFIX wikibase: <http://wikiba.se/ontology#>
PREFIX wd: <http://www.wikidata.org/entity/>
PREFIX wdt: <http://www.wikidata.org/prop/direct/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT DISTINCT ?work ?label WHERE {
  { ?work (wdt:P50 | wdt:P98) wd:Q47189712 .
 } UNION { ?work wdt:P2093 "Helen De Cruz" .
 }
  OPTIONAL { ?work rdfs:label ?label FILTER(LANG(?label) = "en") }
}

Permalien

TernFS - Un système de fichiers distribué capable de gérer des exaoctets

Par :Korben
22 septembre 2025 à 20:14

Et encore un article un peu technique pour finir la journée en beauté ! Si je vous disais que votre serveur Linux pouvait gérer 10 exaoctets de données sans broncher ? Vous ne me croiriez pas je pense… D’ailleurs c’est quoi 10 exaoctets ?? Et bien ça correspond à 10 millions de To. C’est pas mal hein ?

Hé bien c’est exactement ce que permet de gérer TernFS, le système de fichiers qu’XTX Markets vient de libérer après trois ans d’utilisation intensive. XTX Markets est une boîte d’algo-trading qui brasse 250 milliards de dollars par jour et j’avoue que c’est un joli cadeau de presque-Noël qu’elle vient de nous faire…

D’après ce qu’ils expliquent sur leur site , NFS et les autres solutions classiques ne tenaient plus la charge face à leurs 650 pétaoctets de données utilisées leur machine learning. Alors ils ont fait ce que font les vrais geeks, ils ont codé leur propre solution… et après trois ans de production sans perdre “un seul octet”, ils ont tout balancé en en open source sur GitHub .

Le truc génial avec TernFS, c’est qu’il a été pensé pour les fichiers immuables, vous savez, ces gros datasets de plusieurs gigaoctets qu’on écrit une fois et qu’on relit des milliers de fois pour entraîner des modèles. Pas de modification après création, pas de prise de tête avec les locks et la cohérence. C’est simple et efficace.

L’architecture repose sur quatre composants principaux qui bossent ensemble : les metadata shards (256 shards logiques pour gérer les métadonnées), le CDC (Cross-Directory Coordinator) pour les opérations entre répertoires, les block services pour stocker les données, et un registry pour orchestrer tout ce petit monde. Le tout communique en UDP/TCP avec du Reed-Solomon pour l’erasure coding et du CRC32-C pour vérifier l’intégrité. Bref, ça semble être du solide.

Et les chiffres qu’ils donnent sur leur production sont assez dingues. Ils parlent de 500+ pétaoctets répartis sur 30 000 disques durs et 10 000 SSD, dans 3 datacenters différents, avec des débits qui montent à plusieurs téraoctets par seconde en vitesse de pointe. Et leur système gère ça tranquille, avec du multi-région natif et une tolérance aux pannes qui ferait pâlir d’envie n’importe quel admin sys.

Si ça vous chauffe, pour installer TernFS, c’est du classique. Vous clonez le repo, vous lancez ./build.sh alpine ou ./build.sh ubuntu selon votre distrib, et c’est parti. Il y a un module kernel Linux pour gratter les perfs maximales et toucher les étoiles, mais vous pouvez aussi utiliser FUSE si vous préférez rester en userspace. Ils ont même implémenté une API S3 pour ceux qui veulent migrer depuis AWS sans tout réécrire.

git clone https://github.com/XTXMarkets/ternfs
cd ternfs
./build.sh alpine
# Et pour tester en local
./scripts/ternrun

Par contre, attention aux limitations ! Car TernFS n’est pas du tout fait pour les petits fichiers (genre les millions de fichiers de 1KB d’un projet Node.js). C’est vraiment optimisé pour du gros volume du style datasets ML, logs d’applications, archives, ce genre de trucs. Et y’a pas de système de permissions intégré non plus, car ils ont préféré garder ça basique et laisser chacun implémenter sa propre couche de sécurité.

Ils ont mis au point également un système de “block proofs” où chaque bloc de data a une preuve cryptographique qui permet de vérifier que le client n’a pas corrompu les données avant de les écrire. Ça évite qu’un client bugué ou malveillant ne pourrisse tout le filesystem. Ils ont aussi un système de “scrubbing” automatique qui détecte et remplace les secteurs défaillants sur les disques.

Chouette non ?

D’après Bloomberg , XTX Markets investit actuellement 1 milliard d’euros dans de nouveaux datacenters en Finlande. Avec leurs 25 000 GPUs (dont 10 000 A100 et 10 000 V100) et maintenant TernFS en open source, ils montrent surtout qu’ils ne rigolent pas avec l’infrastructure. C’est pas pour rien qu’ils arrivent à traiter un trillion d’enregistrements par jour pour leurs algos de trading.

Leur code est disponible sous double licence à savoir GPLv2+ pour le core et Apache 2.0 avec exception LLVM pour les bibliothèques client et les définitions de protocole. Ça permet d’intégrer TernFS dans à peu près n’importe quel projet, commercial ou non.

Bref, si vous gérez des pétaoctets de données et que ZFS commence à tirer la langue, TernFS vaut vraiment le coup d’œil. Reste à voir si d’autres géants du big data vont l’adopter ou si ça restera un outil de niche pour les vraiment gros volumes, mais avec l’explosion du Machine Learning et des LLMs, je parie qu’on va en entendre parler de plus en plus…

Source

Projet:Wikifier la science/Nice — Wikipédia

10 septembre 2025 à 20:01

L'URFIST méditerranée a mis en place une résidence Wikimédia afin de faire rayonner la science en formant à Wikimédia.
[...]
Voici en quelques vignettes, le résumé de la résidence de Pierre-Yves Beaudouin (@pyb@mamot.fr) qui s'est déroulée du 13 mai 2024 au 12 mai 2025.


Permalien

One supplier, one nation held hostage

5 septembre 2025 à 16:16
Miljödata, Swedish HR software supplier, hacked: 200 municipalities paralyzed. A shock lesson on the risks of centralized IT without resilience....

Cyberattaque contre l’entreprise Xplain: conséquences pour fedpol et mesures prises

5 septembre 2025 à 14:44

Cyberattaque contre l’entreprise Xplain: conséquences pour fedpol et mesures prises

Début juin 2023, il a été rendu public que l’entreprise suisse Xplain, un fournisseur de logiciels destinés aux autorités de sécurité et aux organisations d’intervention d’urgence, avait été victime d’une attaque par ransomware du groupe de cybercriminels Play. En accord avec la Confédération et les autorités de poursuite pénale, l’entreprise Xplain n’a pas répondu aux demandes de rançon des cybercriminels. À la mi-juin 2023, ceux-ci ont alors publié sur le darknet le lot de données dérobées. fedpol est concerné par cette fuite de données, tout comme d’autres unités administratives fédérales et cantonales.
L’entreprise Xplain a annoncé le cyberincident à l'Office fédéral de la cybersécurité (OFCS) et déposé une plainte auprès de la police cantonale bernoise.
Xplain a informé fedpol du vol de données le 23 mai 2023. Après avoir pris connaissance de l’incident, fedpol a déposé une plainte pénale contre inconnu auprès du Ministère public de la Confédération et a informé le Préposé fédéral à la protection des données et à la transparence (PFPDT) de la fuite de données.
Dans quelle mesure fedpol est-il concerné?

Le volume des données volées et publiées sur le darknet concernant fedpol connu à ce jour (septembre 2023) équivaut à moins de 10 % du volume total. Grâce à ses propres analyses, fedpol a constaté déjà à un stade précoce que des données opérationnelles étaient notamment concernées. Il a donc pris sans délai des mesures préventives afin de protéger les personnes, les données, les infrastructures, les objets et les procédures concernés.

D’après les connaissances actuelles, les données détournées comprennent des données personnelles (par ex. nom, prénom, date de naissance) et, dans certains cas, des données sensibles de personnes physiques (par ex. photos du visage). Les analyses ont mis au jour, parmi les données dérobées et publiées, un fichier XML remontant à 2015 qui comprend certaines données du système d’information HOOGAN. Sont enregistrées dans ce système les personnes qui ont affiché un comportement violent lors de manifestations sportives en Suisse ou à l’étranger et contre qui le canton compétent ou fedpol a prononcé une mesure en vertu de l’art. 24a de la loi fédérale du 21 mars 1997 instituant des mesures visant au maintien de la sûreté intérieure (LMSI). Le fichier XML publié sur le darknet contient un code technique avec des données concernant 766 personnes saisies dans HOOGAN en septembre 2015. Il ne contient aucune information sur des infractions ou des mesures prononcées (cf. communiqué de presse du 12 juillet 2023).


Permalien

Simply adding HTML meta tags in Wordpress

10 août 2025 à 08:36

Just a quick blog post about Wordpress configuration, mostly as a reminder to myself.

If you manage a public website, you probably want it to include some HTML metadata: it is important for referencing your website in search engines, as well as to provide a nice "preview miniature" on social …


Permalink
❌