Vue lecture

Comment bloquer les crawlers IA qui pillent votre site sans vous demander la permission ?

Vous en avez marre de voir GPTBot, ClaudeBot et toute la bande de crawlers IA se servir sur votre site comme dans un buffet à volonté ? Perso, j’utilise Cloudflare qui propose des options pour ça directement mais tout le monde n’utilise pas ce service. Du coup ce projet ai.robots.txt est super pratique pour ceux qui gèrent leur propre serveur et qui veulent reprendre le contrôle sur ce qui se fait aspirer.

L’idée c’est de maintenir sur Github une liste exhaustive de tous les crawlers liés à l’IA, que ce soit pour entraîner des modèles ou alimenter des moteurs de recherche IA. On y retrouve les suspects habituels comme GPTBot (OpenAI), Claude-Web (Anthropic), Google-Extended, meta-externalagent, mais aussi des trucs plus obscurs comme img2dataset ou laion-huggingface-processor qui servent à aspirer des images.

Le truc cool, c’est que le projet ne se contente pas juste de fournir un robots.txt à copier-coller. Y’a aussi des fichiers de config prêts à l’emploi pour Apache (.htaccess), Nginx, Caddy et même HAProxy. Du coup vous pouvez carrément renvoyer une erreur HTTP aux crawlers au lieu de juste leur dire “non” poliment via robots.txt (qu’ils ignorent parfois de toute façon, les malotrus).

Pour Nginx par exemple, vous récupérez le fichier nginx-block-ai-bots.conf et vous l’incluez dans votre config de virtual host. Le fichier contient une regex qui matche tous les User-Agent connus des crawlers IA. Même principe pour Apache avec le .htaccess, ou pour HAProxy où vous ajoutez quelques lignes dans la section frontend pour détecter et bloquer ces bots.

Le projet est maintenu activement par une communauté de contributeurs qui surveille les nouveaux crawlers qui débarquent et dès qu’un nouveau bot IA se pointe, la liste est mise à jour et les fichiers de config sont regénérés automatiquement via GitHub Actions.

Après, le robots.txt ça reste un “gentlemen’s agreement” et y’a que les crawlers sympas le respectent… Les autres font semblant de pas le voir. A voir maintenant si c’est une bonne idée ou pas de bloquer ces crawlers…

C’est à vous de voir mais si vous n’aimez pas l’IA je pense que vous adorerez cette liste de blocage . Après si vous vous inquiétez sur votre audience votre référencement et compagnie, peut-être que vous voulez quand même récupérer un peu de trafic en provenance de ces chatbots IA.

Donc à vous de voir…

  •  

HTTP Compression Test / WhatsMyIP.org

Un outil qui vérifie si un site web à la compression gzip/deflate d'activé et qui donne le taux de compression.

https://book.knah-tsaeb.org is Compressed

Uncompressed Page Size: 126.2 KB
Compressed Page Size: 19.8 KB
Savings: 84.3%

Permalien
  •  

PrivateBin : erreur "Votre navigateur ne prend pas en charge WebAssembly (...)"

J'ai mis à jour PrivateBin de la version 1.7.4 à la 1.7.6 et, en allant sur le site avec Firefox, j'obtenais cette erreur : "Votre navigateur ne prend pas en charge WebAssembly, utilisé pour la compression zlib. Vous pouvez créer des documents non compressés, mais vous ne pouvez pas lire les documents compressés."

Pourtant, WebAssembly est pris en charge par Firefox depuis déjà des années... À moins que vous ne l'ayez spécifiquement désactivé (ce qui n'est pas mon cas), ou que vous utilisiez Tor Browser.

En fait, la solution est d'ajouter le type MIME WebAssembly au serveur Apache.

Ouvrez le .htaccess et ajoutez la ligne suivante :
AddType application/wasm wasm

Source : https://github.com/PrivateBin/PrivateBin/pull/1464


Permalink
  •  
❌