Comment bloquer les crawlers IA qui pillent votre site sans vous demander la permission ?
Vous en avez marre de voir GPTBot, ClaudeBot et toute la bande de crawlers IA se servir sur votre site comme dans un buffet à volonté ? Perso, j’utilise Cloudflare qui propose des options pour ça directement mais tout le monde n’utilise pas ce service. Du coup ce projet ai.robots.txt est super pratique pour ceux qui gèrent leur propre serveur et qui veulent reprendre le contrôle sur ce qui se fait aspirer.
L’idée c’est de maintenir sur Github une liste exhaustive de tous les crawlers liés à l’IA, que ce soit pour entraîner des modèles ou alimenter des moteurs de recherche IA. On y retrouve les suspects habituels comme GPTBot (OpenAI), Claude-Web (Anthropic), Google-Extended, meta-externalagent, mais aussi des trucs plus obscurs comme img2dataset ou laion-huggingface-processor qui servent à aspirer des images.
Le truc cool, c’est que le projet ne se contente pas juste de fournir un robots.txt à copier-coller. Y’a aussi des fichiers de config prêts à l’emploi pour Apache (.htaccess), Nginx, Caddy et même HAProxy. Du coup vous pouvez carrément renvoyer une erreur HTTP aux crawlers au lieu de juste leur dire “non” poliment via robots.txt (qu’ils ignorent parfois de toute façon, les malotrus).
Pour Nginx par exemple, vous récupérez le fichier nginx-block-ai-bots.conf et vous l’incluez dans votre config de virtual host. Le fichier contient une regex qui matche tous les User-Agent connus des crawlers IA. Même principe pour Apache avec le .htaccess, ou pour HAProxy où vous ajoutez quelques lignes dans la section frontend pour détecter et bloquer ces bots.
Le projet est maintenu activement par une communauté de contributeurs qui surveille les nouveaux crawlers qui débarquent et dès qu’un nouveau bot IA se pointe, la liste est mise à jour et les fichiers de config sont regénérés automatiquement via GitHub Actions.
Après, le robots.txt ça reste un “gentlemen’s agreement” et y’a que les crawlers sympas le respectent… Les autres font semblant de pas le voir. A voir maintenant si c’est une bonne idée ou pas de bloquer ces crawlers…
C’est à vous de voir mais si vous n’aimez pas l’IA je pense que vous adorerez cette liste de blocage . Après si vous vous inquiétez sur votre audience votre référencement et compagnie, peut-être que vous voulez quand même récupérer un peu de trafic en provenance de ces chatbots IA.
Donc à vous de voir…
