IA et RGPD : la CNIL joue les généalogistes

5 janvier 2026 à 16:44

Disposer d’une « généalogie » des modèles d’IA ouverts favoriserait-il l’exercice des droits RGPD ?

La CNIL en fait le pari. Elle expérimente en tout cas un tel outil. Fondé sur les données de la plate-forme Hugging Face, il permet de visualiser l’ascendance et la descendance des modèles. En ligne de mire, les personnes concernées par la mémorisation de leurs informations personnelles… et par le risque de ruissellement de ces informations entre les modèles.

La base de données sous-jacente est en accès libre. Mise à jour quotidiennement, elle contient des éléments fournis la plupart du temps de manière déclarative par les entités qui publient les modèles – et les datasets. On en retrouve déjà le contenu à plusieurs niveaux de l’explorateur Hugging Face, dont des arborescences sur les pages des modèles.

Deux visualisations et un mode « expert »

Sur ce socle (plus exactement sur la base de données telle qu’elle était au 1^er septembre 2025), la CNIL a structuré un graphe de connaissances. Elle y distingue cinq types d’entités : modèles, datasets, personnes, organisations et utilisateurs (qui sont soit une personne, soit une organisation).

L’outil n’affiche pas immédiatement le graphe. Il fournit d’abord quelques indicateurs à propos du modèle recherché (sa date de publication et la tâche qu’il remplit, ainsi que le nombre de téléchargements, de citations et de mentions « j’aime »), puis présente les parents et les enfants importants, en priorisant ceux qui ont le plus de citations, puis de téléchargements.

Un mode « recherche experte » permet de filtrer le graphe (types de nœuds, types de relations) et de le télécharger.

Hugging Face invité à permettre une meilleure identification des responsables de publication

On est censé pouvoir trouver un modèle en recherchant son nom ou l’identifiant de son repo. Dans la pratique, seule cette dernière option apparaît produire des résultats. La saisie semi-automatique accuse une certaine latence (plusieurs secondes) et des erreurs surviennent parfois.

La CNIL envisage une fonctionnalité d’envoi automatisé de requête à tous les modèles suspectés. L’analyse de leurs réponses permettrait théoriquement de déterminer lesquels régurgitent des données personnelles.
Un formulaire pourrait ensuite permettre de contacter les auteurs des modèles problématiques. Une évolution de la plate-forme Hugging Face pourrait toutefois être nécessaire pour une meilleure identification des responsables de publication, suggère la commission…

À consulter en complément :

L’IA générative peut-elle vraiment « désapprendre » ?
IA et RGPD : la CNIL boucle son corpus de fiches pratiques
De France Travail à la RATP, les leçons du « bac à sable » IA de la CNIL

Illustration générée par IA

The post IA et RGPD : la CNIL joue les généalogistes appeared first on Silicon.fr.