De quoi des paramètres relèvent-ils juridiquement parlant ? À l’instar des poids, ils ne sont en tout cas ni des logiciels, ni du code source, ni des données.
L’OSI (Open Source Initiative) a étudié cet aspect dans le cadre de ses travaux sur l’intelligence artificielle. Elle avait amorcé un grand tour d’horizon du sujet à l’été 2022. Avec une question centrale : qu’est-ce que l’IA open source ? Ou, sous un autre angle : dans quelle mesure la définition de l’open source (OSD, Open Source Definition) peut-elle s’appliquer à l’IA, tant cette dernière estompe la frontière entre code et données ?
Avec la perspective du règlement européen sur l’intelligence artificielle, la réflexion s’était accélérée. Jusqu’à la publication, le 28 octobre 2024, d’une définition de l’IA open source.
La qualification juridique des paramètres n’y est pas abordée. L’OSI précise toutefois, en annexe, qu’ils peuvent être libres par nature, ou rendus libres par le biais d’une licence ou d’un autre instrument légal.
Trop d’incertitude juridique pour demander d’ouvrir toutes les données
Entre autres débats, il y eut celui sur les données d’entraînement : lesquelles faut-il mettre à disposition pour entrer dans les clous de l’IA open source ?
Certains promeuvent un accès sans contraintes au nom de la reproductibilité, de la transparence et de la sécurité.
L’OSI n’en a pas décidé ainsi. Son argument : une telle approche ferait de l’IA open source une niche, vu l’éventail de cas où le partage de tout le dataset est illégal ou techniquement impossible.
En la matière, l’un des obstacles s’appelle le copyright… dont l’OSI s’est d’ailleurs fixé l’objectif de limiter l’extension. Elle estime qu’il est en tout cas nécessaire de le mettre en balance avec les besoins de la société. Dans cette optique, elle s’est prononcée en faveur, sinon de l’ouverture des données, au moins de la notion d’usage raisonnable. Son président exécutif est allé jusqu’à suggérer de faire sans la notion de copyright pour ce qui est des modèles d’IA. Son postulat : entre vie privée, protection des consommateurs et respect des droits humains, la protection des jeux de données est déjà bien encadrée.
Beaucoup de savoirs autochtones sont protégés par des mécanismes non compatibles avec des cadres ultérieurs régissant l’exclusivité et le partage de droits, ajoute l’OSI. Il existe de surcroît des cas où les conditions d’utilisation de données publiques peuvent apporter à une entité A l’assurance de les exploiter librement, sans pour autant lui permettre de procurer les mêmes garanties à une entité B. Les notions de fair use et de domaine public en sont des illustrations, tant leurs définitions diffèrent entre les pays.
Les éléments à fournir pour être dans les clous de l’IA open source
Dans ce contexte, l’OSI a choisi d’exiger la fourniture d’« informations sur les données ». Impérativement suffisantes pour qu’une personne compétente puisse recréer un système « substantiellement équivalent ».
Les infos en question doivent couvrir :
- Le périmètre et les caractéristiques des données d’entraînement
- Leur origine (y compris les processus d’obtention et de sélection)
- Les procédures d’annotation, de traitement et de filtrage
Des éléments supplémentaires peuvent être exigés en fonction du dataset. En l’occurrence, la liste des données publiques exploitées et/ou de celles obtenues auprès de tierces parties. Avec, dans l’un et l’autre cas, des informations sur la provenance et les conditions d’accès.
Côté code, il faut procurer celui utilisé pour le prétraitement des données, l’entraînement/validation/test et l’inférence. Ainsi que les outils et bibliothèques sous-jacents. On y ajoutera les poids du modèle et autres paramètres de configuration (par exemple, des checkpoints-clés et l’état final de l’optimiseur ; métadonnées de modèle et échantillons de sorties sont facultatifs).
| Obligatoire | Facultatif | |
| Données | Informations sur les données Article de recherche Rapport technique Data card |
Évaluation (+ résultats) |
| Code | Prétraitement Entraînement Validation Test Bibliothèques / outils |
Inférence lors des benchmarks Évaluation |
| Modèle | Architecture Paramètres |
Carte Outputs Métadonnées |
Le code, plus important que les données ?
D’après l’OSI, cette approche conserve celle de l’OSD. Laquelle n’impose pas une reproductibilité et une transparence totales, mais les permet (builds reproductibles). De plus, on peut toujours formuler davantage d’exigences, comme le Digital Public Goods Standards et les Recommandations GNU pour les distributions systèmes libres le font vis-à-vis de l’OSD.
Au final, l’utilisateur aurait les mêmes possibilités qu’avec des licences permissives. Tout du moins au sens où il pourrait conserver les insights obtenus à partir du code et de la description des données d’entraînement non partageables, puis construire sur cette base en y associant ses propres données non partageables et en rendant disponibles les insights obtenus en continuant l’entraînement.
Plus globalement, nous assure-t-on, le code d’entraînement et de traitement des données apparaît plus important que le dataset dans l’optique d’une modification libre.
En miroir à l’OSD, un système d’IA open source doit garantir quatre libertés :
- Utilisation à toutes fins sans avoir à demander d’autorisation
- Étude de son fonctionnement et inspection de ses composantes
- Modification à toutes fins, y compris des sorties
- Redistribution sans restriction d’utilisation
L’OSI recense pour le moment 5 modèles conformes : Amber et CrystalCoder (LLM360), OLMo (AI2), Pythia (EleutherAI) et T5 (Google). D’autres le seraient probablement s’ils modifiaient leurs conditions de licence, ajoute-t-elle. Parmi eux, BLOOM (BigScience), Falcom (TII) et Starcoder2 (BigCode).
Une centaine d’organisations ont adhéré à la définition de l’IA open source. Côté français, il y a l’APELL, le CNLL, Linagora, Probabl.AI, Sopra Steria et code.gouv.fr.
Illustration
The post La définition de l’IA open source demeure fondée sur un compromis appeared first on Silicon.fr.



