Vue normale

Reçu avant avant-hier

HLE ( Humanity's Last Exam )

11 février 2025 à 11:43

Les Benchmarks sont des outils importants pour suivre les progrès des grands modèles de langage (LLM). Cependant, les Benchmarks ne suivent pas le rythme de la difficulté : Les LLM atteignent aujourd'hui une précision de plus de 90 % sur des benchmarks populaires tels que MMLU, ce qui limite la mesure informée des capacités des LLM les plus avancés. En réponse, nous présentons Humanity's Last Exam, un benchmark multimodal à la frontière de la connaissance humaine, conçu pour être le dernier benchmark académique fermé de ce type avec une large couverture des sujets. L'ensemble des données consiste en 3 000 questions difficiles portant sur plus d'une centaine de sujets. Nous publions ces questions, tout en conservant un ensemble de test privé de questions exclues afin d'évaluer le surajustement du modèle.

Model Accuracy (%) ↑ Calibration Error (%) ↓
GPT-4o 3.3 92.5
Grok-2 3.8 93.2
Claude 3.5 4.3 88.9
Gemini Thinking 7.7 91.2
o1 9.1 93.4
DeepSeek-R1 9.4 81.8
o3-mini (medium)
10.5 92.0
o3-mini (high)* 13.0 93.2

*Model is not multi-modal, evaluated on text-only subset.
Permalink

Comment évaluer la sécurité des modèles d’intelligence artificielle

11 février 2025 à 11:39

Difficile de déterminer les risques des modèles avancés d’IA et les seuils à ne pas dépasser, alors que les différents acteurs du secteur exercent un ­contrôle total sur les audits de leurs propres produits, sans garantie d’indépendance ou de transparence.

Ces dernières années ont vu le progrès fulgurant des intelligences artificielles génératives. Les grands modèles de langage (LLM), tels qu’o3 d’OpenAI, atteignent des niveaux experts en biologie, en mathématiques, en code informatique ou encore en physique. Les benchmarks, outils conçus pour évaluer et comparer leurs performances, ont peine à suivre. Le dernier en date, Humanity’s Last Exam, composé de 3 000 questions complexes, était complété à 10 % par les meilleurs modèles lors de sa sortie, mi-janvier. Deep Research, lancé le 3 février par OpenAI, atteint le score de 26 %, et d’aucuns prédisent 50 % de réussite d’ici à la fin de l’année pour les meilleurs.

« Le problème est que ce sont des boîtes noires, de plus en plus profondes et puissantes, et qu’on ne dispose pas d’une bonne science pour évaluer leurs risques. Or, on est face à des pressions économiques et sociales considérables », alerte Nicolas Miailhe, cofondateur de Prism Eval, start-up française spécialisée dans l’évaluation des modèles avancés d’IA.

Certaines IA développent une perception de leur propre situation lors de tests avant le déploiement, comme lorsque le dernier modèle de LLM de la start-up Anthropic a soupçonné (à raison) qu’il était en train d’être testé. D’autres sous-performent en environnement de test, ce qui les fait paraître plus sûrs qu’ils ne le sont réellement, un phénomène appelé « sandbagging ». Des chercheurs d’Apollo Research ont ainsi montré qu’un autre modèle d’Anthropic, Claude 3.5 Sonnet, minore ses réponses aux questions arithmétiques s’il découvre qu’un processus d’entraînement visant à réduire ses capacités sera déclenché s’il obtient de trop bons résultats. La confiance même dans la possibilité de réaliser des évaluations fiables est ébranlée.

« La question LLM est extraordinairement complexe, reconnaît Agnès Delaborde, responsable du département IA au Laboratoire de métrologie et d’essais (LNE), l’une des principales institutions françaises chargées d’évaluer la sécurité des IA. L’une des difficultés rencontrées est que l’estimation des performances s’appuie beaucoup sur l’observation des capacités cognitives du système. » Mais la chercheuse ne s’attarde pas sur les scénarios de perte de contrôle. « On suit ces discussions-là sur les risques extrêmes, mais, pour ma part, je les classe dans ce qui relève des scénarios hypothétiques, voire des débats philosophiques. La fonction du LNE est de répondre aux besoins du marché les plus immédiats. »
Contrôle total sur les audits

Les méthodes et standards qui permettraient d’assurer la sécurité de cette technologie restant à développer, l’évaluation des modèles avancés d’IA relève pour l’instant davantage de l’art que de la science. Si ce problème « reste irrésolu tandis que les capacités de l’IA continuent de monter en flèche, la société sera de plus en plus exposée à des risques généralisés et systémiques », signale le Centre for Future Generations, un think tank indépendant.

D’autant plus qu’une pression concurrentielle internationale pousse les développeurs d’IA à déployer leurs produits rapidement, dans un désert réglementaire. OpenAI, Anthropic, Google DeepMind, Meta ou encore Mistral exercent un contrôle total sur les audits de sécurité de leurs propres produits, sans garantie d’indépendance ou de transparence. Lorsqu’ils font appel à des évaluateurs externes, ils ne fournissent pas forcément d’accès direct aux modèles ou aux données utilisés, dont dépend pourtant une évaluation rigoureuse, et imposent des accords de confidentialité limitant la capacité des évaluateurs à alerter sur les problèmes observés.

En guise de stratégie de gestion des risques, les laboratoires se contentent pour le moment de publier des documents hétérogènes, les « politiques de passage à l’échelle responsable », que Siméon Campos, directeur de l’ONG française SaferAI, aimerait voir requalifier comme « des engagements volontaires pris unilatéralement dans un contexte de compétition ».

Quinze mois après le discours de l’ex-premier ministre britannique Rishi Sunak, qui affirmait lors du sommet sur la sécurité de l’IA de Bletchley Park, en novembre 2023, que « nous ne devrions pas laisser [les laboratoires] évaluer leurs propres travaux », les regards sont tournés vers le règlement européen AI Act. Celui-ci représente la version la plus avancée en matière de gouvernance contraignante. Depuis septembre 2024, des centaines d’acteurs industriels, de la société civile et du milieu universitaire planchent sur la rédaction d’un code de bonnes pratiques sur l’intelligence artificielle. La finalisation de ce texte appelé à devenir un standard mondial en matière de sûreté de l’IA est prévue pour le printemps.

Une étape incontournable du processus réglementaire en cours est la standardisation, qui consiste à définir le langage commun entre industriels, chercheurs et régulateurs, indispensable aussi bien pour évaluer les performances des modèles, assurer leur fiabilité et leur conformité à la réglementation et définir des seuils précis de risques. L’IA s’apprête donc à vivre sa révolution métrologique. Les organismes internationaux sont déjà mobilisés pour développer ces nouveaux référentiels. La Commission européenne a ainsi chargé l’organisme de standardisation CEN-Cenelec de convertir les principes législatifs en standards techniques.
Création d’un institut en France

« On n’a pas de raison de penser que les éléments-clés de gestion du risque, mis en place dans des domaines aussi variés que l’aviation ou le nucléaire, ne pourraient pas s’appliquer au domaine de l’IA », explique Chloé Touzet, spécialiste de la gouvernance de l’IA au sein de SaferAI. Elle fait référence aux approches combinant identification des risques, définition de seuils à ne pas dépasser et mise en place de protocoles à même de garantir le maintien sous ces seuils. « Soit l’industrie se montre capable de mettre en place des mesures de réduction du risque crédibles, objectivées par des experts externes, qui offrent une confiance suffisante dans le fait qu’on va pouvoir rester sous un seuil de risque démocratiquement fixé, soit cette technologie n’est pas mûre pour être mise sur le marché, et il faut investir plus d’argent dans la recherche sur la sécurité. » SaferAI a établi une notation de la maturité des pratiques en la matière des principales entreprises d’IA. Bilan : aucune n’atteint la moyenne, pour le moment.

De son côté, la France a annoncé, le 31 janvier, la création d’un Institut national pour l’évaluation et la sécurité de l’IA (Inesia), sous la double tutelle du Secrétariat général de la défense et de la sécurité nationale et de Bercy. Cet institut fédère quatre acteurs de l’IA et de la cybersécurité : l’Agence nationale de la sécurité des systèmes d’information, l’Institut national de recherche en sciences et technologies du numérique (Inria), le Laboratoire national de métrologie et d’essais et le Pôle d’expertise de la régulation numérique. « Ces quatre entités n’ont qu’une expérience limitée de la recherche en sécurité de l’IA générale, or la capacité de recherche est cruciale dans ce domaine, car les méthodologies doivent encore être développées », rappelle Charbel-Raphaël Segerie, directeur du Centre pour la sécurité de l’IA, , qui espérait que des moyens humains et financiers seraient annoncés lors du Sommet pour l’action sur l’IA de Paris, du 6 au 11 février.

La France est le premier pays européen à rejoindre le réseau des AI Safety Institutes, constitué à la suite du sommet de Bletchley Park. Si le Royaume-Uni s’est focalisé sur l’évaluation des « risques critiques ayant le plus grand potentiel de nuisance », l’Inesia français naviguera dans les eaux plus pragmatiques de la conformité des modèles à la directive européenne, en fournissant notamment « des métriques, méthodologies et protocoles d’évaluation efficients pour permettre aux entreprises de s’autodéclarer conformes selon le règlement européen », explique-t-on à l’Inria.
Permalink

❌