Vue lecture

Après les datasets, Open-R1 cherche à reproduire le pipeline de DeepSeek

27 novembre 2025 à 16:06

Lorsqu’on prépare un dataset mixte pour le fine-tuning, il est possible de tirer parti d’une « propriété additive ».

Le rapport technique du modèle Phi-4 (de Microsoft) comprend une remarque à ce sujet.

La propriété en question permet d’optimiser le mix de données domaine par domaine puis de concaténer les poids qui en résultent, sans perte.
Open-R1 en a fait usage. Le projet, emmené par Hugging Face, a démarré en janvier 2025. Son objectif : créer une reproduction ouverte de DeepSeek-R1, en développant les « pièces manquantes ». À savoir datasets et code d’entraînement.

Le plan est décliné en trois temps :

Être capable de distiller un ensemble de données de raisonnement de haute qualité à partir de DeepSeek-R1
Répliquer le pipeline d’apprentissage par renforcement de R1-Zero
Appliquer cette combinaison à des modèles de base pour en faire des modèles de raisonnement

Les maths d’abord

Open-R1 a d’abord centré ses travaux sur un dataset de raisonnement mathématique : OpenR1-Math-220k. Publié sous licence Apache 2.0, il couvre 400 000 problèmes (2 à 4 traces pour chacun) tirés de NuminaMath-1.5. Filtré, il en conserve 220 000. On l’a divisé en deux parties. L’une, dite « par défaut », regroupe 94 000 problèmes et engendre les meilleures performances. L’autre, dite « étendue », réunit 131 000 problèmes… et ne produit pas d’aussi bons résultats, problablement parce que les questions sont plus simples.

En faisant travailler Qwen-7B-Math-Instruct pour trois cycles sur la partie « par défaut », Hugging Face affirme être parvenu à égaler la performance de DeepSeek-Distill-Qwen-7B. Il a, en l’occurrence, obtenu le même score sur AIME 25 (40) et fait un peu moins bien sur MATH-500 (90,6 vs 91,6).

Le code ensuite

Les travaux se sont ensuite étendus au codage, avec la production d’un dataset basé sur les compétitions CodeForces. Au menu, environ 10 000 problèmes (avec jusqu’à 5 traces), dont 60 % accompagnés de l’explication de la solution correcte par les organisatieurs.

Sur cette base, il a été demandé à R1 de produire des chaînes de pensée (environ 100 000 exemples), aboutissant au dataset CodeForces-CoTs. Publié sous licence ODC-BY, il a servi à affiner Qwen-2.5-Coder-Instruct 7B et 32B. En ont découlé les modèles OlympicCoder. Mis à l’épreuve sur la dernière Olympiade internationale d’informatique, ils ont rivalisé avec des LLM à l’état de l’art (le 32B s’en sortant même mieux que R1.

La science pour finir

Une partie de CodeForces-CoTs (83 000 traces de problèmes Python et C++) et d’OpenR1-Math-220k (la partie « par défaut ») a finalement été combinée à un sous-ensemble du dataset de post-entraînement de Llama Nemotron pour former Mixture-of-Thoughts. Au code et aux maths s’est donc ajoutée la science, pour un total d’environ 350 000 traces. Aucune licence n’a été ajoutée (c’est une demande régulière).

Cette base, appliquée à une variante de Qwen-2.5-Math-7B (fréquence RoPE de base étendue à 300k pour permettre l’entraînement sur une fenêtre de 32k), a produit OpenR1-Distill-7B. Le modèle s’est montré plus performant que R1-Distill-Qwen-7B sur AIME 2024 (52,7 vs 51,3), GPQA Diamond (52,8 vs 52,4) et LiveCodeBench v5 (39,4 vs 37,4). Ces scores s’entendent en pass@1 (un essai, avec 4 à 64 réponses par requête en fonction des tâches), à température 0,6 et top_p 0,95.

Illustration principale générée par IA

The post Après les datasets, Open-R1 cherche à reproduire le pipeline de DeepSeek appeared first on Silicon.fr.

Gradio 6 débarque pour créer des interfaces encore plus fluides

Korben

Par :Korben

27 novembre 2025 à 06:30

Si vous bidouiller un peu de machine learning et que vous avez la flemme de coder une interface web from scratch pour montrer vos jolis modèles, vous connaissez probablement Gradio , cette librairie Python qui permet de créer des démos interactives en quelques lignes de code.

Hé bien, excellente nouvelle, la version 6 vient de sortir et elle apporte pas mal de nouveautés intéressantes.

La grosse news de cette mise à jour , c’est d’abord la refonte complète de l’architecture avec le passage à Svelte 5 . Pour ceux qui s’en fichent du frontend, ça veut dire concrètement que vos apps seront plus légères et plus rapides à charger. L’équipe a aussi bossé sur l’optimisation des files d’attentes (quand y’a du monde sur votre démo), surtout pour les serveurs MCP (Model Context Protocol), donc si vous hébergez des trucs sur Hugging Face Spaces, vous devriez sentir la différence.

Côté fonctionnalités, y’a aussi quelques ajouts sympas comme le support natif des sous-titres pour les vidéos et l’audio, une nouvelle interface “MultimodalTextbox” améliorée pour le mobile (qui était franchement pas terrible avant), et pour ceux qui font des apps multipages, y’a maintenant un composant “Navbar” dédié à ça !

Le truc qui va plaire aux devs aussi, c’est qu’on peut désormais écrire des composants web personnalisés directement en HTML/JavaScript inline dans le code Python. Comme ça, plus besoin de sortir l’artillerie lourde avec des outils de build externes. Vous collez juste votre HTML, votre JS, et c’est parti mon kiki.

Par contre, attention si vous avez des projets existants… Y’a des changements qui vont casser des trucs. Par exemple, le format tuple dans le Chatbot a été supprimé, le composant Sketch est déprécié, et pas mal de paramètres ont bougé dans les composants graphiques natifs. L’équipe a quand même prévu un guide de migration avec des warnings de dépréciation pour vous aider à faire la transition.

A partir de maintenant, seule la branche 6.x sera maintenue, donc si vous êtes encore sur une vieille version, c’est le moment de migrer. La mise à jour se fait classiquement avec un

pip install --upgrade gradio

Notez que Gradio 6 nécessite Python 3.10 minimum et le support de Python 3.14 a été ajouté pour vous, les early adopters ^^.

Voilà, si vous faites du ML ou autre et que vous voulez montrer vos démos sans vous prendre la tête avec du React ou du Vue, Gradio reste une valeur sûre, et avec cette version 6 qui arrive, ce sera encore plus fluide et rapide !

Source

Quelles sont les meilleures alternatives gratuites à ChatGPT ?

Numerama.com

Par :Julien Lausson

18 novembre 2025 à 13:41

ChatGPT occupe désormais une place notable dans notre quotidien. Le chatbot d'OpenAI excelle pour des tâches parfois chronophages et permet de gagner beaucoup de temps. Mais il n'est pas la seule IA générative performante, une bonne nouvelle puisque ChatGPT n'est pas infaillible. En cas de panne, il existe plusieurs alternatives à ChatGPT à considérer. Voici les meilleures.

EuroLLM - Le LLM européen qui tourne sur votre laptop

Korben

Par :Korben

6 novembre 2025 à 09:00

Faire tourner un modèle de langage européen sur votre machine sans avoir besoin d’un serveur surpuissant branché sur une centrale nucléaire, c’est maintenant possible, les amis ! Hé oui, EuroLLM vient de prouver qu’on pouvait faire tourner un modèle à 9 milliards de paramètres dans un peu moins de 6 GB de RAM sur un simple laptop.

Une seule commande Ollama , et c’est parti mon kiki !!!

Bien sûr, il est encore loin des gros modèles proprio comme GPT-5 mais c’est le enfin le premier LLM européen que VOUS pouvez faire tourner en local. C’est respectueux de votre vie privée, des droits d’auteurs et c’est gratuit !

Un projet 100% européen

EuroLLM, c’est en réalité une coalition de labos européens : Instituto Superior Técnico (Lisbonne), University of Edinburgh , Université Paris-Saclay , Unbabel , et d’autres et c’est financé par Horizon Europe et l’ EuroHPC , et ce modèle supporte les 24 langues officielles de l’UE, plus 11 langues supplémentaires (arabe, chinois, hindi, japonais, coréen, russe, turc…).

EuroLLM-9B , le modèle de base, a été entraîné sur 4 trillions de tokens avec le supercalculateur MareNostrum 5 à Barcelone (400 GPUs Nvidia H100) et l’architecture utilise du Grouped Query Attention, RoPE, SwiGLU et RMSNorm, comme tout LLM moderne qui se respecte.

Mais il existe d’autres versions comme EuroLLM-1.7B pour smartphones et bientôt EuroLLM-22B pour plus de puissance, ainsi qu’une version vision-language (EuroVLM-9B) et un modèle Mixture-of-Experts (EuroMoE-2.6B).

Et surtout c’est sous licence Apache 2.0. Donc l’usage commercial est autorisé, vous pouvez le fine-tuner sur vos données, et les modifications sont libres, sans redevance à payer. Ce n’est pas la première fois qu’il y a des LLM européens mais ils étaient soit sous licence trop restrictives ou un peu trop lourd pour être utilisé localement par les gens normaux comme vous et moi.

Maintenant comment l’installer ?

La méthode la plus simple, c’est via Ollama :

ollama run hf.co/bartowski/EuroLLM-9B-Instruct-GGUF

Ollama télécharge le modèle en version GGUF (format optimisé CPU/GPU), et vous pouvez commencer à discuter. Il existe aussi une version pré-packagée alibayram/erurollm-9b-instruct (attention, erurollm avec un “u”), quantized en Q4_K_M pour réduire la taille à 5,6 GB.

Si vous préférez Python et Hugging Face Transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

inputs = tokenizer("Explique-moi ce qu'est un LLM en français simple", return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0]))

Une fois téléchargé, le modèle reste en cache local. Vous pouvez alors l’utiliser offline, sans connexion internet. Et pour les machines avec moins de RAM, la version 1.7B tourne même sur des Raspberry Pi :

ollama run cas/eurollm-1.7b-instruct-q8

Alors pourquoi c’est important ?

EuroLLM ouvre l’IA européenne à des cas d’usage impossibles avec des API cloud. Par exemple une administration publique ne peut pas envoyer ses documents dans le cloud d’OpenAI… ce serait tout livrer aux américains. Elle peut donc fine-tuner EuroLLM localement. Un journaliste en zone sensible sans connexion fiable peut aussi embarquer le modèle sur son ordi portable. Même un chercheur qui manipule des données médicales confidentielles peut le faire en toute confiance avec EuroLLM puisque tout reste sur sa machine.

C’est cool quand même que l’Europe nous file un modèle gratuit qu’on peut installer chez soi et utiliser sans limite. Après c’est vrai que EuroLLM ne bat pas GPT-4 (pas encore) mais il est suffisamment bon pour 80% des cas d’utilisation réels tels que des résumés, de la traduction, des questions-réponses simples, de la génération de code basique.

La roadmap prévoit d’ajouter de la vision et de la voix aux modèles. D’ailleurs, comme je vous le disais, EuroVLM-9B est déjà en preview sur Hugging Face , ce qui ouvre la voie à de l’OCR multilingue, de l’analyse de documents visuels, ou encore à la création d’assistants vocaux dans n’importe quelle langue…

Voilà j’ai trouvé ça cool à tester et un grand merci à Letsar pour le partage !