Lorsqu’on prépare un dataset mixte pour le fine-tuning, il est possible de tirer parti d’une « propriété additive ».
Le rapport technique du modèle Phi-4 (de Microsoft) comprend une remarque à ce sujet.
La propriété en question permet d’optimiser le mix de données domaine par domaine puis de concaténer les poids qui en résultent, sans perte.
Open-R1 en a fait usage. Le projet, emmené par Hugging Face, a démarré en janvier 2025. Son objectif : créer une reproduction ouverte de DeepSeek-R1, en développant les « pièces manquantes ». À savoir datasets et code d’entraînement.
Le plan est décliné en trois temps :
Être capable de distiller un ensemble de données de raisonnement de haute qualité à partir de DeepSeek-R1
Répliquer le pipeline d’apprentissage par renforcement de R1-Zero
Appliquer cette combinaison à des modèles de base pour en faire des modèles de raisonnement
Les maths d’abord
Open-R1 a d’abord centré ses travaux sur un dataset de raisonnement mathématique : OpenR1-Math-220k. Publié sous licence Apache 2.0, il couvre 400 000 problèmes (2 à 4 traces pour chacun) tirés de NuminaMath-1.5. Filtré, il en conserve 220 000. On l’a divisé en deux parties. L’une, dite « par défaut », regroupe 94 000 problèmes et engendre les meilleures performances. L’autre, dite « étendue », réunit 131 000 problèmes… et ne produit pas d’aussi bons résultats, problablement parce que les questions sont plus simples.
En faisant travailler Qwen-7B-Math-Instruct pour trois cycles sur la partie « par défaut », Hugging Face affirme être parvenu à égaler la performance de DeepSeek-Distill-Qwen-7B. Il a, en l’occurrence, obtenu le même score sur AIME 25 (40) et fait un peu moins bien sur MATH-500 (90,6 vs 91,6).
Le code ensuite
Les travaux se sont ensuite étendus au codage, avec la production d’un dataset basé sur les compétitions CodeForces. Au menu, environ 10 000 problèmes (avec jusqu’à 5 traces), dont 60 % accompagnés de l’explication de la solution correcte par les organisatieurs.
Sur cette base, il a été demandé à R1 de produire des chaînes de pensée (environ 100 000 exemples), aboutissant au datasetCodeForces-CoTs. Publié sous licence ODC-BY, il a servi à affiner Qwen-2.5-Coder-Instruct 7B et 32B. En ont découlé les modèles OlympicCoder. Mis à l’épreuve sur la dernière Olympiade internationale d’informatique, ils ont rivalisé avec des LLM à l’état de l’art (le 32B s’en sortant même mieux que R1.
La science pour finir
Une partie de CodeForces-CoTs (83 000 traces de problèmes Python et C++) et d’OpenR1-Math-220k (la partie « par défaut ») a finalement été combinée à un sous-ensemble du dataset de post-entraînement de Llama Nemotron pour former Mixture-of-Thoughts. Au code et aux maths s’est donc ajoutée la science, pour un total d’environ 350 000 traces. Aucune licence n’a été ajoutée (c’est une demanderégulière).
Cette base, appliquée à une variante de Qwen-2.5-Math-7B (fréquence RoPE de base étendue à 300k pour permettre l’entraînement sur une fenêtre de 32k), a produit OpenR1-Distill-7B. Le modèle s’est montré plus performant que R1-Distill-Qwen-7B sur AIME 2024 (52,7 vs 51,3), GPQA Diamond (52,8 vs 52,4) et LiveCodeBench v5 (39,4 vs 37,4). Ces scores s’entendent en pass@1 (un essai, avec 4 à 64 réponses par requête en fonction des tâches), à température 0,6 et top_p 0,95.
L’Autorité de la concurrence vient de rendre une décision importante dans le secteur des moteurs de recherche en rejetant la plainte déposée par Qwant à l’encontre de Microsoft.
Le moteur de recherche français l’accusait de plusieurs pratiques anticoncurrentielles.
Depuis 2016, Qwant s’appuie partiellement sur la technologie de Bing pour fournir ses résultats de recherche. C’est dans le cadre de cette relation commerciale que sont nés les différends. Qwant reprochait à Microsoft d’abuser de sa position dominante et de maintenir une situation de dépendance économique à son égard.
Les griefs portaient sur plusieurs points : des pratiques d’exclusivité et de ventes liées, des restrictions empêchant le développement d’un modèle d’intelligence artificielle, et une discrimination dans l’accès aux services de publicité en ligne.
Pour comprendre cette affaire, il faut saisir le fonctionnement du marché des moteurs de recherche. Lorsqu’un internaute effectue une recherche, il obtient deux types de résultats : les résultats algorithmiques classés par pertinence, et les résultats payants sélectionnés via un système d’enchères.
Hormis Google et Microsoft, la plupart des moteurs de recherche doivent acquérir ces résultats dans le cadre de contrats de syndication via leurs offres Google Ads et Microsoft Advertising qui dominent le secteur de la publicité liée aux recherches.
Pas de preuves suffisantes selon l’Autorité
L’Autorité de la concurrence a estimé que Qwant n’apportait pas de preuves suffisantes pour démontrer la position dominante de Microsoft sur le marché de la syndication de résultats de recherche.
Premier élément déterminant : Google propose également des services de syndication. Surtout, la Commission européenne considère que Google détient une position ultradominante sur le marché de la publicité en ligne liée aux recherches. Cette prééminence de Google exerce une pression concurrentielle importante sur Microsoft, rendant improbable une position dominante de ce dernier sur le marché de la syndication.
Concernant la dépendance économique alléguée, l’Autorité reconnaît que Microsoft représente une part importante du chiffre d’affaires de Qwant. Cependant, les autres critères ne sont pas réunis. La notoriété de Bing reste relative face à celle de Google. Par ailleurs, Qwant dispose de capacités de recherche propres et est même le seul moteur autorisé contractuellement par Microsoft à développer sa propre technologie dans ce cadre.
Un élément factuel a particulièrement pesé dans la décision : en juin 2025, Qwant a lancé avec Ecosia une offre de syndication basée sur leur propre technologie de recherche, European Search Perspective. Cette initiative démontre que des alternatives existent.
L’Autorité a également examiné en détail chacune des pratiques dénoncées par Qwant. Pour l’exclusivité d’approvisionnement en publicités, la vente liée de résultats organiques et payants, la discrimination dans l’accès à la publicité, et les restrictions sur l’intelligence artificielle, elle a conclu qu’aucun élément suffisamment probant ne soutenait ces accusations.
Wallix, spécialiste de la sécurisation des identités et des accès rachète Malizen, spécialisée dans l’analyse comportementale des utilisateurs grâce à l’intelligence artificielle. L’opération, d’une valeur de 1,6 million € va renforcer les capacités d’analyse proactive et de détection de menaces au sein des solutions du groupe.
Basée à Rennes au cœur du Pôle d’excellence cyber, Malizen est issue de travaux de recherche menés à l’Inria et de l’Université de Rennes 1, sous la direction de son fondateur Christopher Humphries. Sa technologie, dite de User Behaviour Analytics, repose sur l’analyse du comportement des utilisateurs -humains et machines – pour identifier les anomalies et anticiper les cyberattaques.
Wallix prévoit d’intégrer ces capacités dès 2026 dans ses suites logicielles IAM (Identity and Access Management) et PAM (Privileged Access Management) pour renforcer la résilience des infrastructures IT et OT de ses clients.
Le rapprochement doit permettre à Wallix d’adresser plus efficacement plusieurs segments de marché : les grands comptes confrontés à des volumes d’accès élevés, les entreprises industrielles soucieuses d’autonomie stratégique et les MSP cherchant à renforcer leur capacité d’analyse à grande échelle.
Inria, l’Institut national de recherche en sciences et technologies du numérique, et Doctolib vont collaborer pour développer des modèles d’intelligence artificielle cliniques fiables et souverains dans le secteur de la santé, indiquent les deux acteurs.
Première étape : la création d’une équipe de recherche réunissant doctorants, postdoctorants et ingénieurs de recherche des deux organisations pour travailler sur plusieurs axes stratégiques.
Quatre axes de recherche prioritaires
Elle travaillera sur le développement d’une IA médicale de confiance, notamment la protection des données, la transparence et le respect du patient. Les chercheurs s’attacheront à créer des systèmes capables de suivre le raisonnement médical en comprenant les liens de cause à effet, en croisant symptômes, historique médical, contexte de vie et connaissances médicales pour estimer l’état de santé et son évolution.
Un troisième axe concerne le choix des meilleures actions de santé personnalisées, qu’il s’agisse de dépistages, vaccins ou changements de mode de vie. Cela nécessite des systèmes de raisonnement causal capables d’apprendre de données réelles tout en tenant compte des risques, coûts et préférences individuelles.
Enfin, l’équipe travaillera sur des systèmes capables de motiver durablement les changements de comportement en accompagnant les patients dans la durée, en s’adaptant à leur psychologie et leurs contraintes.
Deux projets en cours
L’équipe a débuté ses travaux sur deux sujets spécifiques. Le premier vise à optimiser le parcours de soins des patients en développant un modèle génératif capable de recommander des séquences optimales d’actions cliniques, afin de réduire l’errance médicale et améliorer la pertinence des soins.
Le second projet concerne l’établissement de diagnostics cliniques assistés par IA. L’équipe développe des méthodes pour quantifier l’incertitude des hypothèses diagnostiques et les faire évaluer par des praticiens sur des cas réels, l’IA restant un outil d’aide sans remplacer le jugement clinique.
Selon François Cuny, Directeur Général Délégué à l’Innovation chez Inria, ce partenariat s’inscrit dans une volonté de renforcer la collaboration entre Inria et les industriels français dans le secteur de la santé, en montant des projets communs, en soutenant les dynamiques entrepreneuriales et en attirant les meilleurs talents internationaux.
« Avec Inria et d’autres instituts de recherche de référence, nous construisons un laboratoire commun vers un système général d’intelligence médicale. Nous visons à créer en France, en Allemagne et en Europe un écosystème ouvert et collaboratif dans lequel les institutions publiques et privées pourront réaliser des avancées cliniques en IA pour améliorer la santé des personnes et celle des professionnels de santé.» explique Stanislas Niox-ChateauStanislas Niox-Chateau, le CEO, sur son compte LinkedIn.
Non, Gemini 3 Pro n’est pas partout dans l’écosystème Google. Mais tout de même…
Le groupe américain a été remarquablement prompt à intégrer ce modèle dans ses services. Jusqu’à son moteur de recherche, au niveau du « mode IA ». Initialement aux États-Unis, pour les abonnés Google AI Pro et Ultra. Lesquels auront aussi une avant-première sur le routage automatique des requêtes vers le modèle adéquat.
Un modèle aux réponses plus interactives
Avec Gemini 3 Pro arrivent les « UI génératives ». Le modèle peut, en réponse à des requêtes, afficher une vue de type magazine (visual layout) voire coder un canevas interactif (dynamic view).
Cette capacité n’est pas disponible que dans Google Search. Elle l’est aussi dans l’application Gemini. Le modèle y est accessible pour tous les utilisateurs. Il s’accompagne d’une nouvelle fonctionnalité Gemini Agent, réservée pour le moment aux abonnés AI Ultra. Inspirée de Project Mariner (agent autonome pour la navigation web), elle orchestre les tâches à plusieurs étapes en lien avec les services Google.
Antigravity, vitrine pour le codage agentique
Google a également fait place nette à Gemini 3 Pro dans ses outils développeurs*. Parmi eux, un nouveau venu : Antigravity. Cet IDE est disponible en preview sur Windows, Mac et Linux. À l’interface d’édition de code, il en associe une autre : un centre de contrôle d’agents, articulé en espaces de travail, avec une messagerie centralisée. Sur cette UI, pas de code : les agents produisent des « artefacts » (listes de tâches, plans d’implémentation, résumés des actions réalisées) sur lesquels l’utilisateur peut donner son feed-back sans que l’exécution soit interrompue. Gemini 3 Pro peut faire office de modèle principal – comme Claude Sonnet 4.5 et GPT-OSS – avec deux modes de pensée : dynamique/élevée (high) ou faible (low).
Des niveaux de vision en plus des niveaux de pensée
On retrouve ce réglage – en attendant une option medium supplémentaire – sur l’API Gemini, avec le paramètre thinking_level. Il n’est pas spécifique à Gemini 3 Pro, au contraire du paramètre media-resolution. Celui-ci détermine le nombre maximal de tokens alloués à la vision. Il se règle pour chaque média entrant ou de façon globale. S’il n’est pas défini, des valeurs par défaut sont utilisées (1120 tokens par image, 560 par page de PDF, 70 par frame de vidéo ou 280 pour les vidéos qui contiennent beaucoup de texte).
La tarification de Gemini 3 Pro sur l’API Gemini :
En entrée : 2 $ par million de tokens pour les requêtes de moins de 200 000 tokens (4 $ sinon)
En sortie : 12 $ par million de tokens pour les requêtes de moins de 200 000 tokens (18 $ sinon)
Mise en cache du contexte : 0,20 $ par million de tokens pour les requêtes de moins de 200 000 tokens (0,40 $ sinon) ; stockage : 4,50 $/heure par million de tokens
Ancrage Google Search (pas encore disponible) : 5000 requêtes gratuites, puis 14 $ les 1000
Pour rappel, Gemini 2.5 Pro est respectivement à 1,25 et 2,50 $ en entrée ; à 10 et 15 $ en sortie.
Au niveau 1 de l’API, les limites sont à 50 requêtes par minute, 1000 tokens par minute et 1000 requêtes par jour.
Au niveau 2 (au moins 250 $ dépensés), elles montent à 1000 RPM, 5 millions de TPM et 50 000 RPJ. Au niveau 3 (au moins 1000 $), on passe à 2000 RPM et 8 millions de TPM, sans plafond quotidien de requêtes.
Gemini 3 Pro a aussi un mode image, à 2 $ par million de tokens en entrée (texte/image) ; et, en sortie, 12 $ (texte/réflexion) ou 120 $ (images). Il est diffusé dans les produits Google sous la marque Nano Banana Pro (dans la lignée de Nano Banana, fondé sur Gemini 2.5 Flash).
Des éloges… notamment sur le codage
Nano Banana Pro semble avoir plu à Andrej Karpathy, membre fondateur d’OpenAI et ancien directeur de l’IA de Tesla. L’intéressé dit avoir plus globalement une impression positive sur Gemini 3 Pro, entre personnalité, humour, écriture et vibe coding.
Gemini Nano Banana Pro can solve exam questions *in* the exam page image. With doodles, diagrams, all that.
ChatGPT thinks these solutions are all correct except Se_2P_2 should be « diselenium diphosphide » and a spelling mistake (should be « thiocyanic acid » not « thoicyanic »)
Marc Benioff, le patron de Salesforce, s’est montré plus emphatique – à son habitude : il ne « reviendra pas en arrière ».
Holy shit. I’ve used ChatGPT every day for 3 years. Just spent 2 hours on Gemini 3. I’m not going back. The leap is insane — reasoning, speed, images, video… everything is sharper and faster. It feels like the world just changed, again. https://t.co/HruXhc16Mq
Gemini 3 created this playable maze in just three prompts
First, it created a top down Gemini maze, and then we asked it to build an app that allows me to upload a pixel maze, and turn it into a playable Three JS scene.
Ces capacités ne font pas l’unanimité, cependant. Les témoignages dans la communauté Cursor l’illustrent. On y pointe notamment un taux d’hallucinations important et une difficulté à suivre les instructions, en dépit d’aptitudes notables pour la planification, entre autres face à OpenAI Codex. Le phénomène apparaît, selon certains, moins prononcé dans Antigravity.
Divers retours sur le subreddit Gemini mettent pareillement en lumière les hallucinations de Gemini 3 Pro. Par exemple :
Confusion de deux offres d’emploi que le modèle devait analyser
Attribution répétée des caractéristiques d’un personnage à un autre lors d’une session d’écriture créative
Invention de variables sur un exercice visant à créer des outputs basés sur des combinaisons de 4 variables
Gemini 3 Pro est très utile… lorsqu’il vous écoute, résume un utilisateur à propos du suivi des instructions. Il n’est pas seul à constater que le modèle a parfois tendance à l’arbitraire.
D’autres évoquent une certaine paresse, préjudiciable en particulier à l’écriture créative. Le reflet, en quelque sorte, des promesses de Google : un modèle « concis » et « direct », « sans clichés ni flatterie »…
L’effet benchmark
Au-delà des performances que communique Google, Gemini 3 Pro se distingue sur le benchmark LMArena. Il s’est hissé en tête du classement sur plusieurs évaluations. Au dernier pointage :
Texte : 1492 points (contre 1482 pour Grok 4.1 Thinking et 1466 pour Claude Opus 4.5)
Vision : 1324 points (contre 1249 pour Gemini 2.5 Pro et 1237 pout GPT-4o)
Génération d’images : 1242 points (contre 1161 pour Hunyan Image 3.0 de Tencent et 1158 pour Gemini 2.5 Flash)
Édition d’images : 1371 points (contre 1330 pour Gemini 2.5 Flash et 1311 pour Seedream 4 de ByteDance)
Les performances de Gemini 3 Pro sont notables sur un autre benchmark : ARC-AGI-2. Celui-ci se focalise sur les connaissances qui sont « innées » chez l’humain ou acquises très tôt dans la vie. Ainsi, il n’inclut par exemple pas de tâches touchant aux langues, qui sont des acquis culturels. Cette approche est censée illustrer les capacités de généralisation. Elle implique, entre autres, des exercices d’interprétation symbolique (comprendre la signification de symboles visuels) et de raisonnement compositionnel (application simultanée de plusieurs règles interdépendantes).
Gemini 3 Pro Deep Think atteint, sur ARC-AGI-2, un score de 45,1 %, pour un coût de 77,16 $ par tâche. L’écart est net avec Claude Opus 4.5 Thinking : qui est toutefois moins onéreux : 37,6 % et 2,40 $ par tâche en 64k ; 30,6 % et 1,29 $ par tâche en 32k ; 22,8 % et 0,79 $ par tâche en 16k. Suivent GPT-5 Pro (18,3 % et 7,14 $ par tâche) et Grok 4 Thinking (16 % et 2,17 $ par tâche).
Congrats to Google on Gemini 3! Looks like a great model.
* Gemini 3 Pro est aussi disponible dans la dernière version d’Android Studio (y compris en usage gratuit), dans les SDK Firebase AI Logic (abonnement Blaze ; pas encore possible de régler le niveau de raisonnement) et dans le CLI Gemini (abonnement Ultra et clés d’API Gemini ; à venir dans Gemini Code Assist Enterprise ; liste d’attente pour les autres utilisateurs). Ainsi que dans divers services tiers (Cursor, GitHub, JetBrains, Manus, Replit…).