OpenAI vient d'annoncer la nouvelle version GPT-5.4 , clairement destinée à un usage professionnel . Il ne s'agit pas d'une simple mise à jour, mais d'un modèle capable de gérer des tâches complexes de bout en bout , réduisant ainsi le nombre de corrections et d'exécutions inutiles. Parallèlement à GPT‑5.4, GPT‑5.4 Pro est conçu pour ceux qui ont besoin de performances optimales sur des tâches particulièrement exigeantes, à la fois dans ChatGPT et via l'API . GPT‑5.4 combine les capacités de raisonnement , d'écriture de code et de gestion de flux de travail complexes dans un seul modèle , intégrant les fonctions de GPT‑5.3‑Codex avec un accent particulier sur les outils bureautiques. Ce modèle est conçu pour mieux fonctionner avec les tableurs , les présentations et les documents , en interagissant avec les outils et environnements logiciels de manière plus cohérente et prévisible, dans le but d'accomplir un travail concret avec moins d'intervention manuelle.
Sur le benchmark GDPval , qui mesure la qualité du travail intellectuel dans 44 professions , GPT-5.4 atteint ou surpasse les professionnels humains dans 83,0 % des comparaisons, contre 70,9 % pour GPT-5.2. Dans les tâches typiques d'analyse, telles que la modélisation de feuilles de calcul , GPT-5.4 obtient un score moyen de 87,3 % , contre 68,4 % pour GPT-5.2, tandis que dans les présentations, les évaluateurs humains préfèrent les résultats de GPT-5.4 dans 68,0 % des cas pour la mise en page, la variété visuelle et l'utilisation des images. OpenAI déploie également ces fonctionnalités via un module complémentaire ChatGPT pour les clients Excel for Enterprise et via des outils dédiés aux feuilles de calcul et aux présentations dans Codex et l'API , confirmant ainsi son orientation vers le travail de bureau structuré. En matière de précision , GPT-5.4 réduit encore les hallucinations et les erreurs : par rapport à GPT-5.2, les déclarations isolées ont 33 % moins de chances d'être fausses et les réponses complètes ont 18 % moins de chances de contenir des inexactitudes, une découverte importante pour ceux qui utilisent le modèle dans des contextes sensibles.
La nouveauté la plus importante pour les développeurs et les entreprises est l'introduction de véritables capacités de calcul : GPT-5.4 peut contrôler les applications, les sites et les systèmes d'exploitation, devenant ainsi la base d' agents qui exécutent des flux de travail complexes. Le modèle peut gérer jusqu'à 1 million de jetons de contexte , ce qui est suffisant pour planifier, exécuter et vérifier des tâches très longues, en conservant en mémoire les étapes et les outils utilisés. Avec la nouvelle fonctionnalité de recherche d'outils , GPT‑5.4 n'a plus besoin de recevoir toutes les définitions d'outils dans chaque requête : il ne reçoit qu'une liste légère et récupère les détails individuels des outils lorsque cela est nécessaire, réduisant ainsi les jetons , les coûts et la latence , en particulier dans les écosystèmes comportant de nombreux connecteurs. Dans les tests d'utilisation sur PC, les chiffres sont significatifs : sur OSWorld‑Verified , qui mesure la capacité à naviguer dans un environnement de bureau via des captures d'écran et une entrée clavier/souris, GPT‑5.4 atteint un taux de réussite de 75,0 % , contre 47,3 % pour GPT‑5.2 et au-dessus de la moyenne humaine de 72,4 % .
Dans le navigateur , sur WebArena‑Verified GPT‑5.4 atteint 67,3 % de succès (avec interaction DOM et captures d'écran) contre 65,4 % pour GPT‑5.2, tandis que sur Online‑Mind2Web, il atteint 92,8 % en utilisant uniquement des captures d'écran, surpassant clairement le mode agent de ChatGPT Atlas qui se situe à 70,9 % . Pour les images, un nouveau niveau de détail « original » fait son apparition , prenant en charge jusqu'à 10,24 millions de pixels au total ou 6 000 pixels sur le côté le plus large, tandis que le niveau « élevé » atteint 2,56 millions de pixels ou 2 048 pixels sur le côté le plus large ; lors de tests internes, cela a permis d'améliorer les capacités de localisation , la compréhension des images et la précision des clics .
Du point de vue de la programmation , GPT-5.4 intègre les capacités de GPT-5.3-Codex et les combine avec des améliorations dans le travail intellectuel et l'utilisation de l'ordinateur, ce qui le rend mieux adapté aux tâches longues où le modèle utilise des outils, itère et fait avancer le travail avec moins d'intervention humaine. Dans des tests comme SWE‑Bench Pro , GPT‑5.4 égale ou surpasse GPT‑5.3‑Codex, avec une latence plus faible pour le même effort de raisonnement, une considération importante pour ceux qui intègrent le modèle dans les pipelines de développement. Dans Codex , en activant le mode /fast , GPT-5.4 atteint une vitesse de génération de jetons jusqu'à 1,5 fois supérieure à la normale, conservant la même « intelligence » mais avec une réponse plus rapide, utile pour le débogage , les itérations fréquentes et le maintien du flux de travail . Lors de tests internes, GPT-5.4 a montré de meilleurs résultats, notamment dans les tâches complexes de frontend , avec des interfaces plus raffinées tant sur le plan esthétique que fonctionnel que les modèles précédents.
En plus de la recherche d'outils , GPT‑5.4 améliore la recherche Web en mode agent : sur le benchmark BrowseComp, il enregistre un bond de 17 points de pourcentage par rapport à GPT‑5.2, tandis que GPT‑5.4 Pro atteint un nouveau sommet avec 89,3 % . En pratique, GPT‑5.4 Thinking gère mieux les requêtes qui nécessitent de collecter des informations sur plusieurs sites, de maintenir une recherche persistante sur plusieurs étapes et de synthétiser les sources en réponses plus claires et plus réfléchies , en particulier pour les requêtes classiques de type « aiguille dans une botte de foin ». Du point de vue de la contrôlabilité , GPT‑5.4 Thinking in ChatGPT introduit un préambule pour les requêtes longues et complexes : le modèle expose son plan de travail dès le départ, et l'utilisateur peut modifier les instructions en cours de réponse , sans avoir à recommencer. Ce modèle est conçu pour « réfléchir plus longtemps » aux tâches difficiles tout en conservant une meilleure conscience des étapes précédentes de la conversation, afin de pouvoir gérer des flux de travail étendus et des invites complexes sans perdre en cohérence.
GPT‑5.4 est déployé progressivement sur ChatGPT et Codex et est déjà disponible via API sous le nom de modèle `gpt-5.4` ; la variante GPT‑5.4 Pro est disponible sous le nom de `gpt-5.4-pro` pour ceux qui exigent des performances maximales. Dans ChatGPT , GPT‑5.4 Thinking est disponible immédiatement pour les utilisateurs Plus , Team et Pro , remplaçant GPT‑5.2 Thinking : ce dernier restera sélectionnable pendant trois mois dans la section Modèles hérités , avant d’être retiré le 5 juin 2026 . OpenAI précise que GPT-5.4 est le premier modèle de raisonnement de base à intégrer les capacités de codage de GPT-5.3-Codex et qu'il est déployé en parallèle sur ChatGPT, API et Codex, d'où le choix d'un saut direct dans la numérotation pour simplifier la sélection du modèle dans Codex. (
Lire la suite)