Vue normale

OpenAI apprend à penser l’inférence sans NVIDIA

13 février 2026 à 14:54

Et le premier modèle propriétaire d’OpenAI à ne pas tourner sur du GPU NVIDIA est… GPT-5.3-Codex-Spark.

Cette version « allégée » de GPT-5.3-Codex fonctionne effectivement sur la dernière génération des puces accélératrices Cerebras. Ou, devrait-on dire, des « mégapuces » : 4000 milliards de transistors sur 460 cm², pour 900 000 cœurs délivrant 125 Pflops.

Cerebras WSE-3

Un complément basse latence à l’option GPU

Cerebras – qui fournit aussi Mistral et Perplexity – avait officialisé en janvier son contrat avec OpenAI. Ce dernier disait prévoir une intégration par étapes dans sa pile d’inférence, avec l’objectif de couvrir l’ensemble de ses workloads pour fin 2028. Non pas en remplacement, mais en complément des GPU, pour donner une option très basse latence (21 Po/s de bande passante mémoire, 27 Po/s de bande passante interne, 214 Po/s entre cœurs). Avec GPT-5.3-Codex-Spark, c’est censé se traduire, entre autres, par un débit de plus de 1000 tokens par seconde.

Le modèle est pour le moment en aperçu pour les abonnés ChatGPT Pro, sur l’app Codex, le CLI et l’extension VS Code. Ne gérant que la modalité texte avec une fenêtre de contexte de 128k, il a ses propres limites d’usage, non décomptées du forfait. OpenAI le teste aussi sur son API, auprès de « quelques partenaires ». Windsurf l’a par ailleurs intégré dans son leaderboard.

OpenAI va généraliser WebSocket

Les travaux menés pour réduire la latence bénéficieront aux autres modèles d’OpenAI. En particulier, l’introduction d’un chemin WebSocket, activé par défaut. Combiné à des optimisations ciblées sur l’API Responses et sur l’initialisation des sessions, il a permis, dans le cas de GPT-5.3-Codex-Spark, de réduire de 30 % la surcharge par token, pour un TTFT (time to first token) divisé par 2.

Sur cette base, OpenAI entend proposer, à terme, un Codex « hybride » qui exploitera ce type de modèle pour les interactions simples tout en sachant déléguer les plus grosses tâches à des sous-agents tournant potentiellement sur du GPU.

On se rappellera que l’entreprise de Sam Altman a aussi un accord avec AMD, annoncé en octobre dernier. Il doit se traduire par une prise de participation (10 % du capital) et le déploiement potentiel de 6 GW de puissance de calcul – dont 1 GW en GPU Instinct MI450 cette année.

À consulter en complément :

Comment OpenAI a diversifié ses fournisseurs
Microsoft veut voler de ses propres ailes dans l’IA
Pourquoi les assistants de codage n’échappent pas au paradoxe de la productivité
Claude crée son propre compilateur C : oui, mais…
Codage agentique : le retour d’expérience de Spotify

Illustration principale générée par IA

The post OpenAI apprend à penser l’inférence sans NVIDIA appeared first on Silicon.fr.

OpenAI lance GPT-5.3-Codex-Spark sur puces Cerebras : la vitesse comme nouvelle arme (et un signal à Nvidia)

Il y a des annonces qui parlent de puissance brute, et d’autres qui trahissent une obsession plus subtile : le temps de réponse. Jeudi, OpenAI a dévoilé GPT-5.3-Codex-Spark, une variante « allégée » de son modèle de code, pensée pour des boucles d’édition quasi instantanées — et surtout, servie sur l’infrastructure de Cerebras, un partenaire inédit hors du […]

L’article OpenAI lance GPT-5.3-Codex-Spark sur puces Cerebras : la vitesse comme nouvelle arme (et un signal à Nvidia) est apparu en premier sur BlogNT : le Blog des Nouvelles Technologies.

❌