Vue lecture

Les derniers LLM d’IBM n’ont plus grand-chose de transformateurs

Un peu de Transformers, beaucoup de Mamba : avec les modèles de langage Granite 4.0, IBM opère une transition architecturale.

Mamba est censé pallier les limites des modèles transformateurs lors du traitement de longues séquences. Dans ces scénarios, le mécanisme d’attention constitue un goulet d’étranglement, du fait qu’il utilise une forme de cache clé-valeur permettant à chaque token d’accéder aux précédents lors de la prédiction. Plus la taille de contexte augmente, plus l’empreinte mémoire et la latence augmentent, de façon quadratique.
Des méthodes telles que la fenêtre glissante et l’attention flash peuvent atténuer cet effet. Mamba va plus loin en remplaçant le composant d’attention par un mécanisme inspiré de la théorie du contrôle : les SSM (State Space Models). Avec eux, la montée en charge est linéaire. On permet aux paramètres SSM d’être fonction de l’input, de sorte qu’une sélection des informations à conserver s’opère au moment de la mémorisation – et non au moment de la remémoration, comme c’est le cas pour les transformeurs.

Transformers réduit à la portion congrue

IBM n’écarte pas totalement Transformers, mais le réduit à la portion congrue : seules 4 couches sur 40 dans chacun des modèles Granite 4.0 aujourd’hui publiés (open-weight, licence Apache 2.0). Sont plus précisément combinés, de façon séquentielle, un groupe de 9 blocs Mamba, un bloc Transformers unique, et ainsi de suite. Les blocs Transformers sont maintenus notamment en ce qu’ils apportent des avantages sur les tâches avec apprentissage en contexte (few-shot prompting, typiquement).

Les modèles ainsi architecturés n’utilisent pas d’encodage positionnel : de par son fonctionnement, Mamba préserve intrinsèquement l’ordre des tokens. Ce n’est pas le cas de Transformers. On a donc tendance à y allier cet encodage positionnel… au détriment de la capacité des modèles à travailler sur des séquences plus longues que celles sur lesquelles on les a entraînés.

Des versions thinking à venir

Comme leurs prédécesseurs, les modèles Granite 4.0 sont destinés à générer du texte et du code. On en compte actuellement 4, tous déclinés en versions base et instruct (versions thinking à venir « d’ici à fin 2025 ») :

  • H-Small
    Hybride Mamba/Transformers en MoE (32 milliards de paramètres dont 9 milliards actifs, soit 10 experts sur 72).
  • H-Tiny
    Hybride Mamba/Transformers en MoE (7 milliards de paramètres dont 1 milliard actifs, soit 6 experts sur 64).
  • H-Micro
    Hybride Mamba/Transformers dense (3 milliards de paramètres).
  • Micro
    Variante « classique » (Transformers) de H-Micro.

L’ensemble est disponible dans des versions quantisées (GGUF, avec également du FP8 pour H-Small instruct).
En précision 8 bits, H-Small nécessite 33 Go de RAM ; H-Tiny, 8 Go ; H-Micro, 4 Go, contre 9 Go pour sa variante Transformers. IBM ne manque pas de mettre en avant ce gain pour l’inférence, surtout dans les tâches à contexte long et/ou à sessions multiples (agent de service client traitant plusieurs tickets en parallèle, par exemple).

consommation RAM

Tous les modèles Granite 4.0 ont été validés pour des séquences de 128k. L’entraînement des versions de base a suivi un pipeline en 4 étapes (cf. tableau ci-dessous), sur des serveurs GB200 NVL72 chez CoreWeave. Le fine-tuning a reposé sur « des jeux de données ouverts sous licence permissive », des datasets synthétiques internes et des données annotées par l’humain.

entraînement Base

Intégrer Mamba dans l’écosystème

H-Small et H-Tiny ont une autre forme d’hybridité : ils sont les premiers modèles MoE d’IBM à utiliser des « experts partagés ». En d’autres termes, des paramètres toujours actifs qui permettent aux autres experts de mieux se spécialiser.

Des modèles Nano et Medium sont sur la feuille de route. Il s’agira aussi de pousser la prise en charge de Mamba dans l’écosystème. Des outils comme llama.cpp ne la gèrent pas encore. C’est dans cet esprit qu’IBM a conservé un modèle « classique » dans sa gamme.

Le catalogue open-weight d’IBM comprend des modèles multimodaux, dont :

  • Granite Speech (reconnaissance vocale ; dernière version publiée en août, à 2B et 8B)
  • Granite Vision (dernière version – 2B – publiée en juin, avec un dérivé pour l’embedding ajouté en août)
  • Granite Guardian (modération de contenu ; dernière version – 8B – publiée en septembre)
  • Granite Docling (extraction de données structurées ; dernière version – 258M – publiée en septembre)

Ses derniers modèles « spécial code » remontent à 2024. Il existe aussi des modèles Granite pour le traitement de données géospatiales et de séries chronologiques.

À consulter en complément, notre brève revue des LLM Granite 3.0. Sortis il y a près d’un an, ils introduisaient alors, au catalogue des modèles IBM, des techniques telles que ScatterMoE (une implémentation n’imposant pas de plafond de tokens par expert) et Evol-Instruct (génération de données synthétiques à partir de questions racines dont on crée des versions améliorées à renfort de prompt engineering).

Illustration principale générée par IA

The post Les derniers LLM d’IBM n’ont plus grand-chose de transformateurs appeared first on Silicon.fr.

  •  

Qu’est-ce que la certification ISO 42001, que revendiquent des fournisseurs d’IA ?

Architecture hybride Mamba/Transformers, modèles spécifiques pour le raisonnement, mécanisme d’experts partagés… IBM a quelques nouveautés à mettre en avant avec la dernière génération des LLM Granite.

Celle-ci a une autre particularité : une certification ISO 42001. IBM l’a obtenue mi-septembre* pour le système de management sous-jacent.

Cette norme, publiée fin 2023, encadre effectivement la conception, l’implémentation et l’exploitation d’un système de management de l’IA. Elle est, en quelque sorte, ce que l’ISO 27001 est à la sécurité de l’information, l’ISO 9001 à la qualité et l’ISO 27701 à la protection de la vie privée. Y être conforme est censé témoigner d’une approche éthique et responsable.

L’ISO 42001 est potentiellement applicable à toute organisation qui développe, fournit ou utilise des produits ou services reposant sur des systèmes d’IA. Nombre des exigences qu’elle contient s’apparentent aux mesures que l’AI Act a imposées. Autant sur la gouvernance que sur la documentation, l’analyse de risque ou l’information des parties intéressées.

La norme impose de prendre en compte à la fois le contexte interne (gouvernance, procédures, obligations contractuelles…) et externe (législation, environnement culturel et concurrentiel, impact sur les tiers…). Elle aborde, entre autres :

  • Implication du top management
    Compatibilité de la politique IA avec la stratégie de l’organisation, intégration des exigences du système de management dans les processus métiers, etc. 
  • Planification
    Analyses d’impact, plans d’amélioration continue et de traitement des risques, gestion des exceptions, etc.
  • Support
    Fourniture des ressources nécessaires au système de management (data, outils, systèmes informatiques, compétences humaines).
  • Relations avec les tiers
    Documentation à leur adresse, mécanismes de recours/signalement, communication des incidents, gestion des fournisseurs, etc.

La certification est valable 3 ans et soumise à audit annuel. La procédure aura duré 3 mois, affirme IBM, qui met l’annonce en parallèle de son partenariat bug bounty avec Hacker One et de la généralisation de la signature cryptographique des checkpoints des modèles Granite.

D’AWS à Zendesk, quelques autres titulaires de la certification 42001

Parmi les fournisseurs de modèles de fondation, Anthropic a obtenu la certification ISO 42001 en janvier 2025. Elle englobe les LLM Claude sur l’API, au sein de l’offre Claude Enterprise ainsi que dans Amazon Bedrock et Vertex AI.
Cohere l’a quant à lui obtenue en juin 2025.

AWS avait été certifié en novembre 2024 pour les services Amazon Bedrock, Q Business, Textract et Transcribe. Google l’avait été en décembre, pour dix produits dont Vertex AI, Gemini pour Google Workspace et les API Cloud Translation et Document AI. Microsoft les a rejoints en mars 2025, pour Copilot et Copilot Chat dans Microsoft 365. Red Hat, en septembre, pour OpenShift AI.

365Talents et Workday sont respectivement ISO 42001 depuis février et juin 2025. Autodesk l’est depuis août, pour sa plate-forme centrale destinée à développer des produits et fonctionnalités d’IA. Zendesk l’est depuis septembre, pour tout son cœur IA, à l’exception de deux acquisitions récentes (Local Measure et HyperArc). Snowflake l’est depuis juin.

Des dizaines de plus petits éditeurs ont obtenu la certification. Pour en citer quelques-uns : Scrut Automation (Inde, GRC, février 2025), Noxtua (ex-Xayn ; Allemagne, logiciels juridiques, décembre 2024), FloQast (USA, comptabilité, janvier 2025), Gpi (Italie, logiciels pour la santé, juillet 2025) et Swimlane (USA, SOAR, juin 2025). Des ESN également, comme Datamatics (Inde, juin 2024).

Illustration générée par IA

The post Qu’est-ce que la certification ISO 42001, que revendiquent des fournisseurs d’IA ? appeared first on Silicon.fr.

  •