Les derniers LLM d’IBM n’ont plus grand-chose de transformateurs
Un peu de Transformers, beaucoup de Mamba : avec les modèles de langage Granite 4.0, IBM opère une transition architecturale.
Mamba est censé pallier les limites des modèles transformateurs lors du traitement de longues séquences. Dans ces scénarios, le mécanisme d’attention constitue un goulet d’étranglement, du fait qu’il utilise une forme de cache clé-valeur permettant à chaque token d’accéder aux précédents lors de la prédiction. Plus la taille de contexte augmente, plus l’empreinte mémoire et la latence augmentent, de façon quadratique.
Des méthodes telles que la fenêtre glissante et l’attention flash peuvent atténuer cet effet. Mamba va plus loin en remplaçant le composant d’attention par un mécanisme inspiré de la théorie du contrôle : les SSM (State Space Models). Avec eux, la montée en charge est linéaire. On permet aux paramètres SSM d’être fonction de l’input, de sorte qu’une sélection des informations à conserver s’opère au moment de la mémorisation – et non au moment de la remémoration, comme c’est le cas pour les transformeurs.
Transformers réduit à la portion congrue
IBM n’écarte pas totalement Transformers, mais le réduit à la portion congrue : seules 4 couches sur 40 dans chacun des modèles Granite 4.0 aujourd’hui publiés (open-weight, licence Apache 2.0). Sont plus précisément combinés, de façon séquentielle, un groupe de 9 blocs Mamba, un bloc Transformers unique, et ainsi de suite. Les blocs Transformers sont maintenus notamment en ce qu’ils apportent des avantages sur les tâches avec apprentissage en contexte (few-shot prompting, typiquement).
Les modèles ainsi architecturés n’utilisent pas d’encodage positionnel : de par son fonctionnement, Mamba préserve intrinsèquement l’ordre des tokens. Ce n’est pas le cas de Transformers. On a donc tendance à y allier cet encodage positionnel… au détriment de la capacité des modèles à travailler sur des séquences plus longues que celles sur lesquelles on les a entraînés.
Des versions thinking à venir
Comme leurs prédécesseurs, les modèles Granite 4.0 sont destinés à générer du texte et du code. On en compte actuellement 4, tous déclinés en versions base et instruct (versions thinking à venir « d’ici à fin 2025 ») :
- H-Small
Hybride Mamba/Transformers en MoE (32 milliards de paramètres dont 9 milliards actifs, soit 10 experts sur 72). - H-Tiny
Hybride Mamba/Transformers en MoE (7 milliards de paramètres dont 1 milliard actifs, soit 6 experts sur 64). - H-Micro
Hybride Mamba/Transformers dense (3 milliards de paramètres). - Micro
Variante « classique » (Transformers) de H-Micro.
L’ensemble est disponible dans des versions quantisées (GGUF, avec également du FP8 pour H-Small instruct).
En précision 8 bits, H-Small nécessite 33 Go de RAM ; H-Tiny, 8 Go ; H-Micro, 4 Go, contre 9 Go pour sa variante Transformers. IBM ne manque pas de mettre en avant ce gain pour l’inférence, surtout dans les tâches à contexte long et/ou à sessions multiples (agent de service client traitant plusieurs tickets en parallèle, par exemple).
Tous les modèles Granite 4.0 ont été validés pour des séquences de 128k. L’entraînement des versions de base a suivi un pipeline en 4 étapes (cf. tableau ci-dessous), sur des serveurs GB200 NVL72 chez CoreWeave. Le fine-tuning a reposé sur « des jeux de données ouverts sous licence permissive », des datasets synthétiques internes et des données annotées par l’humain.
Intégrer Mamba dans l’écosystème
H-Small et H-Tiny ont une autre forme d’hybridité : ils sont les premiers modèles MoE d’IBM à utiliser des « experts partagés ». En d’autres termes, des paramètres toujours actifs qui permettent aux autres experts de mieux se spécialiser.
Des modèles Nano et Medium sont sur la feuille de route. Il s’agira aussi de pousser la prise en charge de Mamba dans l’écosystème. Des outils comme llama.cpp ne la gèrent pas encore. C’est dans cet esprit qu’IBM a conservé un modèle « classique » dans sa gamme.
Le catalogue open-weight d’IBM comprend des modèles multimodaux, dont :
- Granite Speech (reconnaissance vocale ; dernière version publiée en août, à 2B et 8B)
- Granite Vision (dernière version – 2B – publiée en juin, avec un dérivé pour l’embedding ajouté en août)
- Granite Guardian (modération de contenu ; dernière version – 8B – publiée en septembre)
- Granite Docling (extraction de données structurées ; dernière version – 258M – publiée en septembre)
Ses derniers modèles « spécial code » remontent à 2024. Il existe aussi des modèles Granite pour le traitement de données géospatiales et de séries chronologiques.
À consulter en complément, notre brève revue des LLM Granite 3.0. Sortis il y a près d’un an, ils introduisaient alors, au catalogue des modèles IBM, des techniques telles que ScatterMoE (une implémentation n’imposant pas de plafond de tokens par expert) et Evol-Instruct (génération de données synthétiques à partir de questions racines dont on crée des versions améliorées à renfort de prompt engineering).
Illustration principale générée par IA
The post Les derniers LLM d’IBM n’ont plus grand-chose de transformateurs appeared first on Silicon.fr.