Profitant d’un assouplissement des conditions d’imporations américaines, la Chine accélère le pas. Selon plusieurs informations concordantes, Pékin a donné son feu vert au géant local DeepSeek pour acquérir les puissantes puces H200 de NVIDIA, un feu vert qui s’étend également à ByteDance, Alibaba et Tencent. Au total, jusqu’à …
DeepSeek ne semble plus se contenter d’être « le modèle qui impressionne ». À en croire une série d’offres d’emploi repérées en janvier, la startup chinoise préparerait un moteur de recherche IA capable de gérer plusieurs langues et des requêtes multimodales — texte, images, audio. Autrement dit : un produit pensé pour la vraie vie, où la question […]
Bon, j'vais pas y aller par quatre chemins, l'architecture des Transformers qu'on utilise tous (GPT, Claude, Llama...) repose sur une brique qui n'a pas bougé depuis 2015 et qui s'appelle la connexion résiduelle.
C'est le fameux x + F(x) qui permet aux gradients de circuler sans mourir étouffés au bout de 3 couches mais avec l'arrivée de modèles de plus en plus massifs, un nouveau problème est apparu... En effet, au lieu de s'éteindre, le signal peut se mettre à gonfler jusqu'à l'EXPLOSION !!.
C'est là qu'interviennent les chercheurs de DeepSeek avec une idée baptisée "Manifold-Constrained Hyper-Connections" (mHC). Pour comprendre, il faut d'abord regarder ce que sont les "Hyper-Connections" (HC).
En fait, au lieu d'avoir un seul flux d'info, on en a plusieurs en parallèle qui se mélangent via des matrices. En pratique, cela veut dire que c'est vite le chaos. Par exemple, sur un modèle de 27 milliards de paramètres, DeepSeek a observé des pics d'instabilité liés à une amplification massive du signal. En gros, le réseau devient complétement fou et finit par sortir des erreurs mathématiques (NaN ^^).
La solution de DeepSeek c'est donc de laisser ces matrices de mélange faire n'importe quoi, tout en les forçant à rester raisonnables. Ils utilisent pour cela une contrainte dite "doublement stochastique". Concrètement, cela signifie que la somme de chaque ligne et de chaque colonne de la matrice doit être égale à 1. Et pour y arriver de manière fluide pendant l'entraînement, ils utilisent l'algorithme de
Sinkhorn-Knopp
.
En rouge, c'est le chaos (HC). En vert c'est pareil mais stabilisé grâce au mHC.
Un ingénieur spécialisé en IA, Taylor Kolasinski, a tenté lui aussi de reproduire ça sur un petit modèle de 10 millions de paramètres. Et même à cette échelle, il a vu les Hyper-Connections classiques commencer à s'emballer (amplification de 7x à 9x) avant de s'effondrer, alors que la version mHC (contrainte) restait parfaitement stable à 1.0.
Alors oui, mettre de telles barrières au réseau a un coût... Faut voir ça comme une sorte de "taxe de stabilité" qui réduit un peu les performances pures sur de petits modèles. Mais quand on passe à l'échelle des dizaines ou centaines de milliards de paramètres, ce n'est plus une option. Ça évite tout simplement au modèle d'exploser en plein vol.
Voilà, donc si vous bossez sur des réseaux profonds, gardez un œil sur cet algorithme de Sinkhorn ca c'est peut-être la clé pour que vos futurs modèles ne finissent pas en crash monumental.
Cette revue de presse sur Internet fait partie du travail de veille mené par l’April dans le cadre de son action de défense et de promotion du logiciel libre. Les positions exposées dans les articles sont celles de leurs auteurs et ne rejoignent pas forcément celles de l’April.
20 organisations invitent à passer au Libre et demandent la liberté de choix informatique, dès l’acte d’achat, avec l’affichage des coûts des licences et la possibilité d’acheter un ordinateur sans système d’exploitation imposé.
Victoire en vue pour le logiciel libre en France: après l’Assemblée, le Sénat vote la fin de la certification tierce obligatoire pour les logiciels de caisse, jugée trop coûteuse et inadaptée. L’avis de l’APRIL.
Longtemps cantonné à une niche d’experts, Linux connaît une croissance spectaculaire sur les PC de bureau. Sa part de marché a triplé en quatre ans, largement alimentée par des utilisateurs fuyant un Windows jugé trop contraignant. Entre la fin du support de Windows 10 et l’essor du gaming, l’OS libre est devenu une alternative crédible pour des millions de personnes.
Avec des résultats impressionnants, la dernière version open-source du modèle d’IA chinois relance la question de savoir si les modèles propriétaires en valent la peine.