Vue normale

Reçu aujourd’hui — 27 février 2026 ⏭ Silicon

Décennie numérique : ce que l’UE mesure quand elle parle de digitalisation des entreprises 27 février 2026 à 11:17

Décennie numérique : ce que l’UE mesure quand elle parle de digitalisation des entreprises

27 février 2026 à 11:17

La « digitalisation des entreprises », c’est quoi au juste ?

Depuis 2015, Eurostat compile un indicateur composite dit « index d’intensité numérique ». L’Union européenne l’exploite dans le cadre de son programme d’action pour la décennie numérique.

Ce programme fut formellement établi en décembre 2022. Il définit des objectifs de transformation numérique à l’horizon 2030, dans 4 domaines : connectivité, compétences numériques, digitalisation des entreprises, digitalisation des services publics.

Le mécanisme de suivi de la progression des États membres se fonde sur une quinzaine de KPI. Dont le pourcentage de PME utilisant au moins 4 des 12 technologies qu’englobe l’index d’Eurostat.

L’UE ne liste pas ces technologies et pour cause : d’année en année, la composition de l’index évolue. La dernière incarnation comprend :

Au moins 50 % des employés ont accès à Internet pour un usage professionnel

Connexion Internet à au moins 30 Mbit/s descendants

Au moins 1 % du CA en e-commerce

Au moins 1 % des ventes réalisées sur le web avec au moins 10 % en B2C

Achat de services cloud

Achat de services cloud « sophistiqués » ou « intermédiaires »

Avoir un site web

Utiliser au moins un réseau social

Faire de l’analyse de données, y compris via un prestataire externe

Utiliser au moins une technologie d’IA

Utiliser un ERP

Utiliser un CRM

Chaque dimension a ses spécificités. Pour le e-commerce, par exemple, on tient compte des achats avec paiement hors ligne. Comme « technologie d’IA », on entend autant les chatbots de service client que le big data à base de machine learning, entre autres.

La sécurité informatique est sortie du radar

Entre 2015 et 2025, les trois premiers sous-indicateurs (accès à Internet, bande passante, e-commence) n’ont pas changé.

Le critère « 1 % de ventes sur le web et au moins 10 % en B2C » n’entrait pas dans l’index en 2018 et 2020. À la place était la pratique du big data sur des données internes ou externes.

Le critère « achat de services cloud » n’a pas toujours été présent, en tout cas sous cette forme. De 2015 à 2020, Eurostat a mesuré le taux d’entreprises fournissant des « appareils portables à connexion Internet mobile » (précision en 2018 et 2019 : réseau cellulaire) à au moins 20 % de leurs employés. En 2022 et 2024, il s’est intéressé à celles qui documentaient leurs mesures, pratiques ou procédures de sécurité informatique.

De 2015 à 2018, ainsi qu’en 2020, le sixième sous-indicateur n’était pas l’achat de services cloud « sophistiqués » ou « intermédiaires », mais le fait d’avoir un site web proposant au moins une des fonctionnalités suivantes :

Description de biens et de services
Affichage de prix
Possibilité pour le visiteur de personnaliser ou de concevoir des biens et services
Suivi de commandes
Personnalisation du contenu du site pour les visiteurs réguliers

En 2019, 2022 et 2024, pour ce même sous-indicateur, Eurostat a mesuré le taux d’entreprises informant les employés de leurs obligations en matière de sécurité informatique.

À la place du critère « avoir un site web », il y eut, en 2019, 2022 et 2024, « recourir à au moins 3 mesures de sécurité informatique ». En 2021 et 2023, « utiliser au moins deux réseaux sociaux ».

Quand l’IoT, l’impression 3D, la robotique et la pub en ligne étaient des critères

En 2018, il ne s’agissait pas d’utiliser au moins un réseau social, mais d’avoir un site ayant des liens ou des références aux profils sociaux de l’entreprise. En 2020, il s’agissait d’utiliser l’impression 3D. Et en 2022 et 2024, de dispenser au personnel des formations en informatique.

Historiquement, le neuvième sous-indicateur a souvent porté sur l’emploi de spécialistes des TIC (2017, 2018, 2020, 2022, 2024). En 2015 et 2016 aussi, mais avec une option de plus : recourir à des fonctions TIC réalisées principalement par des prestataires externes. En 2019, il fallait utiliser les réseaux sociaux à au moins deux fins. Et en 2021, utiliser l’IoT.

Le sous-indicateur « utiliser au moins une technologie d’IA » est tout nouveau. En 2015 et 2017, Eurostat s’était penché sur les entreprises qui partageaient des données « relatives à la gestion de la supply chain » par voie électronique avec clients ou fournisseurs. En 2016 et 2018, à celles qui achetaient de la pub sur Internet. Et en 2019, à celles qui réalisent des ventes en ligne dans d’autres pays de l’UE. En 2020 et 2022, les entreprises étaient évaluées sur leur utilisation de robots industriels ou de service.

La facturation électronique, indicateur pendant un temps

« Utiliser un ERP » a été présent par intermittence. En 2016, il fallait pratiquer la facturation électronique. En 2018 et 2020, acheter des services cloud de niveau « intermédiaire ou élevé » (« medium-high »). Les versions 2022 et 2024 analysaient la fourniture, aux employés, d’un accès distant à la messagerie électronique, aux documents ou aux applications.

Même présence par intermittence pour « utiliser un CRM ». En 2016, ce sous-indicateur était réservé aux services cloud medium-high. En 2018 et 2020, à la facturation électronique. Eurostat a aussi examiné l’organisation de réunions en ligne, en 2022 et 2024.

Illustration générée par IA

The post Décennie numérique : ce que l’UE mesure quand elle parle de digitalisation des entreprises appeared first on Silicon.fr.

De l’intuition à l’analyse, une taxonomie des erreurs de raisonnement des LLM 27 février 2026 à 08:21

De l’intuition à l’analyse, une taxonomie des erreurs de raisonnement des LLM

Silicon

Par : Clément Bohic

27 février 2026 à 08:21

A=B donc B=A ? Pour les LLM, ça ne coule pas de source.

En 2023, nous nous étions fait l’écho d’une étude à ce sujet. Laquelle démontrait, dans les grandes lignes, que les modèles auxquels on n’avait pas appris une relation d’équivalence « dans les deux sens » (« A=B » et « B=A ») avaient du mal à la déduire.

Ce phénomène, dit reversal curse (littéralement, « malédiction de l’inversion »), figure dans une taxonomie que proposent trois universitaires américains. Ils y synthétisent l’état de la recherche sur les erreurs de raisonnement des LLM.

Leur ontologie distingue le raisonnement « incarné » (embodied, dépendant d’interactions avec des environnements physiques) et « non incarné » (qui met en jeu des processus cognitifs n’exigeant pas ces interactions). Dans le « non incarné », elle sépare raisonnement formel (qui implique la manipulation de symboles sur la base de règles) et informel (qui relève du jugement intuitif).

Les erreurs sont réparties en trois catégories :

Fondamentales (intrinsèques aux architectures et à l’entraînement des modèles)
Spécifiques à des applications
De robustesse (sensibilité à des variations mineures)

Face aux limites cognitives, imiter l’attention humaine

En matière de raisonnement informel, les erreurs peuvent découler d’un manque d’aptitudes cognitives. Les limites de la mémoire de travail en font partie (notamment le fait qu’une information ancienne peut perturber l’acquisition d’une nouvelle). Le contrôle inhibiteur aussi. Les LLM n’ont pas tous cette faculté à contenir une réaction impulsive. En tout cas au sens où peu importe l’évolution du contexte, ils s’en tiennent souvent à des patterns appris. Dans le même esprit, ils peuvent manquer de flexibilité cognitive. En d’autres termes, d’une capacité à s’adapter à de nouvelles règles et/ou à basculer efficacement entre des tâches. Le raisonnement abstrait – capacité à reconnaître des motifs dans des concepts – peut aussi leur faire défaut (déduction de règles à partir d’exemples, gestion des abstractions temporelles…).

Tous ces éléments se manifestent par des problèmes de robustesse. Ils découlent de limites d’architecture et d’entraînement : dispersion de l’attention, prédiction de tokens qui privilégie les statistiques au raisonnement, etc. S’y ajoute, pour les LLM entraînés exclusivement sur du texte, un manque d’ancrage avec le monde physique et social. Parmi les solutions explorées : insertion des chaînes de pensée dans les prompts, enrichissement de la récupération, fine-tuning avec injection d’interférences et mécanismes imitant l’attention humaine.

Des personnalités pour atténuer les biais

Au-delà du manque d’aptitudes cognitives, il y a les biais. Le contenu de l’information joue. Les LLM tendent à favoriser celle alignée sur leurs croyances ou sur le contexte précédent (reflet du biais de confirmation). Ils se révèlent également sensibles aux biais d’attribution et de négativité. Qui priorisent respectivement le contenu « populaire » et les inputs négatifs.

La présentation de l’information influe aussi. Le biais d’ordre n’épargne effectivement pas les LLM, comme le biais d’ancrage (les données présentées en premier influencent démesurément le raisonnement). S’y ajoute l’effet de cadrage (des prompts équivalents d’un point de vue logique mais formulés différemment produisent des résultats différents).La perspective narrative a également un certain poids.

Au sein de la taxonomie proposée, les erreurs relevant de biais cognitifs sont de l’ordre du fondamental. Résultant des architectures et de l’entraînement/alignement, elles se manifestent par des problèmes de robustesse. Parmi les solutions étudiées : entraînement antagoniste, filtrage des outputs et attribution de personnalités aux modèles.

La difficile acquisition des « soft skills »

Certaines erreurs de raisonnement cognitif ne se manifestent que dans des contextes sociaux spécifiques. Les LLM ne parviennent pas toujours à comprendre les normes sociales et l’état d’esprit d’autrui.

Sur ce dernier point, les difficultés tiennent autant à la compréhension des perceptions qu’à la prédiction des croyances. Le raisonnement que les modèles ont à ce propos apparaît d’autant plus fragile que des modifications mineures dans la formulation d’une tâche suffisent à le perturber. C’est sans compter les déficits sur le plan émotionnel, avec une tendance aux biais d’affect et une compréhension limitée des variations culturelles.

Sur le volet des normes sociales, il arrive que les LLM produisent des jugements contradictoires d’un point de vue éthique. Là aussi, ils se révèlent sensibles à la formulation des tâches, y compris en fonction des langues. Le fine-tuning a tendance à exacerber cette sensibilité.

Dans l’un et l’autre cas, on est sur des limites spécifiques à des applications (tâches relevant de la sûreté et de la confidentialité, en particulier). Elles se traduisent par des problèmes de robustesse – en première ligne, les risques de manipulation. Fine-tuning et apprentissage par renforcement ne constituent souvent des solutions que pour des contextes simples.

Dans les systèmes agentiques, des palliatifs durs à généraliser

Des limites, les LLM en ont aussi au niveau du raisonnement social explicite. Elles se manifestent dans les systèmes de planification agentique. Tendant à trop s’appuyer sur des informations locales ou récentes, les modèles peuvent échouer à développer des stratégies coordonnées sur le long terme.

Ces limites tiennent à la fois à leurs capacités individuelles et à la conception des systèmes agentiques. Ils se manifestent souvent par des problèmes de robustesse. Et sont accentués par les faiblesses de raisonnement social implicite comme par le manque d’aptitudes cognitives.

Parmi les solutions explorées, il y a l’enrichissement des représentations internes (suivi des croyances, validation des hypothèses). Il y a aussi des protocoles de communication avec vérification obligatoire et des agents qui « challengent » les outputs contestables. Toutes ces approches sont néanmoins difficiles à généraliser. L’ingénierie de contexte apparaît comme une méthode alternative plus robuste dans les systèmes agentiques.

Les graphes pour donner des chemins de raisonnement

En matière de raisonnement logique formel, le reversal curse est essentiellement attribué aux objectifs d’entraînement unidirectionnels des modèles transformeurs. Ils induisent en effet un asymétrie structurelle dans les poids. La principale solution explorée dans la littérature scientifique consiste à « augmenter » les données d’entraînement – entre autres par inversion syntaxique de faits et permutation d’unités sémantiques – pour restaurer une symétrie.

La raisonnement compositionnel (combinaison de connaissances) pose aussi des problèmes. On les doit aux incapacités de planification holistique et aux limites de pensée profonde. En guise de solution, outre le prompting à base de chaînes de pensée, est exploré l’entraînement à base de « chemins de raisonnement » structurés en graphes.

La syntaxe peut tout changer

L’exploitation des structures logiques implicites contenues dans les benchmarks peut révéler des problèmes de robustesse. Ce fut l’objet d’études qui ont introduit des modifications préservant la sémantique, comme changer l’ordre des réponses dans un QCM, réorganiser des prémisses ou éditer des éléments secondaires (noms de personnages, par exemple).

Ces transformations structurelles ont été appliquées aux problèmes de mathématiques comme aux benchmarks de code (édition syntaxique de docstrings, renommage de fonctions et de variables, altération de la logique de contrôle de flux…). Pour pallier les limites qu’elles ont fait ressortir, la principale solution consiste à appliquer des perturbations pour diversifier les données d’entraînement. Une technique toutefois difficile à généraliser.

Dans le domaine de l’arithmétique, les limites tiennent beaucoup à l’architecture des modèles (encodage positionnel, tokenisation…). La précision numérique limitée n’aide pas. Comme la tendance à l’usage du raisonnement heuristique (pattern matching).

Une des solutions explorées passe par des jeux de données plus précis, détaillant les étapes de traitement. Une autre imite les stratégies de calcul humaines, par exemple en focalisant l’attention sur le chiffre des unités dans le cadre des multiplications.

Le défi de l’ancrage dans le monde réel

Quantité d’analyses ont démontré le manque de bon sens des LLM sur la physique du monde réel : lois fondamentales, attributs des objets, relations spatiales… Il en résulte des erreurs fondamentales.
Même lorsqu’ils ont les compétences, les modèles échouent souvent à les appliquer à des domaines concrets. On tombe là dans les limites spécifiques à des applications.

Le fine-tuning sur des corpus qui encodent explicitement des connaissances de la physique du monde réel est une solution. L’insertion des chaînes de pensée dans les prompts en est une autre, destinée à stimuler la découverte de relations causales et spatiales plus nuancées. Piste alternative : le recours à des outils externes, tels des simulateurs.

Le manque de « bon sens physique » se reporte sur l’analyse d’images statiques, et plus encore d’environnements 3D. Les LLM ont souvent du mal à dénombrer les objets, décrire leurs relations spatiales et à détecter des anomalies. Ils ont globalement tendance à s’appuyer démesurément sur les données textuelles de leur corpus d’entraînement et sur les scénarios communs qu’ils y ont détectés. On touche là à des problèmes de robustesse, en plus de ceux spécifiques à des applications.
Les solutions étudiées incluent la modification des données d’entraînement pour réduire le biais vers le texte, les mécanismes d’attention à ancrage spatial et l’apprentissage par renforcement pour inculquer ce fameux « bon sens ».

À l’échelle des systèmes agentiques, les plans d’action comprennent parfois des actions impossibles du point de vue de la physique. On tombe là dans des erreurs fondamentales, découlant notamment d’un déficit d’affordance (raisonnement sur ce qui peut arriver à des objets).

The post De l’intuition à l’analyse, une taxonomie des erreurs de raisonnement des LLM appeared first on Silicon.fr.