Vue normale

FDM-1 - L'IA qui utilise un ordinateur comme vous

Par : Korben
26 février 2026 à 14:59

Standard Intelligence vient d'annoncer FDM-1, un modèle IA capable de contrôler n'importe quel ordinateur... en regardant l'écran et en cliquant. Comme nous !!

En gros le modèle regarde des pixels, comprend l'interface et exécute des actions. Clics, mouvements de souris, saisie clavier... et ça tourne à 30 FPS avec 11 ms de latence. Donc c'est beaucoup plus réactif que la plupart des français devant un formulaire administratif, quoi... ^^

Concrètement, vous pourriez lui demander de remplir vos tableurs Excel ou Google Sheets, de naviguer dans SAP, Salesforce ou n'importe quel logiciel métier sous Windows, macOS ou Linux, ou d'automatiser ces clics débiles que vous faites 200 fois par jour. Attention, c'est pas un bot Selenium ou un macro AutoHotkey hein. C'est vraiment un truc qui comprend ce qu'il voit à l'écran.

Du coup, ça se compose de 3 blocs. Un encodeur vidéo qui compresse le flux visuel, un modèle de dynamique inverse, entraîné sur 40 000 heures de données humaines, qui relie les actions aux changements d'écran, et bien sûr le modèle d'action, qui prédit le prochain clic.

Le truc carrément dingue, c'est l'échelle d’entrainement de ce modèle... 11 millions d'heures de vidéo d'entraînement, 80 000 machines virtuelles en parallèle, un seul GPU NVIDIA H100 qui pilote 42 VMs à la fois. Ça représente plus d'un million de simulations par heure. Y'a de quoi faire donc !

Et les applications vont loin... Par exemple, CAO sur Blender 3D, conduite autonome avec moins d'une heure de vidéo à 1080p, et même du fuzzing d'applications bancaires (Ahaha, je sais ça va vous plaire ça !).

Si vous connaissez déjà des agents comme ByteBot ou Skyvern , FDM-1 joue dans une autre catégorie. Ces outils s'appuient sur des LLMs pour comprendre ce qu'ils voient mais FDM-1, lui, fonctionne sans aucun modèle de langage. En fait, c'est du pur apprentissage visuel sans aucun GPT en dessous. C'est un agent IA autonome sous stéroïdes, quoi.

Et comparé aux solutions RPA classiques genre UiPath ou Automation Anywhere, la différence est radicale. Le RPA traditionnel, c'est des scripts qui cassent dès qu'un bouton bouge de 3 pixels. Mais l'agent de Standard Intelligence lui s'en fiche puisqu'il comprend visuellement ce qu'il voit et saura s'adapter en quelques minutes. Je sens que les scrapers qui me lisent vont mouiller leur culotte...

Par contre, c'est maintenant le moment où je vous déçois un peu car le truc n'est pas encore dispo publiquement et aucune date n'est annoncée. Et les démos viennent de l'équipe elle-même... donc voilà, je reste prudent.

Et côté sécurité, y'a de quoi flipper un peu car un agent capable de cliquer partout sur n'importe quelle interface, ça ouvre la porte au phishing automatisé ou au clickjacking à grande échelle, sauf si des garde-fous sérieux sont mis en place (et pour l'instant, j'en vois pas).

Bref, c'est du lourd sur le papier mais reste à voir quand on pourra y toucher.

notion-cli - Pilotez Notion depuis votre terminal

Par : Korben
26 février 2026 à 14:33

Si vous utilisez Notion au quotidien et que vous avez toujours rêvé de piloter vos bases de données depuis un terminal... y'a enfin un truc qui tient la route.

Ça s'appelle notion-cli , c'est un binaire Go qui embarque 39 commandes couvrant TOUTE l'API Notion. Il s'agit d'un seul exécutable pour macOS, Linux et Windows (amd64 et arm64) sans dépendance qui vous permet de gérer pages, bases de données, blocs et commentaires sans jamais ouvrir un navigateur.

L'installation, c'est du classique : brew install 4ier/tap/notion-cli sur macOS, go install pour les puristes, npm install -g notion-cli-go ou même Docker. Il faut juste un token d'intégration Notion (le ntn_xxxxx que vous générez sur notion.so/my-integrations), vous le collez dans ~/.config/notion-cli/config.json ou en variable NOTION_TOKEN, et c'est parti.

notion-cli en action dans le terminal

Le truc cool, ce sont les filtres humain-friendly. Au lieu de se taper du JSON pour filtrer une base, vous écrivez Status=Done et l'outil se débrouille tout seul. En fait, il détecte le type de chaque propriété (texte, date, sélection...) et adapte le filtre automatiquement. C'est carrément pas mal, je trouve.

Et côté Markdown, c'est la fête ! Vous exportez une page entière avec notion block list <page-id> --md --depth 3, et inversement, vous injectez un fichier .md dans Notion via notion block append <page-id> --file notes.md. Pour ceux qui bossent avec de la doc technique, ça simplifie sérieusement les choses. Bon, ça ne marche pas avec les blocs synchronisés ou les embeds exotiques, mais pour le reste c'est nickel.

D'ailleurs le mode "pipé" est vraiment malin. Car dans le terminal, l'outil affiche de jolies tables colorées mais dès que vous le "pipez" vers jq ou un script, il bascule en JSON automatiquement. Du coup, intégrer ça dans un pipeline shell ou un cron... c'est aucun parsing à faire. Voilà quoi.

Après des CLI pour Notion, y'en a déjà quelques-uns. Sauf que la plupart sont soit limités aux tâches (comme notion-cli-go qui gère surtout le côté todo), soit cantonnés à l'export (et souvent liés à un OS ou un langage précis).

Celui de 4ier, c'est donc le premier à couvrir l'API en entier : pages, bases, blocs, commentaires, fichiers, utilisateurs, et même un accès REST brut via notion api GET /v1/endpoint. En gros, c'est le gh de GitHub, mais pour Notion (et pour une fois, c'est pas juste du blabla marketing ^^).

Les cas d'usage qui tuent c'est par exemple un script cron qui crée une entrée hebdo avec notion page create <db-id> --db "Name=Weekly" "Status=Todo". Un backup qui exporte vos pages critiques en Markdown toutes les nuits. Ou un CI/CD qui met à jour un changelog Notion à chaque deploy. Quelques lignes de bash et c'est réglé, car l'outil gère tout le reste ! C'est hyper rare un CLI qui couvre autant de terrain.

Y'a aussi le côté agent-friendly pour ceux qui kiffent l'IA. L'outil retourne des codes de sortie propres, du JSON exploitable, et s'installe comme skill agent via npx skills add 4ier/notion-cli. Dans la lignée de Gemini CLI , on voit de plus en plus d'outils pensés terminal-first... et je trouve que c'est carrément bien.

Après comme souvent quand je vous présente des outils, le projet est tout frais (v0.3.0, licence MIT), avec une petite communauté donc attention, car comme tout ce qui dépend d'une API tierce, si Notion bouge ses endpoints... voilà quoi. Mais c'est propre, c'est testé, et ça tourne déjà très bien.

Votre navigateur va pouvoir souffler un peu.

❌