Vue normale

Reçu aujourd’hui — 20 décembre 2025

Comment Boston Dynamics compte construire un cerveau pour Atlas

Par :Korben
20 décembre 2025 à 07:38

Boston Dynamics que vous connaissez tous pour ses chiens robots tueurs de la mort, vient de sortir une vidéo de 40 minutes. Pas de saltos arrière ou de robots qui dansent mais plutôt une loooongue session où ça parle stratégie IA et vision à long terme. Et comme j'ai trouvé que c'était intéressant, je partage ça avec vous !

Zach Jacowski, le responsable d'Atlas (15 ans de boîte, il dirigeait Spot avant), discute donc avec Alberto Rodriguez, un ancien prof du MIT qui a lâché sa chaire pour rejoindre l'aventure et ce qu'ils racontent, c'est ni plus ni moins comment ils comptent construire un "cerveau robot" capable d'apprendre à faire n'importe quelle tâche. Je m'imagine déjà avec un robot korben , clone de ma modeste personne capable de faire tout le boulot domestique à ma place aussi bien que moi... Ce serait fou.

Leur objectif à Boston Dynamics, c'est donc de créer le premier robot humanoïde commercialement viable au monde et pour ça, ils ont choisi de commencer par l'industrie, notamment les usines du groupe Hyundai (qui possède Boston Dynamics).

Alors pourquoi ? Hé bien parce que même dans les usines les plus modernes et automatisées, y'a encore des dizaines de milliers de tâches qui sont faites à la main. C'est fou hein ? Automatiser ça c'est un cauchemar, car pour automatiser UNE seule tâche (genre visser une roue sur une voiture), il faudrait environ un an de développement et plus d'un million de dollars.

Ça demande des ingénieurs qui conçoivent une machine spécialisée, un embout sur mesure, un système d'alimentation des vis... Bref, multiplié par les dizaines de milliers de tâches différentes dans une usine, on serait encore en train de bosser sur cette automatisation dans 100 ans...

L'idée de Boston Dynamics, c'est donc de construire un robot polyvalent avec un cerveau généraliste. Comme ça au lieu de programmer chaque tâche à la main, on apprend au robot comment faire. Et tout comme le font les grands modèles de langage type ChatGPT, ils utilisent une approche en deux phases : le pre-training (où le robot accumule du "bon sens" physique) et le post-training (où on l'affine pour une tâche spécifique en une journée au lieu d'un an).

Mais le gros défi, c'est clairement les données. ChatGPT a été entraîné sur à peu près toute la connaissance humaine disponible sur Internet mais pour un robot qui doit apprendre à manipuler des objets physiques, y'a pas d'équivalent qui traîne quelque part.

Du coup, ils utilisent trois sources de data.

La première, c'est la téléopération. Des opérateurs portent un casque VR, voient à travers les yeux du robot et le contrôlent avec leur corps. Après quelques semaines d'entraînement, ils deviennent alors capables de faire faire à peu près n'importe quoi au robot. C'est la donnée la plus précieuse, car il n'y a aucun écart entre ce qui est démontré et ce que le robot peut reproduire. Par contre, ça ne se scale pas des masses.

La deuxième source, c'est l'apprentissage par renforcement en simulation. On laisse le robot explorer par lui-même, essayer, échouer, optimiser ses comportements. L'avantage c'est qu'on peut le faire tourner sur des milliers de GPU en parallèle et générer des données à une échelle impossible en conditions réelles. Et contrairement à la téléopération, le robot peut apprendre des mouvements ultra-rapides et précis qu'un humain aurait du mal à démontrer, du genre faire une roue ou insérer une pièce avec une précision millimétrique.

La troisième source, c'est le pari le plus ambitieux, je trouve. Il s'agit d'apprendre directement en observant des humains.

Alors est-ce qu'on peut entraîner un robot à réparer un vélo en lui montrant des vidéos YouTube de gens qui réparent des vélos ? Pas encore... pour l'instant c'est plus de la recherche que de la production, mais l'idée c'est d'équiper des humains de capteurs (caméras sur la tête, gants tactiles) et de leur faire faire leur boulot normalement pendant que le système apprend.

Et ils ne cherchent pas à tout faire avec un seul réseau neuronal de bout en bout. Ils gardent une séparation entre le "système 1" (les réflexes rapides, l'équilibre, la coordination motrice, un peu comme notre cervelet) et le "système 2" (la réflexion, la compréhension de la scène, la prise de décision). Le modèle de comportement génère des commandes pour les mains, les pieds et le torse, et un contrôleur bas niveau s'occupe de réaliser tout ça physiquement sur le robot.

C'est bien pensé je trouve. Et dans tout ce bordel ambiant autour de la robotique actuelle, eux semblent avoir trouver leur voie. Ils veulent transformer l'industrie, les usines...etc. Leur plan est clair et ils savent exactement ce qu'ils doivent réussir avant de passer à la suite (livraison à domicile, robots domestiques...).

Voilà, je pense que ça peut vous intéresser, même si c'est full english...

Reçu hier — 19 décembre 2025

Un projet open source qui détecte les nids-de-poule

Par :Korben
19 décembre 2025 à 12:00

Vous savez que depuis quelques années, des startups équipent les camions poubelle et les bus de caméras IA pour cartographier automatiquement l'état des routes ? Comme ça, pendant que le chauffeur fait sa tournée, une intelligence artificielle détecte les nids-de-poule, les fissures et autres joyeusetés routières en temps réel. Chaque défaut est géolocalisé, scoré par gravité, et hop, les équipes de maintenance savent exactement où intervenir.

Bon apparemment, là où j'habite, ils n'utilisent pas ça parce que les routes sont des champs de mines, mais si le Maire se chauffe en DIY, ce projet maintenu par un certain Peter va l'intéresser.

C'est sur GitHub et c'est un stack complet pour faire exactement la même chose que les startups spécialisées en nids de poule... un vrai projet end-to-end avec l'entraînement du modèle sur du GPU cloud, une API backend containerisée, et même une app mobile React Native pour scanner les routes depuis votre téléphone.

Le projet s'appelle pothole-detection-yolo et ça utilise YOLOv8, le modèle de détection d'objets qui fait fureur en ce moment dans le domaine de la vision par ordinateur. Concrètement, le modèle a été entraîné sur un dataset de nids-de-poule disponible sur HuggingFace, avec des images de 640x640 pixels. L'entraînement s'est fait sur Nebius Cloud avec des GPUs H100, donc du sérieux, pas du Colab gratuit qui timeout au bout de 20 minutes.

Ce qui est cool avec ce projet, c'est qu'il ne s'arrête pas au modèle. Y'a une API FastAPI complète qui expose deux endpoints : /detect pour envoyer une image et récupérer les bounding boxes avec les scores de confiance, et /health pour vérifier que le service tourne. Le tout est containerisé en Docker avec support GPU automatique. Et si vous avez pas de carte graphique, ça bascule sur CPU.

Et la cerise sur le gâteau, c'est l'app mobile Expo/React Native. Vous ouvrez l'app, vous prenez une photo d'une route avec votre smartphone, l'image est envoyée à l'API, et vous récupérez les détections en temps réel avec les rectangles dessinés autour des nids-de-poule et les pourcentages de confiance affichés. Bref, c'est exactement ce que font les boites tech à plusieurs millions, sauf que là c'est open source sous licence Apache 2.0.

YOLOv8 atteint facilement entre 93 et 99% de précision pour la détection de nids-de-poule selon les variantes utilisées et des chercheurs ont même combiné YOLOv8 avec des données de nuages de points 3D pour atteindre 95.8% de précision sur des tronçons de tests d'environ 5 km. Bref, c'est du solide et ça fonctionne .

Le truc intéressant pour les bricoleurs, c'est que le modèle entraîné est directement téléchargeable sur HuggingFace donc vous pouvez donc skip toute la partie entraînement si vous voulez juste tester le résultat. Une seule commande Docker pour lancer l'API, et vous êtes opérationnel. Pour les plus motivés qui veulent entraîner leur propre modèle avec des données locales de vos routes françaises pleines de cratères, le code d'entraînement est là aussi avec les configs Ultralytics.

Bref, si vous êtes une petite mairie qui veut cartographier l'état de vos routes sans claquer 50 000 euros dans une solution proprio, ou juste un dev curieux de voir comment fonctionne la stack derrière ces caméras intelligentes qu'on voit de plus en plus sur les véhicules de service, ce projet est une mine d'or.

Tout est là , documenté, et ça fonctionne du feu de dieu.

Reçu — 12 décembre 2025

Cette main bionique délègue la finesse du geste à l’IA, et change la vie des porteurs : une avancée décisive !

La prochaine génération de prothèses pourrait être bien plus intuitive à utiliser. Des chercheurs américains ont modifié une prothèse de main pour y intégrer un réseau neuronal, améliorant considérablement son fonctionnement pour saisir des objets.

Qui sont Lisa Su et Fei-Fei Li, les deux femmes en une du Time « Person of the Year » ?

12 décembre 2025 à 09:39

Révélée le 11 décembre 2025, la « Person of the Year » du célèbre TIME Magazine distingue « les architectes de l’IA ». Parmi les huit personnalités en image de Une, figurent deux femmes : Lisa Su et Fei-Fei Li.

Reçu — 9 décembre 2025

Ils savent jouer aux échecs mais échouent à attraper à une tomate : la grande faiblesse des robots

9 décembre 2025 à 15:38

La robotique est de plus en plus mobilisée pour l'agriculture à grande échelle, mais certaines tâches restent difficiles à automatiser, notamment celles qui impliquent de ramasser des tomates. Les problèmes mécaniques et algorithmiques s'accumulent, jusqu'à demander des prouesses avant d'arriver à un résultat convenable.

Reçu — 5 décembre 2025

12 semaines de formation Machine Learning gratos sur GitHub (et en français svp !)

Par :Korben
5 décembre 2025 à 10:07

Vous vous souvenez quand je vous avais parlé de la formation gratuite de Microsoft sur GitHub Copilot ? Hé bien ils remettent le couvert, mais cette fois c’est pour nous apprendre la science du Machine Learning from scratch ! Et c’est pas un petit tuto de 2h fait à l’arrache comme sur ma chaine Youtube… Non, c’est un bon gros programme complet en 12 semaines avec 26 leçons et tout ça dans la langue Gims.

Le repo s’appelle ML-For-Beginners et le truc cool c’est que Microsoft a choisi de se concentrer sur le Machine Learning “classique” avec Scikit-learn et pas du deep learning de richou qui demande des GPU à 3000 balles. Du coup c’est accessible à n’importe qui avec un laptop normal !

Leur programme couvre à peu près tout ce qu’il faut savoir pour débuter : Régression, classification, clustering, traitement du langage naturel, séries temporelles, et même un peu d’apprentissage par renforcement. Chaque leçon démarre par un quiz pour voir où vous en êtes, suivi de contenu avec des explications pas à pas, des challenges à faire, et un autre quiz de fin pour vérifier que vous avez bien tout capté.

Y’a même des “sketchnotes” (c’est à dire des résumés visuels) et des vidéos si vous êtes plus du genre à apprendre en regardant qu’en lisant . Et pour ceux qui préfèrent R à Python, y’a des versions alternatives des exercices en R Markdown .

La version française du README est dispo sur le repo et tout est traduit dans plus de 50 langues, du chinois à l’arabe en passant par le croate… Microsoft a automatisé la traduction via GitHub Actions, donc soyez souple d’esprit si vous croisez quelques phôtes…

L’approche pédagogique de cette formation est basée sur des projets concrets du genre prédire le prix des citrouilles, classifier des cuisines du monde (forcement, la française arrivera en premier ^^), analyser de la musique pour du clustering…etc. Bref, c’est un peu original !

Voilà si vous êtes en vacances ou en reconversion IA, pour commencer, il suffit de forker le repo et de le cloner sur votre machine.

Voilà, si vous avez toujours voulu comprendre comment fonctionne le Machine Learning sans vous taper des formules de maths pendant 6 mois ou vendre un rein pour un abonnement à un cours en ligne, c’est le bon moment je pense !

Merci Microsoft !

Reçu — 27 novembre 2025

Gradio 6 débarque pour créer des interfaces encore plus fluides

Par :Korben
27 novembre 2025 à 06:30

Si vous bidouiller un peu de machine learning et que vous avez la flemme de coder une interface web from scratch pour montrer vos jolis modèles, vous connaissez probablement Gradio , cette librairie Python qui permet de créer des démos interactives en quelques lignes de code.

Hé bien, excellente nouvelle, la version 6 vient de sortir et elle apporte pas mal de nouveautés intéressantes.

La grosse news de cette mise à jour , c’est d’abord la refonte complète de l’architecture avec le passage à Svelte 5 . Pour ceux qui s’en fichent du frontend, ça veut dire concrètement que vos apps seront plus légères et plus rapides à charger. L’équipe a aussi bossé sur l’optimisation des files d’attentes (quand y’a du monde sur votre démo), surtout pour les serveurs MCP (Model Context Protocol), donc si vous hébergez des trucs sur Hugging Face Spaces, vous devriez sentir la différence.

Côté fonctionnalités, y’a aussi quelques ajouts sympas comme le support natif des sous-titres pour les vidéos et l’audio, une nouvelle interface “MultimodalTextbox” améliorée pour le mobile (qui était franchement pas terrible avant), et pour ceux qui font des apps multipages, y’a maintenant un composant “Navbar” dédié à ça !

Le truc qui va plaire aux devs aussi, c’est qu’on peut désormais écrire des composants web personnalisés directement en HTML/JavaScript inline dans le code Python. Comme ça, plus besoin de sortir l’artillerie lourde avec des outils de build externes. Vous collez juste votre HTML, votre JS, et c’est parti mon kiki.

Par contre, attention si vous avez des projets existants… Y’a des changements qui vont casser des trucs. Par exemple, le format tuple dans le Chatbot a été supprimé, le composant Sketch est déprécié, et pas mal de paramètres ont bougé dans les composants graphiques natifs. L’équipe a quand même prévu un guide de migration avec des warnings de dépréciation pour vous aider à faire la transition.

A partir de maintenant, seule la branche 6.x sera maintenue, donc si vous êtes encore sur une vieille version, c’est le moment de migrer. La mise à jour se fait classiquement avec un

pip install --upgrade gradio

Notez que Gradio 6 nécessite Python 3.10 minimum et le support de Python 3.14 a été ajouté pour vous, les early adopters ^^.

Voilà, si vous faites du ML ou autre et que vous voulez montrer vos démos sans vous prendre la tête avec du React ou du Vue, Gradio reste une valeur sûre, et avec cette version 6 qui arrive, ce sera encore plus fluide et rapide !

Source

Reçu — 16 novembre 2025

This Japanese AI Can Instantly Describe What You’re Seeing or Imagining

15 novembre 2025 à 20:23
What if your brain could write its own captions, quietly, automatically, without a single muscle moving? That is the provocative promise behind “mind-captioning,” a new technique from Tomoyasu Horikawa at NTT Communication Science Laboratories in Japan (published paper). It is not telepathy, not science fiction, and definitely not ready to decode your inner monologue, but the underlying idea is so bold that it instantly reframes what non-invasive neurotech might become. […]

Reçu — 17 octobre 2025

AWS lance quatre certifications dédiées à l’IA et au ML

17 octobre 2025 à 14:56

Amazon Web Services (AWS) annonce le lancement de quatre nouvelles certifications centrées sur l’intelligence artificielle (IA) et l’apprentissage automatique (ML). L’hyperscaler s’attaque à structurer la validation des compétences dans un domaine en forte expansion, en couvrant à la fois les profils non techniques et les ingénieurs spécialisés.

Elles couvrent différents niveaux de maîtrise, du plus généraliste au plus avancé.

Jusqu’à présent, AWS ne proposait qu’une seule certification dédiée au machine learning, de niveau « Specialty ». L’introduction de ces quatre nouveaux examens établit un parcours progressif, allant de la compréhension des concepts à la maîtrise opérationnelle des outils de l’écosystème AWS.

Une structuration plus claire des parcours IA

La certification AI Practitioner marque l’entrée dans cet univers, en abordant les principes fondamentaux de l’IA sans nécessiter de compétences en programmation.
Les certifications Machine Learning Engineer – Associate et Data Engineer – Associate s’adressent à des profils techniques impliqués dans la mise en œuvre et la gestion des données nécessaires à l’entraînement des modèles.
Enfin, Generative AI Developer – Professional, la plus avancée, cible les spécialistes capables d’intégrer et d’optimiser des modèles génératifs en production, notamment via des services comme Amazon Bedrock.

Ces certifications offrent un cadre de reconnaissance standardisé pour les professionnels souhaitant démontrer leur maîtrise des outils d’IA dans l’environnement AWS. Elles peuvent contribuer à clarifier les compétences sur le marché du travail, tout en favorisant la montée en qualification sur des technologies très demandées.

Elles restent toutefois étroitement liées à l’écosystème AWS, ce qui limite la transférabilité directe des compétences vers d’autres plateformes cloud. La rapidité d’évolution du secteur oblige par ailleurs à actualiser fréquemment les référentiels d’examen, afin de suivre les évolutions technologiques et les bonnes pratiques.

La version bêta de l’examen Generative AI Developer illustre cette dynamique : elle sera ajustée avant sa version finale en fonction des retours des premiers candidats.

Quatre certifications pour quatre niveaux de spécialisation

Nom de la certification Niveau / catégorie Public visé & prérequis Contenu / compétences évaluées Particularités (durée, format, langue, coût)
AWS Certified AI Practitioner Fondamental (Foundational) Professionnels non techniques ou débutants connaissant les bases de l’IA/ML Concepts d’IA et de machine learning, cas d’usage, principes d’IA responsable, services AWS liés à l’IA 90 minutes, 65 questions, coût 100 USD, disponible en français, en ligne ou en centre Pearson VUE
AWS Certified Machine Learning Engineer – Associate Niveau Associate Ingénieurs ou développeurs ayant une expérience en IA/ML sur AWS Développement, déploiement, maintenance et supervision de modèles à l’échelle Certification orientée sur la mise en production de modèles d’IA dans AWS
AWS Certified Data Engineer – Associate Niveau Associate Professionnels en charge de la gestion et de la préparation de données Conception d’architectures, création de pipelines, qualité et orchestration des données 130 minutes, 65 questions, coût 150 USD
AWS Certified Generative AI Developer – Professional Niveau Professionnel Développeurs expérimentés en IA/ML souhaitant concevoir des applications génératives Utilisation de modèles de base, ingénierie de prompts, bases vectorielles, optimisation des performances et sécurité Examen bêta de 204 minutes, 85 questions, coût 150 USD

The post AWS lance quatre certifications dédiées à l’IA et au ML appeared first on Silicon.fr.

Reçu — 7 octobre 2025

ChatGPT ma tuer … ou pas ?

Par :Cédric
10 janvier 2023 à 15:47
Qui n'a pas récemment entendu ni vraiment suivi l'énorme buzz sur la toile au sujet de la nouvelle création de OpenAI et plus précisément de l'algorithme GPT3 et son Chat grand public ChatGPT. Bluffant, incroyable, diabolique, complètement incompréhensible, magique ... capable de vous pondre des articles construits, des scripts voir des parties entière de code à partir de quelques phrases simples et suffisamment précises. Aujourd'hui c'est l'heure de faire un bilan bien sombre de mon activité de blogguer pro, alors ... c'est fini ? ... ou pas ?
❌