Vue lecture

Higgsfield - Le Netflix de l'IA où 4 personnes remplacent tout un studio

100 millions de dollars, c'est ce que coûterait normalement la production d'un pilote de qualité ciné, d'après Higgsfield, une boite basée à San Francisco et fondée par Alex Mashrabov.

Et eux, ils l'ont fait en 4 jours avec une équipe de 4 personnes et quelques GPU. Bienvenue dans l'ère du streaming généré par IA !

La plateforme vient en effat de lancer ses Original Series , une sorte de Netflix où tout le catalogue est généré par IA. On y trouve 13 séries dispo (sci-fi, thriller, anime, comédie...) avec des titres comme Arena Zero, Spit & Glow ou encore Tails of Steel, plus 6 autres en préparation. Et tout ça, des dialogues aux effets visuels en passant par le doublage, est généré par intelligence artificielle (même si évidemment, y'a des humains derrière pour le scénario, le prompting et le montage).

Mais le truc fou je trouve, c'est le modèle communautaire. En fait, Higgsfield a organisé un concours qui a attiré plus de 8 700 créateurs venus de plus de 100 pays, comme ça plutôt que de produire en interne, ils laissent la communauté proposer des teasers. Les spectateurs votent alors pour ceux qu'ils préfèrent, et les gagnants se retrouvent à produire des séries complètes avec l'équipe.

Cela veut dire que n'importe qui avec une bonne idée et un bon sens du prompt peut devenir "réalisateur"... sans jamais toucher une caméra ni un plateau de tournage.

Côté boîte à outils, la plateforme ne fait pas les choses à moitié. Y'a le Cinema Studio 2.5 pour la génération vidéo , et la plateforme intègre des modèles tiers comme Kling 3.0 (vidéos de 15 secondes avec personnages cohérents), Sora 2 , Veo 3.1, et même du clonage vocal via ElevenLabs. Pour l'image, y'a Nano Banana Pro (oui, c'est le vrai nom) qui sort du 4K, et plus de 100 apps prêtes à l'emploi pour le face swap, les VFX ou la création de contenu commercial.

Par contre, tout ça repose sur des modèles tiers... donc le jour où OpenAI ou Google changent les conditions liées à leurs API, ça peut les secouer un peu.

Maintenant pour ceux qui se demandent si c'est gratuit, oui, y'a un tier free avec des crédits quotidiens via l'app mobile Diffuse. Sauf que les crédits partent trèèès vite, car générer une vidéo de 15 secondes en 4K, ça consomme pas mal de compute. Pour les gros volumes, faudra donc passer à la caisse.

Alors c'est pas encore 100% nickel mais j'ai été vraiment bluffé par cet épisode par exemple :

C'est vrai que le lipsync n'est pas toujours perfecto, que les mains font parfois n'importe quoi, et que la continuité entre les plans n'est pas toujours raccord.

Mais le concept est dingue quand même car là où il fallait un studio avec des centaines de techniciens, des caméras RED à 50 000 balles et des mois de post-production, y'a maintenant un pipeline automatisé qui prend un scénario et crache un épisode complet. Et le fait que les créateurs viennent du monde entier, sans formation ciné, ça change tout en terme de scénario et de diversité de contenus !

Donc, si vous voulez voir à quoi ressemble le cinéma actuel quand c'est l'IA qui tient la caméra, allez jeter un œil. C'est encore un peu brouillon mais ça progresse très vite (trop ?), je trouve...

  •  

MilimoVideo - Le studio de cinéma IA 100% local

MilimoVideo, c'est un studio de production vidéo boosté à l'IA qui tourne entièrement en local sur votre ordi... pas de cloud, juste votre GPU qui mouline quoi...

Et contrairement à ce que vous pensez (je suis dans vos têtes !! lol), ce n'est pas un énième générateur prompt-to-video à la Sora . Non, il s'agit d'un vrai NLE ... ou plutôt un éditeur non-linéaire pour ceux qui découvre, avec une timeline multi-pistes, du trim au frame près et tout le toutim, sauf que derrière, y'a 4 modèles d'IA qui bossent ensemble main dans la main.

Du côté moteur, on retrouve donc LTX-2, un transformer dual-stream de 19 milliards de paramètres pour la génération vidéo. Text-to-video, image-to-video, interpolation de keyframes... c'est le package complet. Ensuite, pour les images, c'est Flux 2 Klein avec l'IP-Adapter qui maintient la cohérence visuelle de vos personnages d'un plan à l'autre, comme ça, finis les visages de vos acteurs qui changent toutes les 3 secondes.

Et y'a aussi SAM 3 pour la segmentation. Vous cliquez sur un objet dans la vidéo, hop, il le détecte et le suit alors automatiquement d'un bout à l'autre du clip. Et pour finir, Gemma 3 se charge d'améliorer vos prompts pour que les résultats soient plus "cinématiques".

Le truc cool, c'est surtout le système de "Story Elements" je trouve car avec ça, vous pouvez créer des personnages, des lieux, des objets, et vous les invoquez ensuite dans vos prompts avec un @Personnage. Du coup, le studio injecte les bonnes références visuelles pour garder une cohérence sur tout votre projet. Faut voir ça un peu comme des variables de code, mais pour du cinéma.

Et si vos plans dépassent 121 frames, le "Quantum Alignment" découpe la génération en morceaux et raccorde ces segments sans couture visible. Voilà comment les transitions entre bouts générés sont gérées proprement sans que vous ayez à lever le petit doigt. Magique hein ?

Pour voir ce que ça donne en pratique, voilà une démo qui montre le workflow complet :

Côté retouche, y'a aussi de l'inpainting (vous peignez un masque sur la vidéo et Flux 2 remplace la zone) et du tracking d'objets bidirectionnel. C'est carrément pas mal pour un projet open source sous licence Apache 2.0, vous ne trouvez pas ?

Après côté config, faut quand même du matos. Avec une carte NVIDIA, comptez 16 Go de VRAM (recommandés) et sur Apple Silicon, c'est M1 Max ou mieux avec 32 Go de RAM. Oubliez votre PC à 500 balles, quoi car en dessous de ces specs ça ne marchera pas.

L'ensemble s'installe via un git clone classique, le backend tourne sur FastAPI avec SQLite, le frontend sur React 18... et le tout communique en temps réel via SSE. Après, si vous êtes plutôt à la recherche d'un éditeur vidéo classique dans le navigateur , c'est pas le même délire, car là avec MilimoVideo on est dans la génération pure.

Bref, si les workflows ComfyUI à rallonge vous filent des boutons, MilimoVideo mérite donc le coup d'oeil.

Merci à Lorenper pour le partage !

  •  
❌