Vue lecture

MilimoVideo - Le studio de cinéma IA 100% local

MilimoVideo, c'est un studio de production vidéo boosté à l'IA qui tourne entièrement en local sur votre ordi... pas de cloud, juste votre GPU qui mouline quoi...

Et contrairement à ce que vous pensez (je suis dans vos têtes !! lol), ce n'est pas un énième générateur prompt-to-video à la Sora . Non, il s'agit d'un vrai NLE ... ou plutôt un éditeur non-linéaire pour ceux qui découvre, avec une timeline multi-pistes, du trim au frame près et tout le toutim, sauf que derrière, y'a 4 modèles d'IA qui bossent ensemble main dans la main.

Du côté moteur, on retrouve donc LTX-2, un transformer dual-stream de 19 milliards de paramètres pour la génération vidéo. Text-to-video, image-to-video, interpolation de keyframes... c'est le package complet. Ensuite, pour les images, c'est Flux 2 Klein avec l'IP-Adapter qui maintient la cohérence visuelle de vos personnages d'un plan à l'autre, comme ça, finis les visages de vos acteurs qui changent toutes les 3 secondes.

Et y'a aussi SAM 3 pour la segmentation. Vous cliquez sur un objet dans la vidéo, hop, il le détecte et le suit alors automatiquement d'un bout à l'autre du clip. Et pour finir, Gemma 3 se charge d'améliorer vos prompts pour que les résultats soient plus "cinématiques".

Le truc cool, c'est surtout le système de "Story Elements" je trouve car avec ça, vous pouvez créer des personnages, des lieux, des objets, et vous les invoquez ensuite dans vos prompts avec un @Personnage. Du coup, le studio injecte les bonnes références visuelles pour garder une cohérence sur tout votre projet. Faut voir ça un peu comme des variables de code, mais pour du cinéma.

Et si vos plans dépassent 121 frames, le "Quantum Alignment" découpe la génération en morceaux et raccorde ces segments sans couture visible. Voilà comment les transitions entre bouts générés sont gérées proprement sans que vous ayez à lever le petit doigt. Magique hein ?

Pour voir ce que ça donne en pratique, voilà une démo qui montre le workflow complet :

Côté retouche, y'a aussi de l'inpainting (vous peignez un masque sur la vidéo et Flux 2 remplace la zone) et du tracking d'objets bidirectionnel. C'est carrément pas mal pour un projet open source sous licence Apache 2.0, vous ne trouvez pas ?

Après côté config, faut quand même du matos. Avec une carte NVIDIA, comptez 16 Go de VRAM (recommandés) et sur Apple Silicon, c'est M1 Max ou mieux avec 32 Go de RAM. Oubliez votre PC à 500 balles, quoi car en dessous de ces specs ça ne marchera pas.

L'ensemble s'installe via un git clone classique, le backend tourne sur FastAPI avec SQLite, le frontend sur React 18... et le tout communique en temps réel via SSE. Après, si vous êtes plutôt à la recherche d'un éditeur vidéo classique dans le navigateur , c'est pas le même délire, car là avec MilimoVideo on est dans la génération pure.

Bref, si les workflows ComfyUI à rallonge vous filent des boutons, MilimoVideo mérite donc le coup d'oeil.

Merci à Lorenper pour le partage !

  •  
❌