Vue lecture

VoxDrop - La dictée vocale ultra-rapide qui tourne en local sur Mac

La dictée vocale, y'a plein d'outils pour ça. Sauf que la plupart envoient votre voix dans le cloud pour la transcrire, et surtout... c'est lent. Chez Google, chez OpenAI, chez Apple... entre le moment où vous parlez et celui où le texte s'affiche, y'a toujours cette latence qui casse tout. Et ça fait des mois que ça me gonflait, surtout en bossant sur mon Mac Studio M4 et mon MacBook Air M2 qui sont quand même censés être des bêtes de course.

Du coup je me suis codé VoxDrop au départ rien que pour moi. Une app macOS qui transforme votre voix en texte, et avec laquelle TOUT se passe en local sur votre machine. Zéro cloud, zéro donnée qui fuite, et surtout c'est rapide. Vous appuyez sur un raccourci (⌥ + Espace par défaut), vous parlez, vous relâchez, et hop, le texte apparaît directement là où se trouve votre curseur. Pas de fenêtre à ouvrir, pas de copier-coller. L'app est super légère et reste discrète en tâche de fond sans bouffer votre RAM.

L'interface de VoxDrop - sobre et efficace ( Source )

Côté moteurs de transcription, y'en a 7 au choix. J'ai voulu ratisser large en mettant des modèles américains, français et chinois. Parakeet de NVIDIA (600 Mo) est le modèle par défaut. Il est super rapide, c'est mon préféré. J'ai mis aussi Whisper avec ses variantes Small, Medium, Turbo et Large v3 qui couvre tous les cas. Y'a aussi Voxtral Mini de chez Mistral, made in France, et Qwen3-ASR le modèle chinois.

Les 7 moteurs de transcription au choix ( Source )

Alors pourquoi sur architecture Silicon ? Hé bien déjà parce que c'est ce que j'utilise au quotidien et aussi parce que les puces Apple Silicon (M1, M2, M3, M4) ont un avantage énorme pour l'IA locale : la mémoire unifiée. En gros, le CPU et le GPU partagent la même RAM. Un modèle chargé en mémoire est donc directement accessible au GPU Metal pour les calculs, sans copie de données. C'est pas magique non plus hein, si votre modèle fait 3 Go et que vous avez 8 Go de RAM, ça va ramer. Mais sur un MacBook Air M2, un modèle de 400 Mo tourne en temps réel sans broncher.

Et VoxDrop ne fait pas QUE de la transcription. Y'a aussi du post-traitement local avec une traduction dans 13 langues mais aussi une reformulation (mode pro, décontracté, concis, structuré...), le tout via le modèle de langage embarqué GemmaTranslate. Et vous avez 5 raccourcis clavier indépendants, chacun avec sa propre config. Un pour dicter, un pour traduire en direct, un pour reformuler ce que vous avez sélectionné...etc. Perso, au quotidien, ceux qui l'utilisent ne peuvent s'en passer. Et moi non plus ! Sauf si vous tapez plus vite que vous ne parlez, mais bon, ça m'étonnerait ^^.

Maintenant, pourquoi c'est pas sur l'App Store ?

Parce que VoxDrop est réservé à mes abonnés Patreon . Vous me soutenez pour la veille techno et la vulgarisation, et en retour j'ai envie de vous filer des outils concrets que j'utilise moi-même tous les jours. Pas de commission, pas d'intermédiaire. Juste un truc développé pour les gens qui me suivent.

J'espère d'ailleurs que ce sera la première d'une série d'apps comme ça. En tout cas, je ne crois pas avoir vu ce modèle de licence ailleurs. J'ai même développé un petit framework exprès pour ça, que je compte bien réutiliser.

Voilà, un GROS merci à tous ceux qui ont bêta-testé l'app pour moi, vos retours ont été très précieux !

Et si vous êtes déjà sur Patreon , VoxDrop est dispo ici !

  •  
❌