Vue lecture

Firefox AI Window - L'IA qui vous respecte

Édit du 18 novembre : Je me suis pris quelques insultes d’anti- suite à cet article. Sans surprise, des attaques ad-hominem sans argument comme d’hab. Par contre, si j’édite ce post, c’est pour vous dire que Anil Dash, qui est assez connu dans le monde de la tech, pense plus ou moins pareil que moi au sujet de l’IA dans Firefox. Donc ça me rassure un petit peu parce que j’avais vraiment l’impression d’être tout seul… Son article est disponible ici. *

Je viens à l’instant de m’inscrire sur la liste d’attente de Firefox AI Window . Il s’agit d’une nouvelle fonctionnalité IA pour Firefox qui tournera en local, respectera la vie privée, et nous laissera choisir notre modèle. Je suis assez hypé par le truc mais je vous avoue que les commentaires sur le forum Mozilla Connect sont… comment dire… assez révélateurs.

En effet, il y a une écrasante majorité de réactions négatives. Alors c’est pas contre l’implémentation technique, ni contre l’approche privacy-first de Mozilla. Non, c’est essentiellement contre le simple fait que le mot “IA” existe au sein de Firefox. Certains utilisateurs réclament même un bouton géant “No AI” visible depuis l’espace, pour désactiver une fonctionnalité qui est déjà désactivée par défaut. Ces mecs ont de la fièvre je pense…

Le truc qui m’agace en fait, dans ces réactions teubées, c’est qu’elles passent complètement à côté de l’enjeu stratégique. Chrome intègre Gemini de façon de plus en plus invasive, Edge a Copilot, Arc a son Browse for Me, Perplexity et OpenAI lancent leurs navigateurs IA… Alors si ce bon vieux Firefox reste immobile au sujet de l’IA pendant que tout le monde avance, je vous rassure, il ne deviendra jamais “le dernier bastion de la pureté” qui fait mouiller les anti-IA.

Non, il deviendra juste obsolète.

Réveillez-vous les gars, Mozilla propose exactement ce que les libristes demandent depuis toujours ! Un respect de la vie privée, un contrôle utilisateur total, de la transparence, un fonctionnement en local, des petits modèles, du code libre…etc.

Mais bon parce que c’est de l’IA, ça devient l’ennemi. Faudrait quand même être sacrément con pour saborder la SEULE implémentation IA grand public qui respecte réellement ces principes de liberté et de respect de la vie privée.

Plutôt que de gueuler sur Mozilla, je vous invite plutôt à vous poser cette question : Est ce que vous préférez une IA locale optionnelle dans Firefox, ou une IA obligatoire cloud-only dans Chrome qui aura au final capté 95% du marché parce que Firefox sera mort de n’avoir rien fait ?

Parce que si Firefox disparaît, on perdra le dernier navigateur grand public capable de proposer une alternative respectueuse pour notre vie privée et ça perso, ça m’inquiète.

Nos champions anti-IA n’ont, pour la plupart, même pas remarqué que Firefox proposait déjà des fonctionnalités IA locales depuis le début cette année . Je pense au tab grouping automatique avec suggestions de titres, à la traduction de pages instantanée sans envoyer le contenu hors de votre machine, à la génération d’alt-text pour des images accessibles sans faire de compromis sur la vie privée… Tout ça tourne déjà en local chez vous et pas grand monde ne s’en plaint.

Je pense que c’est parce que Mozilla ne communique pas dessus en mettant des paillettes “AI-powered” partout. Ils font juste leur taf. C’est un peu comme quand je parle d’une super application cross-platform… Suffit que j’écrive que c’est fait en Electron et y’en a qui tombent dans le coma direct. Et cela peu importe que l’app soit folle ou pas. Bref, c’est ridicule.

AI Window sera donc une troisième fenêtre de navigation (en plus des fenêtres classiques et privées), avec un assistant et un chatbot intégré. Mozilla présente ça comme, je cite, “un compagnon de confiance qui améliore votre navigation et vous guide vers le web plus large”, par opposition aux navigateurs IA qui vous enferment dans une boucle conversationnelle pour à terme, je pense vous vendre des trucs et conserver votre attention et vos données perso.

Grâce à Mozilla, vous pourrez choisir votre modèle IA et tout sera “opt-in” comme on dit. Ça veut dire que tout sera en option et rien ne sera activé par défaut. Vous pourrez choisir de l’activer ou non ! Que demande le peuple ? C’est merveilleux non ?

Faut dire que Mozilla a clairement appris de ses erreurs puisqu’ils ne forcent rien, ne pré-activent rien mais construisent tranquillement le meilleur navigateur possible, à la vue de tous (le code est libre, open source et chacun peut contribuer et donner son avis). Après, même comme ça, même en jouant la transparence absolue, ça ne plaira jamais à une certaine petite caste de barbus aveuglés par des idées pré-digérées faciles à comprendre. Tant pis pour eux !

Maintenant, le vrai enjeu pour moi, c’est pas ça, c’est surtout l’ouverture aux développeurs. J’espère vraiment que ces fonctionnalités IA seront accessibles via une API pour les extensions Firefox. Si c’est le cas, on va pouvoir créer des extensions qui s’appuient sur l’IA locale de Mozilla, sans avoir à ajouter un modèle de 500 MB ou à envoyer les données utilisateur dans le cloud. Et ça, j’avoue ce serait trop cool car ça ouvrirait l’écosystème des extensions Firefox à tout un tas de nouvelles extensions “intelligentes” qui respectent la vie privée.

Voilà… je sais que le changement c’est dur les gars, et que ça hérisse les poils de cul de certains pas bien sevrés mais l’IA de Mozilla va apporter des choses intéressantes dans le navigateur, que ça vous plaise ou non. Et si Mozilla ne se met pas à la page, Firefox prendra encore plus la poussière et finira par être délaissé. Et au final, on aura tout perdu et y’aura même plus d’IA qui respecte la vie privée et qui soit accessible au grand public gratuitement.

Voilà… Soyez pas cons. En tout cas, pour ma part, j’ai hâte de tester AI Window quand ça sortira !

Source

  •  

Reins - Un Ollama sur mobile sans faire tourner Ollama sur mobile

Vous voulez utiliser Ollama sur votre iPhone ou Android pour lancer vos petits LLM en local ? Ce serait super cool non ? Bah j’ai une mauvaise nouvelle pour vous… votre smartphone n’a pas assez de mémoire vive pour faire ça…

Le problème est simple… les LLM bouffent un max de RAM. Par exemple, un LLaMA 7B, c’est dans les 12 GB de RAM. Et même quantifié en int4 pour gagner de la place, vous tombez à environ 3,5 GB. Et ça, c’est juste le modèle hein… Faut y ajouter le contexte, l’OS, les autres apps, et votre smartphone à 8 GB de RAM commence à suer de la raie.

Google a bien sûr sorti Gemini Nano pour Android, leur petit LLM optimisé pour mobile mais c’est compatible avec une poignée de smartphone car il faut un NPU dédié, assez de RAM, et une architecture très récente. Les autres, vous irez vous faire voir…

Du coup, une solution “pragmatique”, c’est de laisser votre Mac, votre PC, ou un petit serveur faire tourner Ollama chez vous, et d’utiliser votre smartphone comme simple client pour vous y connecter à distance. Vous gardez vos données locales, vous profitez de toute la puissance des modèles lourds, et votre iPhone ne chauffe pas comme un radiateur.

Et pour ça, il existe tout un tas d’apps mobiles qui font office de client Ollama. Des apps comme Enchanted sur iOS, My Ollama , Heat , et même les solutions cross-platform comme Ollamb codé en Flutter. Et aujourd’hui, je vous parle de Reins , une app développée par Ibrahim Cetin qui se démarque par des fonctionnalités que j’ai trouvées bien pensées.

Les fonctionnalités sont conçues pour des cas d’usage du monde réel. Vous pouvez ainsi définir un prompt system différent par conversation ce qui est pratique si vous avez un chat pour le code, un pour l’écriture, un pour la traduction et j’en passe… Vous éditez et régénérez les prompts à la volée et vous pouvez changer de modèle en cours de conversation sans tout perdre.

Reins supporte également l’envoi d’images, ce qui est utile si vous utilisez un modèle vision comme LLaVA. Vous pouvez aussi tweaker les paramètres avancés tels que la température, seed, taille du contexte, tokens max…etc. Et le streaming fonctionne en temps réel, comme ça pas besoin d’attendre une réponse complète avant de la voir.

Bien sûr, la question de la sécurité se pose. Il faut quand même exposer votre serveur Ollama sur Internet pour y accéder de l’extérieur donc pensez HTTPS obligatoire, tunnel ngrok temporaire si vous testez, VPN Tailscale ou Wireguard si vous voulez du permanent et sécurisé. Bref, les précautions classiques.

Vous pouvez télécharger Reins sur l’App Store, en APK ou récupérer les builds macOS/Linux sur GitHub .

Merci à Lorenper pour l’info.

  •  

MocoLlamma - Ollama gérable depuis iPhone, iPad et Vision Pro

Vous avez installé Ollama sur votre Mac et vous êtes le plus joyeux de tous les mammifères car vous faites tourner Llama 3.x en local comme un chef. Et puis un soir, posé dans votre canapé avec votre iPad de bourgeois capitaliste, vous vous dites que ce serait bien de pull un nouveau modèle. Et là, vous réalisez qu’il va falloir sortir le MacBook, ouvrir un terminal, taper ollama pull mistral, attendre et attendre… Grosse flemme non ?

Hé oui, Ollama reste un outil en ligne de commande. C’est génial pour les devs, mais galère pour le reste et vous avez beau avoir de la puissance de calcul dans votre poche avec un iPhone ou un iPad, c’est impossible de gérer vos modèles sans SSH et sans Terminal.

Heureusement, MocoLlamma vient combler ce fossé. C’est une app de gestion Ollama pour macOS, iOS, iPadOS, et même visionOS si vous avez ce truc. C’est donc une vraie app native avec interface graphique, développée en Swift et SwiftUI dans laquelle ous ajoutez vos serveurs Ollama, et où vous gérez vos modèles, et vous testez vos LLM via un chat basique.

L’app s’organise autour de trois onglets. Le premier, Server, vous permet d’ajouter et de switcher entre plusieurs serveurs Ollama. Vous pouvez ainsi renommer chaque serveur, gérer les connexions, bref, tout ce qu’il faut pour jongler entre votre Mac local, votre serveur, ou votre instance cloud si vous en utilisez une.

Le second onglet, Model, affiche tous les modèles disponibles sur le serveur sélectionné. Vous voyez ainsi les infos de chaque modèle, vous pouvez les trier par taille, les ajouter ou les supprimer. Comme ça, plus besoin de taper ollama list pour savoir ce qui tourne. Tout est là, visuellement, avec la possibilité de gérer vos modèles d’un tapotage bien senti.

Le troisième onglet, Chat, permet de tester rapidement un modèle. C’est volontairement basique et l’idée n’est pas de remplacer ChatGPT ou Open WebUI, mais juste de vérifier qu’un modèle répond correctement. Genre, vous venez de pull Qwen 3, et vous voulez voir s’il fonctionne avant de l’intégrer dans votre workflow. Hop, quelques questions rapides dans le chat, et vous savez.

Il existe bien sûr des tonnes d’alternatives de GUI pour Ollama comme Open WebUI , LM Studio , Jan , GPT4All … Mais aucune ne supporte nativement visionOS ou les iPad / iPhone. Alors que MocoLlamma, si.

C’est actuellement la seule app qui vous permet de gérer vos LLM locaux depuis ces appareils Apple… C’est assez niche c’est vrai mais ça peut rendre service.

Le nom “MocoLlamma” est ce qu’on appelle un mot valise de “Model”, “Control”, “Ollama”, et “Manage”. C’est moche de ouf, c’est pas super à retenir, mais au moins ça décrit exactement ce que fait l’app.

Y’a la version gratuite qui est disponible sur GitHub, mais uniquement pour macOS (c’est sous license MIT) et la version payante, à 1,99 dollars sur l’App Store, supporte macOS, iOS, iPadOS, et visionOS. La différence principale pour l’app macOS c’est surtout les mises à jour automatiques. Vous payez 2 balles pour le confort.

Et là, un point crucial, sachez que MocoLlamma ne collecte AUCUNE donnée utilisateur. Bref, cette appli vient combler le trou qui se trouve entre “j’ai installé Ollama” et “je peux gérer mes modèles depuis mon iPhone”. Si vous avez ce besoin, c’est donc à considérer.

Merci à Lorenper pour la découverte.

  •  

EuroLLM - Le LLM européen qui tourne sur votre laptop

Faire tourner un modèle de langage européen sur votre machine sans avoir besoin d’un serveur surpuissant branché sur une centrale nucléaire, c’est maintenant possible, les amis ! Hé oui, EuroLLM vient de prouver qu’on pouvait faire tourner un modèle à 9 milliards de paramètres dans un peu moins de 6 GB de RAM sur un simple laptop.

Une seule commande Ollama , et c’est parti mon kiki !!!

Bien sûr, il est encore loin des gros modèles proprio comme GPT-5 mais c’est le enfin le premier LLM européen que VOUS pouvez faire tourner en local. C’est respectueux de votre vie privée, des droits d’auteurs et c’est gratuit !

Un projet 100% européen

EuroLLM, c’est en réalité une coalition de labos européens : Instituto Superior Técnico (Lisbonne), University of Edinburgh , Université Paris-Saclay , Unbabel , et d’autres et c’est financé par Horizon Europe et l’ EuroHPC , et ce modèle supporte les 24 langues officielles de l’UE, plus 11 langues supplémentaires (arabe, chinois, hindi, japonais, coréen, russe, turc…).

EuroLLM-9B , le modèle de base, a été entraîné sur 4 trillions de tokens avec le supercalculateur MareNostrum 5 à Barcelone (400 GPUs Nvidia H100) et l’architecture utilise du Grouped Query Attention, RoPE, SwiGLU et RMSNorm, comme tout LLM moderne qui se respecte.

Mais il existe d’autres versions comme EuroLLM-1.7B pour smartphones et bientôt EuroLLM-22B pour plus de puissance, ainsi qu’une version vision-language (EuroVLM-9B) et un modèle Mixture-of-Experts (EuroMoE-2.6B).

Et surtout c’est sous licence Apache 2.0. Donc l’usage commercial est autorisé, vous pouvez le fine-tuner sur vos données, et les modifications sont libres, sans redevance à payer. Ce n’est pas la première fois qu’il y a des LLM européens mais ils étaient soit sous licence trop restrictives ou un peu trop lourd pour être utilisé localement par les gens normaux comme vous et moi.

Maintenant comment l’installer ?

La méthode la plus simple, c’est via Ollama :

ollama run hf.co/bartowski/EuroLLM-9B-Instruct-GGUF

Ollama télécharge le modèle en version GGUF (format optimisé CPU/GPU), et vous pouvez commencer à discuter. Il existe aussi une version pré-packagée alibayram/erurollm-9b-instruct (attention, erurollm avec un “u”), quantized en Q4_K_M pour réduire la taille à 5,6 GB.

Si vous préférez Python et Hugging Face Transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

inputs = tokenizer("Explique-moi ce qu'est un LLM en français simple", return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0]))

Une fois téléchargé, le modèle reste en cache local. Vous pouvez alors l’utiliser offline, sans connexion internet. Et pour les machines avec moins de RAM, la version 1.7B tourne même sur des Raspberry Pi :

ollama run cas/eurollm-1.7b-instruct-q8

Alors pourquoi c’est important ?

EuroLLM ouvre l’IA européenne à des cas d’usage impossibles avec des API cloud. Par exemple une administration publique ne peut pas envoyer ses documents dans le cloud d’OpenAI… ce serait tout livrer aux américains. Elle peut donc fine-tuner EuroLLM localement. Un journaliste en zone sensible sans connexion fiable peut aussi embarquer le modèle sur son ordi portable. Même un chercheur qui manipule des données médicales confidentielles peut le faire en toute confiance avec EuroLLM puisque tout reste sur sa machine.

C’est cool quand même que l’Europe nous file un modèle gratuit qu’on peut installer chez soi et utiliser sans limite. Après c’est vrai que EuroLLM ne bat pas GPT-4 (pas encore) mais il est suffisamment bon pour 80% des cas d’utilisation réels tels que des résumés, de la traduction, des questions-réponses simples, de la génération de code basique.

La roadmap prévoit d’ajouter de la vision et de la voix aux modèles. D’ailleurs, comme je vous le disais, EuroVLM-9B est déjà en preview sur Hugging Face , ce qui ouvre la voie à de l’OCR multilingue, de l’analyse de documents visuels, ou encore à la création d’assistants vocaux dans n’importe quelle langue…

Voilà j’ai trouvé ça cool à tester et un grand merci à Letsar pour le partage !

  •