EuroLLM - Le LLM européen qui tourne sur votre laptop 6 novembre 2025 à 09:00

EuroLLM - Le LLM européen qui tourne sur votre laptop

6 novembre 2025 à 09:00

Faire tourner un modèle de langage européen sur votre machine sans avoir besoin d’un serveur surpuissant branché sur une centrale nucléaire, c’est maintenant possible, les amis ! Hé oui, EuroLLM vient de prouver qu’on pouvait faire tourner un modèle à 9 milliards de paramètres dans un peu moins de 6 GB de RAM sur un simple laptop.

Une seule commande Ollama , et c’est parti mon kiki !!!

Bien sûr, il est encore loin des gros modèles proprio comme GPT-5 mais c’est le enfin le premier LLM européen que VOUS pouvez faire tourner en local. C’est respectueux de votre vie privée, des droits d’auteurs et c’est gratuit !

Un projet 100% européen

EuroLLM, c’est en réalité une coalition de labos européens : Instituto Superior Técnico (Lisbonne), University of Edinburgh , Université Paris-Saclay , Unbabel , et d’autres et c’est financé par Horizon Europe et l’ EuroHPC , et ce modèle supporte les 24 langues officielles de l’UE, plus 11 langues supplémentaires (arabe, chinois, hindi, japonais, coréen, russe, turc…).

EuroLLM-9B , le modèle de base, a été entraîné sur 4 trillions de tokens avec le supercalculateur MareNostrum 5 à Barcelone (400 GPUs Nvidia H100) et l’architecture utilise du Grouped Query Attention, RoPE, SwiGLU et RMSNorm, comme tout LLM moderne qui se respecte.

Mais il existe d’autres versions comme EuroLLM-1.7B pour smartphones et bientôt EuroLLM-22B pour plus de puissance, ainsi qu’une version vision-language (EuroVLM-9B) et un modèle Mixture-of-Experts (EuroMoE-2.6B).

Et surtout c’est sous licence Apache 2.0. Donc l’usage commercial est autorisé, vous pouvez le fine-tuner sur vos données, et les modifications sont libres, sans redevance à payer. Ce n’est pas la première fois qu’il y a des LLM européens mais ils étaient soit sous licence trop restrictives ou un peu trop lourd pour être utilisé localement par les gens normaux comme vous et moi.

Maintenant comment l’installer ?

La méthode la plus simple, c’est via Ollama :

ollama run hf.co/bartowski/EuroLLM-9B-Instruct-GGUF

Ollama télécharge le modèle en version GGUF (format optimisé CPU/GPU), et vous pouvez commencer à discuter. Il existe aussi une version pré-packagée alibayram/erurollm-9b-instruct (attention, erurollm avec un “u”), quantized en Q4_K_M pour réduire la taille à 5,6 GB.

Si vous préférez Python et Hugging Face Transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

inputs = tokenizer("Explique-moi ce qu'est un LLM en français simple", return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0]))

Une fois téléchargé, le modèle reste en cache local. Vous pouvez alors l’utiliser offline, sans connexion internet. Et pour les machines avec moins de RAM, la version 1.7B tourne même sur des Raspberry Pi :

ollama run cas/eurollm-1.7b-instruct-q8

Alors pourquoi c’est important ?

EuroLLM ouvre l’IA européenne à des cas d’usage impossibles avec des API cloud. Par exemple une administration publique ne peut pas envoyer ses documents dans le cloud d’OpenAI… ce serait tout livrer aux américains. Elle peut donc fine-tuner EuroLLM localement. Un journaliste en zone sensible sans connexion fiable peut aussi embarquer le modèle sur son ordi portable. Même un chercheur qui manipule des données médicales confidentielles peut le faire en toute confiance avec EuroLLM puisque tout reste sur sa machine.

C’est cool quand même que l’Europe nous file un modèle gratuit qu’on peut installer chez soi et utiliser sans limite. Après c’est vrai que EuroLLM ne bat pas GPT-4 (pas encore) mais il est suffisamment bon pour 80% des cas d’utilisation réels tels que des résumés, de la traduction, des questions-réponses simples, de la génération de code basique.

La roadmap prévoit d’ajouter de la vision et de la voix aux modèles. D’ailleurs, comme je vous le disais, EuroVLM-9B est déjà en preview sur Hugging Face , ce qui ouvre la voie à de l’OCR multilingue, de l’analyse de documents visuels, ou encore à la création d’assistants vocaux dans n’importe quelle langue…

Voilà j’ai trouvé ça cool à tester et un grand merci à Letsar pour le partage !

Ollama : le guide pas à pas pour exécuter des modèles d’IA en local sur votre PC et Mac 14 octobre 2025 à 09:30

Ollama : le guide pas à pas pour exécuter des modèles d’IA en local sur votre PC et Mac

YubiGeek

Par :Maxence

14 octobre 2025 à 09:30

Ollama est un outil open source pour exécuter des modèles d’IA sur votre ordinateur. Découvrez comment l’installer, l’utiliser et optimiser ses performances.

Nativemind - IA 100% locale dans votre navigateur web 13 octobre 2025 à 08:40

Nativemind - IA 100% locale dans votre navigateur web

Korben

Par :Korben

13 octobre 2025 à 08:40

Vous payez 20 balles par mois pour que ChatGPT vous dise “bonjour” ? Vous attendez 5 secondes qu’une réponse revienne du cloud d’Anthropic ? Vous avez l’impression de louer votre intelligence artificielle comme vous louiez vos MP3 sur iTunes à la grande époque ?

Et bien j’ai une excellente nouvelle qui va vous plaire !! Il existe une extension de navigateur qui fait tourner de l’IA en local, sur votre machine, sans envoyer un seul octet dans le cloud. Ça s’appelle NativeMind et c’est du 100% local.

Vous installez l’extension sur Chrome, Firefox, Brave ou Edge, vous installez Ollama ou vous utilisez WebLLM directement dans le navigateur. Ensuite, vous téléchargez un modèle (DeepSeek, Qwen, Llama, ce que vous voulez) et c’est tout. Vous avez maintenant votre IA personnelle qui tourne sur votre laptop sans rien demander à personne, et accessible directement sur votre navigateur.

Le projet est open-source sous licence AGPL v3.0 et NativeMind supporte deux backends : Ollama, qui est recommandé si vous voulez de vraies performances et un contrôle total sur vos modèles ou WebLLM si vous voulez juste tester sans installer quoi que ce soit, directement dans le navigateur via WebAssembly.

Ollama c’est donc clairement la meilleure option. Vous lancez le serveur en local, il expose une API, et NativeMind s’y connecte. Vous pouvez faire tourner DeepSeek, qui est gratuit et open-source, et avoir des performances comparables à GPT-4, sans payer un centime de plus !

Vous pouvez ensuite lui demander de résumer n’importe quelle page web, de traduire un texte en gardant la mise en page intacte, d’analyser un PDF ou une image et même d’écrire pour vous !! Il est également capable de faire des tâches multi-étapes comme un agent le ferait.

Bref, tout ce que fait ChatGPT, mais sans que vos prompts partent sur les serveurs de Sam Altman.

Alors c’est moins immédiat que ChatGPT, je vous l’accorde et faut installer des trucs, mais une fois que c’est en place, vous êtes tranquille et surtout y’a pas de limite en terme de tokens ou de forfait… Puis vos données ne s’échappent pas.

Voilà, donc si vous voulez utiliser un peu d’IA pour comprendre des trucs sur des pages web, reformuler des mails que vous envoyez, générer des tweets à partir d’un contenu…etc, Nativemind est fait pour vous ! C’est largement suffisant pour des besoins d’IA classiques.

Rendez-vous sur le dépôt Github pour plus d’infos et sur le site officiel pour télécharger les extensions.

L'API qui manquait à Ollama pour concurrencer ChatGPT est enfin là !! 26 septembre 2025 à 16:40

L'API qui manquait à Ollama pour concurrencer ChatGPT est enfin là !!

Korben

Par :Korben

26 septembre 2025 à 16:40

Ce qui est super relou avec les IA qu’on peut utiliser en local, genre avec Ollama, c’est que si on lui demande des infos un peu trop récente, ça nous sort des vieux chiffres de 2023 avec la confiance d’un vendeur de voitures d’occasion. Bon bah ça, c’est fini puisqu’ Ollama vient de sortir une API de recherche web qui permet enfin à vos modèles locaux d’accéder à des infos fraîches dispo sur le net.

Woohoo \o/ !

Baptisée Ollama Web Search, cette API REST permet donc à vos modèles de faire des recherches sur le web en temps réel comme ça plus besoin de se contenter des données d’entraînement figées dans le temps. Selon la doc officielle , l’API fournit “les dernières informations du web pour réduire les hallucinations et améliorer la précision”. En gros, votre IA locale devient aussi à jour que ChatGPT, mais sans envoyer vos données perso à OpenAI.

Les modèles compatibles avec cette nouvelle fonctionnalité incluent qwen3, LLama, gpt-oss (la version open source d’OpenAI), deepseek-v3.1, et plein d’autres. Et d’après les premiers tests de la communauté , qwen3 et gpt-oss sont même plutôt doués pour exploiter cette fonctionnalité. Le modèle comprend qu’il lui manque une info, fait sa recherche, analyse les résultats et nous sort une réponse documentée !

C’est trop incrrrr ! Vous allez pouvoir booster vos scripts / bots / outils d’IA locale pour qu’ils puissent surveiller des choses dispo en ligne, les comparer, générer des résumés à partir de sites web, fact checker ou compléter des infos…etc.

Mais alors comment s’en servir ? Bon, on est vendredi soir et j’ai la flemme de tourner un tuto vidéo, donc même si je risque de détailler tout ça bientôt à mes Patreons d’amour , voici quand même quelques explications.

D’abord, il faut créer une clé API Ollama . La doc explique que vous avez un essai gratuit généreux pour commencer, mais s’il vous en faut plus, il faudra prendre un petit abonnement Ollama Cloud …

Une fois votre clé en poche, exportez-la dans votre environnement comme ceci :

export OLLAMA_API_KEY="votre_clé_ici"

Le plus simple ensuite pour tester, c’est avec curl :

curl https://ollama.com/api/web_search \ --header "Authorization: Bearer $OLLAMA_API_KEY" \ -d '{ "query": "dernières vulnérabilités CVE janvier 2025" }'

Mais bon, soyons honnêtes, on va plutôt utiliser Python car c’est quand même plus cool ;-) . Voici donc un exemple de script basique qui compare une réponse avec et sans recherche web :

import ollama
from ollama import chat, web_search, web_fetch

model = "qwen3:4b"

# 1. Sans recherche web
response_classic = chat( # pas ollama.chat
 model=model,
 messages=[{
 "role": "user",
 "content": "Quelles sont les features de React 19?"
 }]
)
print("Sans recherche web:", response_classic.message.content[:500]) # .message.content

# 2. Avec recherche web
search_results = web_search("React 19 features dernières nouveautés")
print("Résultats:", search_results)

# 3. Avec outils
available_tools = {'web_search': web_search, 'web_fetch': web_fetch}
messages = [{
 "role": "user",
 "content": "Utilise la recherche web pour me dire les dernières features de React 19"
}]

response_with_tools = chat(
 model=model,
 messages=messages,
 tools=[web_search, web_fetch],
 think=True
)

# Accès aux tool_calls
if response_with_tools.message.tool_calls:
 for tool_call in response_with_tools.message.tool_calls:
 function_to_call = available_tools.get(tool_call.function.name)
 if function_to_call:
 args = tool_call.function.arguments
 result = function_to_call(**args)
 print(f"Outil utilisé: {tool_call.function.name}")
 print(f"Résultat: {str(result)[:500]}...")

print("Réponse finale:", response_with_tools.message.content)

Les performances varient ensuite selon les modèles. Qwen3:4b est parfait pour du temps réel avec environ 85 tokens/seconde. GPT-OSS:120b est plus lent mais donne des résultats de qualité idéaux pour de la production. Pour du dev local, je vous recommande qwen3:8b, c’est le bon compromis entre vitesse et intelligence.

Le truc cool, c’est que vous pouvez maintenant créer des agents spécialisés. Genre un agent DevOps qui surveille les CVE de vos dépendances, un agent Marketing qui analyse les tendances de votre secteur, ou un agent Support qui maintient une base de connaissances à jour.

Voici un exemple :

import ollama
from ollama import chat, web_search

class SecurityAgent:
 def __init__(self):
 self.model = "qwen3:4b"

 def check_vulnerabilities(self, technologies):
 rapport = "🛡️ RAPPORT SÉCURITÉ\n\n"

 for tech in technologies:
 # Recherche directe des CVE récentes
 results = web_search(f"{tech} CVE vulnerabilities 2025 critical")

 # Demande au modèle d'analyser
 response = chat(
 model=self.model,
 messages=[{
 "role": "user",
 "content": f"Résume les vulnérabilités critiques de {tech}: {results}"
 }]
 )

 rapport += f"### {tech}\n{response.message.content}\n\n"

 return rapport

# Utilisation
agent = SecurityAgent()
rapport = agent.check_vulnerabilities(["Node.js", "PostgreSQL", "Docker"])
print(rapport)

Maintenant, pour optimiser un peu tout ça et ne pas flamber votre quota API, voici quelques astuces assez classiques… D’abord, mettez en cache les résultats. Ensuite, soyez spécifique dans vos requêtes. Par exemple “React hooks” va chercher plein de trucs inutiles, alors que “React 19 nouveaux hooks useActionState” sera plus efficace.

On peut vraiment réduire la quantité de requêtes en étant malin sur le prompt engineering. Par exemple, au lieu de laisser le modèle chercher tout seul, guidez-le : “Vérifie uniquement sur la doc officielle de React” plutôt que “Cherche des infos sur React”.

Et comme Ollama supporte MCP Server, Cline, Codex et Goose, c’est royal car vous pouvez aussi brancher votre assistant IA directement dans votre IDE, Slack, ou Discord. Hé oui, vous allez enfin pouvoir coder un bot Discord qui va fact-checker automatiquement les affirmations douteuses et foireuses de vos collègues. Le rêve !

Pour aller plus loin, vous pouvez aussi combiner la recherche web avec le fetching de pages spécifiques. L’API web_fetch permet ainsi de récupérer le contenu d’une URL précise. Pratique pour analyser en profondeur une doc ou un article :

from ollama import web_search, web_fetch, chat

# 1. Recherche d'articles pertinents
search_results = web_search("React 19 vs Vue 3 comparison 2025")
top_url = search_results.results[0]['url'] # ou .url selon le type
print(f"📰 Article trouvé: {search_results.results[0]['title']}")

# 2. Récupération du contenu complet de la page
page_content = web_fetch(top_url)
print(f"📄 {len(page_content.content)} caractères récupérés")

# 3. Analyse approfondie du contenu
response = chat(
 model="qwen3:4b", # ou "gpt-oss" si disponible
 messages=[{
 "role": "user",
 "content": f"""
 Analyse cette comparaison technique:
 {page_content.content[:4000]}

 Donne-moi:
 1. Les points clés de chaque framework
 2. Le gagnant selon l'article
 3. Les cas d'usage recommandés
 """
 }]
)

print(f"\n🔍 Analyse:\n{response.message.content}")

Alors bien sûr, des fois la recherche retournera des trucs pas pertinents, surtout si votre requête est vague et de son côté, le modèle peut aussi mal interpréter les résultats s’il est trop petit. Mais bon, comparé à une IA qui vous sort que Windows 11 n’existe pas encore, on a fait quand même pas mal de chemin, vous ne trouvez pas ??

J’espère qu’à terme, Ollama ajoutera aussi le support de sources personnalisées car ce serait vraiment cool de pouvoir indexer par exemple sa propre doc ou ses propres emails pour y faire des recherches… Mais bon, en attendant cette nouvelle API permet enfin de contrebalancer ce problème des modèles pas à jour en terme de connaissances, et ça c’est déjà énorme !

A vous de jouer maintenant !

Source

Revue de presse de l’April pour la semaine 37 de l’année 2025 16 septembre 2025 à 06:00

Revue de presse de l’April pour la semaine 37 de l’année 2025

LinuxFr.org : les dépêches

Par :echarp

16 septembre 2025 à 06:00

Cette revue de presse sur Internet fait partie du travail de veille mené par l’April dans le cadre de son action de défense et de promotion du logiciel libre. Les positions exposées dans les articles sont celles de leurs auteurs et ne rejoignent pas forcément celles de l’April.

lien nᵒ 1 : April
lien nᵒ 2 : Revue de presse de l'April
lien nᵒ 3 : Revue de presse de la semaine précédente
lien nᵒ 4 : 🕸 Fils du Net

[Le Monde.fr] Le Conseil constitutionnel valide la taxe GAFA (€)

✍ Denis Cosnard, Alexandre Piquard, le vendredi 12 septembre 2025.

Dans une décision rendue vendredi 12 septembre à la demande du groupe de médias allemand Axel Springer, l’institution confirme la constitutionnalité de la taxe sur les services numériques instaurée en 2019.

[cio-online.com] L'Open Source pour rééquilibrer les relations transatlantiques dans le numérique?

✍ Reynald Fléchaux, le jeudi 11 septembre 2025.

La Linux Foundation Europe souligne les atouts de l’Open Source pour un continent cherchant à gagner en indépendance par rapport à la technologie américaine. A condition toutefois d’investir pour ne plus seulement être des consommateurs passifs de logiciels libres.

[Le Temps] D'Apertus à Llama 3, les modèles de langage open source ont un degré d'ouverture très variable (€)

✍ Grégoire Barbey, le mercredi 10 septembre 2025.

L’événement LibreABC à Genève, consacré aux logiciels libres, s’est penché sur la question de l’intelligence artificielle ouverte. Actuellement, la plupart des modèles qui se disent open source ne le sont que très partiellement

[Journal du Net] Quand un modèle vertueux dérape: la guerre économique autour de l'open source

✍ Benjamin Tierny, le mercredi 10 septembre 2025.

L’histoire récente montre que l’open source est devenu un champ de bataille économique où se jouent des rapports de force brutaux.

[cio-online.com] Jean-Marie Séguret, DSI de Lyon: «se soustraire de Microsoft impose un travail de fond»

✍ Reynald Fléchaux, le lundi 8 septembre 2025.

La DSI de la ville de Lyon déploie une stratégie visant à renforcer son indépendance. Avec un projet phare: remplacer MS Office sur 80% des postes.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Ollama : Comment interroger un LLM en JavaScript/NodeJS ? 24 août 2025 à 15:00

Ollama : Comment interroger un LLM en JavaScript/NodeJS ?

YubiGeek

Par :Maxence

24 août 2025 à 15:00

Apprenez à utiliser Ollama pour interroger un LLM en TypeScript, installer l’application sur serveur ou bureau, et créer une application web locale.

Memflix – Transformez vos données en vidéos MP4 consultables instantanément 27 juin 2025 à 15:08

Memflix – Transformez vos données en vidéos MP4 consultables instantanément

Korben

Par :Korben

27 juin 2025 à 15:08

Ça va, pas trop chaud ? Alors tant mieux, parce que je vais vous faire avoir une petite suée tellement ce truc est cool ! Ça s’appelle Memflix et c’est une bibliothèque JavaScript qui transforme vos documents texte en… fichiers vidéo MP4 ! Oui, vous avez bien lu. Et le plus fou, c’est que vous pouvez ensuite faire des recherches sémantiques ultra-rapides dans ces vidéos.

L’idée est tellement simple qu’elle en devient géniale car au lieu de stocker vos données dans une base de données traditionnelle, Memflix encode tout dans des QR codes qui sont ensuite intégrés frame par frame dans une vidéo. Résultat ? Un stockage 10 fois plus efficace qu’une base de données classique et des recherches qui prennent moins d’une seconde, même sur des millions de chunks de texte.

Vue normale

Un projet 100% européen

Maintenant comment l’installer ?

Alors pourquoi c’est important ?