Vue lecture

L'API qui manquait à Ollama pour concurrencer ChatGPT est enfin là !!

Ce qui est super relou avec les IA qu’on peut utiliser en local, genre avec Ollama, c’est que si on lui demande des infos un peu trop récente, ça nous sort des vieux chiffres de 2023 avec la confiance d’un vendeur de voitures d’occasion. Bon bah ça, c’est fini puisqu’ Ollama vient de sortir une API de recherche web qui permet enfin à vos modèles locaux d’accéder à des infos fraîches dispo sur le net.

Woohoo \o/ !

Baptisée Ollama Web Search, cette API REST permet donc à vos modèles de faire des recherches sur le web en temps réel comme ça plus besoin de se contenter des données d’entraînement figées dans le temps. Selon la doc officielle , l’API fournit “les dernières informations du web pour réduire les hallucinations et améliorer la précision”. En gros, votre IA locale devient aussi à jour que ChatGPT, mais sans envoyer vos données perso à OpenAI.

Les modèles compatibles avec cette nouvelle fonctionnalité incluent qwen3, LLama, gpt-oss (la version open source d’OpenAI), deepseek-v3.1, et plein d’autres. Et d’après les premiers tests de la communauté , qwen3 et gpt-oss sont même plutôt doués pour exploiter cette fonctionnalité. Le modèle comprend qu’il lui manque une info, fait sa recherche, analyse les résultats et nous sort une réponse documentée !

C’est trop incrrrr ! Vous allez pouvoir booster vos scripts / bots / outils d’IA locale pour qu’ils puissent surveiller des choses dispo en ligne, les comparer, générer des résumés à partir de sites web, fact checker ou compléter des infos…etc.

Mais alors comment s’en servir ? Bon, on est vendredi soir et j’ai la flemme de tourner un tuto vidéo, donc même si je risque de détailler tout ça bientôt à mes Patreons d’amour , voici quand même quelques explications.

D’abord, il faut créer une clé API Ollama . La doc explique que vous avez un essai gratuit généreux pour commencer, mais s’il vous en faut plus, il faudra prendre un petit abonnement Ollama Cloud

Une fois votre clé en poche, exportez-la dans votre environnement comme ceci :

export OLLAMA_API_KEY="votre_clé_ici"

Le plus simple ensuite pour tester, c’est avec curl :

curl https://ollama.com/api/web_search \ --header "Authorization: Bearer $OLLAMA_API_KEY" \ -d '{ "query": "dernières vulnérabilités CVE janvier 2025" }'

Mais bon, soyons honnêtes, on va plutôt utiliser Python car c’est quand même plus cool ;-) . Voici donc un exemple de script basique qui compare une réponse avec et sans recherche web :

import ollama
from ollama import chat, web_search, web_fetch

model = "qwen3:4b"

# 1. Sans recherche web
response_classic = chat( # pas ollama.chat
 model=model,
 messages=[{
 "role": "user",
 "content": "Quelles sont les features de React 19?"
 }]
)
print("Sans recherche web:", response_classic.message.content[:500]) # .message.content

# 2. Avec recherche web
search_results = web_search("React 19 features dernières nouveautés")
print("Résultats:", search_results)

# 3. Avec outils
available_tools = {'web_search': web_search, 'web_fetch': web_fetch}
messages = [{
 "role": "user",
 "content": "Utilise la recherche web pour me dire les dernières features de React 19"
}]

response_with_tools = chat(
 model=model,
 messages=messages,
 tools=[web_search, web_fetch],
 think=True
)

# Accès aux tool_calls
if response_with_tools.message.tool_calls:
 for tool_call in response_with_tools.message.tool_calls:
 function_to_call = available_tools.get(tool_call.function.name)
 if function_to_call:
 args = tool_call.function.arguments
 result = function_to_call(**args)
 print(f"Outil utilisé: {tool_call.function.name}")
 print(f"Résultat: {str(result)[:500]}...")

print("Réponse finale:", response_with_tools.message.content)

Les performances varient ensuite selon les modèles. Qwen3:4b est parfait pour du temps réel avec environ 85 tokens/seconde. GPT-OSS:120b est plus lent mais donne des résultats de qualité idéaux pour de la production. Pour du dev local, je vous recommande qwen3:8b, c’est le bon compromis entre vitesse et intelligence.

Le truc cool, c’est que vous pouvez maintenant créer des agents spécialisés. Genre un agent DevOps qui surveille les CVE de vos dépendances, un agent Marketing qui analyse les tendances de votre secteur, ou un agent Support qui maintient une base de connaissances à jour.

Voici un exemple :

import ollama
from ollama import chat, web_search

class SecurityAgent:
 def __init__(self):
 self.model = "qwen3:4b"

 def check_vulnerabilities(self, technologies):
 rapport = "🛡️ RAPPORT SÉCURITÉ\n\n"

 for tech in technologies:
 # Recherche directe des CVE récentes
 results = web_search(f"{tech} CVE vulnerabilities 2025 critical")

 # Demande au modèle d'analyser
 response = chat(
 model=self.model,
 messages=[{
 "role": "user",
 "content": f"Résume les vulnérabilités critiques de {tech}: {results}"
 }]
 )

 rapport += f"### {tech}\n{response.message.content}\n\n"

 return rapport

# Utilisation
agent = SecurityAgent()
rapport = agent.check_vulnerabilities(["Node.js", "PostgreSQL", "Docker"])
print(rapport)

Maintenant, pour optimiser un peu tout ça et ne pas flamber votre quota API, voici quelques astuces assez classiques… D’abord, mettez en cache les résultats. Ensuite, soyez spécifique dans vos requêtes. Par exemple “React hooks” va chercher plein de trucs inutiles, alors que “React 19 nouveaux hooks useActionState” sera plus efficace.

On peut vraiment réduire la quantité de requêtes en étant malin sur le prompt engineering. Par exemple, au lieu de laisser le modèle chercher tout seul, guidez-le : “Vérifie uniquement sur la doc officielle de React” plutôt que “Cherche des infos sur React”.

Et comme Ollama supporte MCP Server, Cline, Codex et Goose, c’est royal car vous pouvez aussi brancher votre assistant IA directement dans votre IDE, Slack, ou Discord. Hé oui, vous allez enfin pouvoir coder un bot Discord qui va fact-checker automatiquement les affirmations douteuses et foireuses de vos collègues. Le rêve !

Pour aller plus loin, vous pouvez aussi combiner la recherche web avec le fetching de pages spécifiques. L’API web_fetch permet ainsi de récupérer le contenu d’une URL précise. Pratique pour analyser en profondeur une doc ou un article :

from ollama import web_search, web_fetch, chat

# 1. Recherche d'articles pertinents
search_results = web_search("React 19 vs Vue 3 comparison 2025")
top_url = search_results.results[0]['url'] # ou .url selon le type
print(f"📰 Article trouvé: {search_results.results[0]['title']}")

# 2. Récupération du contenu complet de la page
page_content = web_fetch(top_url)
print(f"📄 {len(page_content.content)} caractères récupérés")

# 3. Analyse approfondie du contenu
response = chat(
 model="qwen3:4b", # ou "gpt-oss" si disponible
 messages=[{
 "role": "user",
 "content": f"""
 Analyse cette comparaison technique:
 {page_content.content[:4000]}

 Donne-moi:
 1. Les points clés de chaque framework
 2. Le gagnant selon l'article
 3. Les cas d'usage recommandés
 """
 }]
)

print(f"\n🔍 Analyse:\n{response.message.content}")

Alors bien sûr, des fois la recherche retournera des trucs pas pertinents, surtout si votre requête est vague et de son côté, le modèle peut aussi mal interpréter les résultats s’il est trop petit. Mais bon, comparé à une IA qui vous sort que Windows 11 n’existe pas encore, on a fait quand même pas mal de chemin, vous ne trouvez pas ??

J’espère qu’à terme, Ollama ajoutera aussi le support de sources personnalisées car ce serait vraiment cool de pouvoir indexer par exemple sa propre doc ou ses propres emails pour y faire des recherches… Mais bon, en attendant cette nouvelle API permet enfin de contrebalancer ce problème des modèles pas à jour en terme de connaissances, et ça c’est déjà énorme !

A vous de jouer maintenant !

Source

  •  

Google dévoile VaultGemma : un modèle IA privé avec confidentialité différentielle

Les Large Language Model (LLM) sont souvent critiqués pour leur tendance à « mémoriser » des données sensibles issues de leur entraînement. P our contrer ce risque, une équipe de Google Research a publié un nouveau modèle expérimental baptisé VaultGemma, conçu pour intégrer la confidentialité différentielle directement dans son processus d’apprentissage. Pourquoi la confidentialité différentielle est cruciale ? […]

L’article Google dévoile VaultGemma : un modèle IA privé avec confidentialité différentielle est apparu en premier sur BlogNT : le Blog des Nouvelles Technologies.

  •  

L'IA engloutit des milliards, mais ne peut pas résoudre les puzzles ARC qui ne prennent parfois que quelques secondes à un être humain, elle reste dépourvue de la capacité de généralisation d'un humain

L'excitation des premiers jours à l'égard de l'IA générative laisse progressivement place à une désillusion. Les progrès des grands modèles de langage (LLM) ont ralenti, certains experts estimant que la technologie a atteint un plafond. Une étude récente a révélé que jusqu'à 95 % pour des projets pilotes d'IA générative en entreprise échouent. À ce jour, l'IA peine à résoudre les puzzles ARC qui ne prennent que quelques secondes à un être humain. Malgré les centaines de milliards de dollars déversés dans l'IA générative en trois ans, la technologie est encore loin de tenir ces promesses. Au lieu de cela, l'IA suscite des frustrations et des vagues de protestation.


Permalien
  •  

Mistral AI dévoile Medium 3.1 : un modèle d’IA souverain et flexible pour les entreprises

✇SysKB
Par :Alex

Mistral AI, la pépite française de l’intelligence artificielle, vient de lancer Mistral Medium 3.1, un nouveau modèle pensé pour les entreprises. Alliant performance, confidentialité et flexibilité, il peut être déployé en local sur des serveurs internes ou dans un cloud privé. Une approche qui le distingue des grands acteurs américains.

Un modèle pensé pour la souveraineté numérique

Avec Medium 3.1, Mistral AI poursuit sa stratégie de proposer des solutions d’IA adaptées aux besoins des entreprises européennes. Contrairement à la majorité des modèles disponibles uniquement dans le cloud public, Medium 3.1 offre la possibilité d’être hébergé en interne, garantissant ainsi une meilleure maîtrise des données. Cette approche répond à une préoccupation croissante : la souveraineté numérique.

Des performances comparables aux géants de l’IA

Medium 3.1 se positionne comme un modèle de classe frontier, capable de rivaliser avec les références du marché. Selon les benchmarks publiés, il excelle en raisonnement logique, multimodalité et génération de code.

Face à des concurrents comme Claude Sonnet 3.7 ou Llama 4 Maverick, le modèle de Mistral s’impose par sa précision et son coût compétitif : environ 0,40 $ par million de tokens en entrée et 2 $ en sortie, soit jusqu’à 8 fois moins cher que certains modèles américains.

Benchmark de Mistral Medium 3.1

Une flexibilité inédite pour les entreprises

La grande force de Mistral Medium 3.1 réside dans sa flexibilité de déploiement. Les entreprises peuvent choisir de l’intégrer :

  • en mode on-premise pour un contrôle total,
  • dans un cloud privé ou hybride,
  • ou via des environnements VPC pour plus de sécurité.

Ce positionnement unique fait de Mistral AI un acteur à part, répondant aux besoins des organisations qui recherchent à la fois confidentialité, personnalisation et performance.

Tester Mistral Medium 3.1 en local : les prérequis

Avant de déployer Mistral Medium 3.1 dans une infrastructure d’entreprise, il est possible de tester le modèle sur un poste de travail. Cela permet d’évaluer ses capacités et sa pertinence avant une intégration à grande échelle. Voici les prérequis essentiels :

  • Système d’exploitation : Linux (Ubuntu recommandé) ou macOS. Windows est possible via WSL2.
  • Matériel :
    • GPU NVIDIA récent (série RTX 30xx ou supérieur) avec au moins 16 Go de VRAM,
    • CPU multicœurs (8 cœurs recommandés),
    • 32 Go de RAM système minimum.
  • Stockage : prévoir au moins 50 Go d’espace libre pour le modèle et les dépendances.
  • Pilotes et frameworks :
    • CUDA 12 ou supérieur,
    • PyTorch compatible GPU,
    • Installation de vLLM ou Ollama pour exécuter le modèle.
  • Connexion internet : nécessaire pour télécharger le modèle depuis Hugging Face ou le portail de Mistral AI.

Une fois ces prérequis installés vous pouvez lancer une simple commande (via ollama run mistral-medium) ou un script Python basé sur transformers pour commencer à interagir avec le modèle en local.

Une alternative européenne crédible

Avec ce lancement, Mistral AI confirme son ambition : offrir une alternative souveraine aux solutions proposées par OpenAI, Anthropic ou Meta. Medium 3.1 ne se limite pas à la performance technique, il propose également un cadre d’utilisation plus respectueux des contraintes réglementaires européennes.
Dans un contexte où la maîtrise des données devient stratégique, ce modèle pourrait séduire de nombreux secteurs sensibles comme la santé, la finance ou l’industrie.

Cet article original intitulé Mistral AI dévoile Medium 3.1 : un modèle d’IA souverain et flexible pour les entreprises a été publié la première sur SysKB.

  •  

GPT-5 Pro impressionne mais demeure très éloigné de la véritable intelligence artificielle générale

Ben Goertzel, figure emblématique ayant contribué à populariser le terme d’intelligence artificielle générale (AGI) au début des années 2000, tempère l’enthousiasme suscité par GPT-5 Pro d’OpenAI. Bien que reconnaissant les prouesses techniques remarquables du modèle, le PDG de l’Artificial Superintelligence Alliance et fondateur de SingularityNET souligne les limitations fondamentales qui séparent encore l’IA actuelle d’une véritable intelligence ... Lire plus

L'article GPT-5 Pro impressionne mais demeure très éloigné de la véritable intelligence artificielle générale est apparu en premier sur Fredzone.
  •  

Memflix – Transformez vos données en vidéos MP4 consultables instantanément

Ça va, pas trop chaud ? Alors tant mieux, parce que je vais vous faire avoir une petite suée tellement ce truc est cool ! Ça s’appelle Memflix et c’est une bibliothèque JavaScript qui transforme vos documents texte en… fichiers vidéo MP4 ! Oui, vous avez bien lu. Et le plus fou, c’est que vous pouvez ensuite faire des recherches sémantiques ultra-rapides dans ces vidéos.

L’idée est tellement simple qu’elle en devient géniale car au lieu de stocker vos données dans une base de données traditionnelle, Memflix encode tout dans des QR codes qui sont ensuite intégrés frame par frame dans une vidéo. Résultat ? Un stockage 10 fois plus efficace qu’une base de données classique et des recherches qui prennent moins d’une seconde, même sur des millions de chunks de texte.

  •  

ChatGPT est-il en train de casser le cerveau humain ? 5 points sur le preprint du MIT sur les effets de l’IA | Le Grand Continent

Lu chez SebSauvage : un article (un de plus pourrait-on dire) en cours de validation tendant à démontrer que les LLM, pour le dire vite, rendent con, ou en tout cas entraînent une "atrophie cérébrale" d'autant plus dure à "récupérer" que l'habitude d'utilisation est ancienne :
> Dans cette expérimentation, 55 % de la « charge cognitive » nécessaire pour rédiger un essai sans aucune assistance diminuerait avec l’utilisation d’un LLM provoquant une sorte d’atrophie cérébrale.
> Dans le temps, écrire avec ChatGPT ferait accumuler une « dette cognitive » rendant difficile un retour à une activité cérébrale normale pour les tâches effectuées sans LLM.

[...]

> 2 — Les effets cognitifs de l’utilisation de ChatGPT : les LLM atrophient-ils notre activité cérébrale ?
> Les résultats de l’étude semblent sans appel : la « connectivité cérébrale » diminuerait systématiquement en fonction du soutien externe. [...] Autrement dit : plus le soutien extérieur est élevé, plus l’amplitude des zones actives dans le cerveau est faible.

Bon, ça peut paraître moins grave que ça en à l'air : ça revient juste à dire que selon que le sujet n'utilise que son cerveau, un moteur de recherche ou un LLM, ce ne sont pas les mêmes zones du cerveau qui sont activées, même si le nombre de zones utilisées va décroissant : cerveau seul > cerveau + moteur de recherche > LLM (et cerveau sur la table).

La suite est encore pire :

[...]

> Les données dites « comportementales » — en particulier celles relatives à la capacité de citation, à l’exactitude des citations et à l’appropriation des essais — prolongent et corroborent les conclusions de l’étude en matière de connectivité neuronale.

[... ]

> La divergence comportementale la plus constante et la plus significative entre les groupes a été observée dans la capacité à citer de tête son propre essai.

Bref : 83,3% des cobayes de l'étude (basée sur un échantillon, réduit, il est important de le préciser) s'étant servi du LLM pour rendre l'essaie demandé, se sont avéré incapables de citer des passages de cet essai.

Pour le coup, ça me parait plutôt normal de ne pas me rappeler d'un truc que je n'ai pas écrit moi-même. Mais l'étude établit une corrélation forte entre le faible nombre de zones du cerveau sollicitées et l'incapacité à mémoriser :
> L’étude met notamment en avant le fait que la réduction de l’activité cognitive chez les utilisateurs de LLM « reflète probablement un contournement des processus d’encodage profond de la mémoire, les participants lisant, sélectionnant et transcrivant les suggestions générées par l’outil sans les intégrer dans les réseaux de mémoire épisodique ».

Par-ailleurs, les utilisateurs ont du mal, consciemment ou pas, à s'approprier la paternité du texte produit. Et ce n'est pas que de l’honnêteté intellectuelle de leur part, c'est aussi parce que, pour caricaturer, leur cerveau a été tellement peu impliqué dans le processus qu'il n'a rien produit et rien retenu, ce qui n'est pas sans poser des problèmes sur le long terme : avec une IA, on peut produire des choses, mais on n'apprend rien.
> Cette observation expérimentale semblerait fournir la preuve que si les utilisateurs s’appuient trop fortement sur les outils d’IA, ils peuvent penser acquérir une maîtrise superficielle sans parvenir à intérioriser et à s’approprier les connaissances.

Ça vous semble encore anodin ? Attendez la chute.

Les effets sur le cerveau se font sentir **à long terme**. Après avoir échangé leurs rôles, le groupe "brain only" a obtenu de meilleurs résultats avec Chat GPT que le groupe "LLM only".

Le dernier paragraphe semble montrer (je rappelle que l'échantillon est restreint) que le groupe ayant fait du "LLM only" tend à se focaliser sur un ensemble d'idées plus restreint
> Selon les auteurs, cette répétition pourrait suggérer que de nombreux participants ne se sont peut-être pas engagés profondément dans les sujets ou n’ont pas examiné de manière critique le matériel fourni par le LLM. Ce schéma reflèterait l’accumulation d’une dette cognitive  : le recours répété à des systèmes externes tels que les LLM remplacerait des processus cognitifs exigeants nécessaires à la pensée indépendante par des processus purement intégratifs. La dette cognitive reporterait donc l’effort mental à court terme mais entraînerait des coûts à long terme comme une diminution de l’esprit critique, une vulnérabilité accrue à la manipulation et une baisse de la créativité.

Bref : perte de la faculté de mémorisation, perte du sens critique, perte des facultés imaginatives.

De là à dire -mais ce n'est pas si exagéré au regard du contexte- que l'objectif final des LLM est de nous rendre aussi cons que dociles... il y a un pas que je franchis sans complexes aucuns.
(Permalink)
  •  

ChatGPT est-il en train de casser le cerveau humain ? 5 points sur le preprint du MIT sur les effets de l’IA | Le Grand Continent

Lu chez SebSauvage : un article (un de plus pourrait-on dire) en cours de validation tendant à démontrer que les LLM, pour le dire vite, rendent con, ou en tout cas entraînent une "atrophie cérébrale" d'autant plus dure à "récupérer" que l'habitude d'utilisation est ancienne :
> Dans cette expérimentation, 55 % de la « charge cognitive » nécessaire pour rédiger un essai sans aucune assistance diminuerait avec l’utilisation d’un LLM provoquant une sorte d’atrophie cérébrale.
> Dans le temps, écrire avec ChatGPT ferait accumuler une « dette cognitive » rendant difficile un retour à une activité cérébrale normale pour les tâches effectuées sans LLM.

[...]

> 2 — Les effets cognitifs de l’utilisation de ChatGPT : les LLM atrophient-ils notre activité cérébrale ?
> Les résultats de l’étude semblent sans appel : la « connectivité cérébrale » diminuerait systématiquement en fonction du soutien externe. [...] Autrement dit : plus le soutien extérieur est élevé, plus l’amplitude des zones actives dans le cerveau est faible.

Bon, ça peut paraître moins grave que ça en à l'air : ça revient juste à dire que selon que le sujet n'utilise que son cerveau, un moteur de recherche ou un LLM, ce ne sont pas les mêmes zones du cerveau qui sont activées, même si le nombre de zones utilisées va décroissant : cerveau seul > cerveau + moteur de recherche > LLM (et cerveau sur la table).

La suite est encore pire :

[...]

> Les données dites « comportementales » — en particulier celles relatives à la capacité de citation, à l’exactitude des citations et à l’appropriation des essais — prolongent et corroborent les conclusions de l’étude en matière de connectivité neuronale.

[... ]

> La divergence comportementale la plus constante et la plus significative entre les groupes a été observée dans la capacité à citer de tête son propre essai.

Bref : 83,3% des cobayes de l'étude (basée sur un échantillon, réduit, il est important de le préciser) s'étant servi du LLM pour rendre l'essaie demandé, se sont avéré incapables de citer des passages de cet essai.

Pour le coup, ça me parait plutôt normal de ne pas me rappeler d'un truc que je n'ai pas écrit moi-même. Mais l'étude établit une corrélation forte entre le faible nombre de zones du cerveau sollicitées et l'incapacité à mémoriser :
> L’étude met notamment en avant le fait que la réduction de l’activité cognitive chez les utilisateurs de LLM « reflète probablement un contournement des processus d’encodage profond de la mémoire, les participants lisant, sélectionnant et transcrivant les suggestions générées par l’outil sans les intégrer dans les réseaux de mémoire épisodique ».

Par-ailleurs, les utilisateurs ont du mal, consciemment ou pas, à s'approprier la paternité du texte produit. Et ce n'est pas que de l’honnêteté intellectuelle de leur part, c'est aussi parce que, pour caricaturer, leur cerveau a été tellement peu impliqué dans le processus qu'il n'a rien produit et rien retenu, ce qui n'est pas sans poser des problèmes sur le long terme : avec une IA, on peut produire des choses, mais on n'apprend rien.
> Cette observation expérimentale semblerait fournir la preuve que si les utilisateurs s’appuient trop fortement sur les outils d’IA, ils peuvent penser acquérir une maîtrise superficielle sans parvenir à intérioriser et à s’approprier les connaissances.

Ça vous semble encore anodin ? Attendez la chute.

Les effets sur le cerveau se font sentir **à long terme**. Après avoir échangé leurs rôles, le groupe "brain only" a obtenu de meilleurs résultats avec Chat GPT que le groupe "LLM only".

Le dernier paragraphe semble montrer (je rappelle que l'échantillon est restreint) que le groupe ayant fait du "LLM only" tend à se focaliser sur un ensemble d'idées plus restreint
> Selon les auteurs, cette répétition pourrait suggérer que de nombreux participants ne se sont peut-être pas engagés profondément dans les sujets ou n’ont pas examiné de manière critique le matériel fourni par le LLM. Ce schéma reflèterait l’accumulation d’une dette cognitive  : le recours répété à des systèmes externes tels que les LLM remplacerait des processus cognitifs exigeants nécessaires à la pensée indépendante par des processus purement intégratifs. La dette cognitive reporterait donc l’effort mental à court terme mais entraînerait des coûts à long terme comme une diminution de l’esprit critique, une vulnérabilité accrue à la manipulation et une baisse de la créativité.

Bref : perte de la faculté de mémorisation, perte du sens critique, perte des facultés imaginatives.

De là à dire -mais ce n'est pas si exagéré au regard du contexte- que l'objectif final des LLM est de nous rendre aussi cons que dociles... il y a un pas que je franchis sans complexes aucuns.
(Permalink)
  •