Sortie de Datafari 6.2, moteur de recherche open source pour entreprise avec de l'IA
Nous sommes fiers de vous annoncer la mise à disposition de Datafari 6.2
Pour faire court, la grosse nouveauté vient de l’intégration simplifiée des outils tiers d’IA générative. Ces travaux ont été en partis financés par le projet Européen NGI Search Neural Datafari, qui a permi du coup également d'ajouter la recherche vectorielle bout en bout au projet Apache Solr.
Pour rappel, Datafari est une solution de recherche pour entreprise. Où que les connaissances se trouvent et sous quelque format que ce soit, elle permet aux employés de retrouver les données utiles.
Et désormais grâce à l’IA, de « discuter » avec ses connaissances. Plus concrètement, il s’agit de récupérer et d’indexer les données et documents depuis de nombreuses sources différentes et plusieurs formats de fichiers, et de permettre aussi de chercher des documents mais aussi d’utiliser une IA générative pour les questionner.
Pour cette dépêche, on se concentre sur la version libre et open source (mais il y a aussi d’autres nouveautés sur la version entreprise propriétaire).
- lien nᵒ 1 : Page de téléchargement
- lien nᵒ 2 : Accéder au code source
- lien nᵒ 3 : Le forum de discussion
- lien nᵒ 4 : La documentation
- lien nᵒ 5 : Le site officiel
- lien nᵒ 6 : Image Docker
- lien nᵒ 7 : La précédente dépêche sur Datafari
Notre dernière dépêche datant de… Datafari 5.3, voici Les nouveautés et changements principaux par rapport à cette dernière:
- Ajout d’un module RAG (Retrieval Augmented Generation)
- Passage à Solr 9.8 avec recherche vectorielle
- Ajout d’un module d’appel de LLM à l’indexation
- Gestion automatique du chunking des documents indexés
- Création d’un module autonome d’analytics au lieu de Zeppelin pour optimiser les ressources
- Création d’un regex connector à l’indexation
- Refonte technique de l’interface graphique, en React
- Passage à la V2 des API REST de Datafari
- Prototype d’agent autonome pour héberger en local un modèle d’IA
- Du bugfix de partout
Comment démarrer ?
Pour voir à quoi ça ressemble, nous avons téléversé une courte vidéo de démonstration. Pour démarrer tout de suite, le mieux est d’aller lire le quick start guide. Nous mettons gratuitement à disposition notre documentation Datafari sur Confluence, qui couvre les usages, l’administration et le développement. Attention, les modules d’IA que nous avons développés, nécessitent la disponibilité d’un serveur exposant un modèle d’IA compatible. De base, Datafari n’héberge pas localement une IA. Le plus simple pour débuter est de le connecter par exemple à openAI pour se faire la main, et ensuite de passer à des modèles locaux hébergés par vos soins ou par des partenaires.
Pour rappel, voici les principales fonctionnalités de Datafari en tant que moteur de recherche :
Que peut‐on faire avec Datafari ?
Datafari est un moteur de recherche pour entreprise enrichi à l’IA : membres de la famille des outils de gestion des connaissances, les solutions de recherche fédèrent les connaissances en analysant et indexant tous les documents d’une organisation, aussi bien leur contenu que leurs métadonnées. Pour cela, le moteur de recherche doit être multi‐sources, multi‐formats, et gérer la sécurité. En outre, il faut permettre l’administration de l’outil.
Dans la version libre, on peut, côté admin :
- Administrer les connecteurs aux sources de données vers de nombreuses sources (nous utilisons Apache ManifoldCF avec tous ses connecteurs) dont Sharepoint, Confluence, Alfresco et les partages de fichiers ;
- Gérer l’algorithme de pertinence qui classe les documents pour leur affichage suite à une requête ;
- Activer les modules de recherche vectorielle et de RAG
- Mettre en avant des documents pour des requêtes identifiées ;
- Créer des utilisateurs et leur assigner des rôles ;
- Voir des statistiques d’usage de l’outil ;
- Créer l’équivalent de Google AdWords (appelés promoliens) ;
- Gérer des synonymes ;
- Plein d’autres choses accessibles depuis la documentation Confluence.
Côté utilisateur, on peut :
- Chercher de façon simple ou avancée ;
- Prévisualiser les résultats ;
- « Discuter » avec ses documents via le module RAG
- Bénéficier de la correction orthographique et de l’auto‐complétion ;
- Choisir et utiliser des facettes pour filtrer les résultats ;
- Mettre des résultats dans un panier de favoris ;
- Créer des alertes par courriel quand des documents modifiés ou nouveaux correspondent à une requête.
Et ensuite ?
Pour le reste de 2025, nous allons continuer à ajouter des fonctionnalités se basant sur les IA génératives pour multiplier les possibilités.
Des commentaires ?
Nous sommes en permanence à l’écoute des commentaires et suggestions pour faire avancer le produit, alors profitez-en, que ce soit d’un point de vue technique ou fonctionnel, ça nous intéresse. Ha et si vous êtes déjà un utilisateur, n’hésitez pas à en parler sur le web !
Commentaires : voir le flux Atom ouvrir dans le navigateur