Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierKorben

01 – L’appareil open-source basé sur un modèle de langage IA

Par : Korben
13 juin 2024 à 07:00

Imaginez un appareil qui comprend tout ce que vous lui dites, qui répond à vos questions avec intelligence et s’adapte à vos besoins… Et bien c’est exactement ce que propose le projet 01, un framework open-source qui allie intelligence artificielle et interface vocale.

Inspiré par l’iconique ordinateur de Star Trek, et développé par les mêmes personnes que ceux qui ont créé Open Interpreter que j’adore, 01 ambitionne de devenir le GNU/Linux des assistants vocaux. Son écosystème ouvert et modulaire permet aux développeurs de créer des applications innovantes et de personnaliser l’expérience utilisateur. Comme ça, que vous soyez maker ou un néophyte curieux, vous allez pouvoir construire votre propre appareil 01 en suivant les instructions détaillées fournies sur le dépôt GitHub.

Le modèle 01 Light, basé sur un ESP32, est un excellent point de départ pour découvrir cette technologie fascinante. Évidemment, tout est open source et vous pouvez créer votre propre device ou le faire tourner sur un appareil existant.

Pour une expérience optimale, 01 fonctionne de pair avec un serveur qui s’exécute sur votre ordinateur personnel ou votre NAS et qui grâce à des outils comme Whisper pour la reconnaissance vocale et GPT pour la génération de réponses, permet des interactions naturelles et pertinentes.

Tout cela est rendu possible notamment grâce au format LMC (Language Model Computer), inspiré par le concept de « LLM OS » d’Andrej Karpathy. 01 utilise donc un modèle de langage qui interprète du code pour réagir à des événements système. Les messages LMC sont donc une extension du format d’OpenAI en ajoutant un rôle « ordinateur » qui exécute du code Python directement dans les instructions système.

Son architecture flexible permet de l’intégrer à une multitude d’objets du quotidien, de l’assistant vocal au robot domestique en passant par la voiture intelligente. Les possibilités sont infinies et ne demandent qu’à être explorées.

En tant que projet open-source, 01 compte sur une communauté dynamique de contributeurs pour se développer et s’améliorer et y’a même un serveur Discord pour échanger avec d’autres enthousiastes du projet.

Myth Maker AI – Plongez dans des récits interactifs époustouflants

Par : Korben
10 juin 2024 à 07:00

Myth Maker AI est un jeu créé par les passionnés de Story Tools Studio, qui vous plonge dans un univers fantastique où vous êtes le héros de votre propre aventure. Grâce au moteur MUSE (Modular User Story Engine), chaque choix que vous faites a un impact réel sur le déroulement de l’histoire grâce à l’IA qui s’adapte à vos décisions en temps réel.

Lorsque vous débutez une partie, vous choisissez votre personnage principal puis l’IA prend le relais et tisse une intrigue sur mesure, riche en rebondissements et en défis à relever.

Ce qui rend Myth Maker AI si spécial, c’est surtout sa capacité à créer un contenu multimodal d’une richesse inégalée. Et des images saisissantes aux animations fluides en passant par une bande-son envoûtante, chaque élément contribue à vous immerger totalement dans cet univers enchanteur. Vous aurez réellement l’impression d’être le héros d’un film d’aventure épique dont vous êtes le seul maître à bord.

Il ouvre également aussi la voie à de nouvelles expériences multijoueurs où chacun peut laisser libre cours à sa créativité dans monde partagé où les histoires s’entremêlent et où vos choix ont des répercussions sur les aventures des autres joueurs. Bref, vous l’aurez compris, les possibilités sont infinies !

Si ça vous dit de tester, rendez-vous sur https://mythmaker.ai/.

APISR – Upscaling d’animes en temps réel

Par : Korben
31 mai 2024 à 07:00

Comme beaucoup d’entre vous, j’ai été élévé au Club Dorothée et malheureusement, en 2024, tous ces animés de notre enfance, de Goldorak aux Chevaliers du Zodiaque, en passant par Nicky Larson, ont quand même mal vieilli. Ah si seulement, on pouvait les améliorer pour les remettre graphiquement au goût du jour… Et bien bonne nouvelle, c’est possible grâce au projet APISR.

Cet outil utilise différentes techniques directement inspirées du processus de production des animes afin de proposer un upscaling vraiment spécialisé pour ce type de vidéos. APISR sélectionne ainsi les frames les moins compressées et les plus riches en informations pour en faire un dataset qui servira alors à améliorer les images, en éliminant les artéfacts de dégradation et en retravaillant les lignes déformées ou estompées des dessins.

Et le résultat est bluffant comme vous pouvez le voir ici sur la démo. C’est génial puisque les fans d’animes vont pouvoir revoir les classiques de leur jeunesse avec une qualité digne des meilleures productions actuelles, le tout en temps réel.

En attendant de voir ces versions remasterisées grâce à des players ou des outils qui n’existent pas encore, vous pouvez déjà tester APISR grâce au code source disponible sur GitHub ou via Huggingface.

FlowTunes – Des heures de musiques IA de qualité pour rester concentré dans votre flow quotidien

Par : Korben
29 mai 2024 à 13:58

FlowTunes est une application de musique très sympa conçue spécifiquement pour booster votre concentration et votre productivité.

Le service propose plus de 3000 morceaux qui ont été générés en collaboration via Suno AI, ce qui garanti plus de 100 heures de musique en continu, toujours renouvelée. Suffit d’appuyer sur lecture, et vous voilà bercé par de la bonne Lo-Fi qui vous permettra de rester focus toute la journée.

L’auteur du site et de l’app iOS qui va avec a passé pas mal de temps pour rendre la musique plus harmonieuse et agréable à l’écoute, en relevant des défis comme la gestion des dégradations de qualité au fil du morceau. Et si un morceau ne vous plait pas, vous pouvez passer au suivant.

FlowTunes est gratuit et sans pub et propose également de personnaliser votre environnement sonore en y ajoutant des fonds sonores comme le chant des oiseaux ou une rivière qui coule… L’application iOS offre aussi une variété de chaînes musicales pour tous les goûts, telles que des beats de lo-fi, des symphonies classiques, des bandes son cinématographiques épiques, et bien plus encore.

Bref, ça vous plaira forcement si vous cherchez un peu de son détente histoire de vous concentrer sur votre travail ou votre code…etc.

Pour plus d’info, rendez-vous sur le site officiel ou téléchargez l’application sur l’App Store.

Source

Le son des images #IA

Par : Korben
28 mai 2024 à 13:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

WebNN – L’IA s’invite dans votre navigateur avec DirectML

Par : Korben
28 mai 2024 à 12:49

Ça y est, les amis, l’API WebNN débarque enfin en preview pour les développeurs, et croyez-moi, ça va changer totalement la manière dont on fait tourner de l’IA dans nos navigateurs web !Grâce à cette techno, on va pouvoir profiter de la puissance de nos GPU et autres accélérateurs matériels directement depuis nos pages web, sans avoir à installer le moindre plugin ou logiciel supplémentaire.

Concrètement, WebNN est une API JavaScript qui va permettre aux applications web d’exécuter des tâches d’inférence de réseaux neuronaux de manière super efficace, en exploitant à fond les capacités des CPU, GPU et autres processeurs dédiés à l’IA (les fameux NPU et TPU). Fini les calculs qui rament, bonjour la fluidité et la réactivité, même pour les modèles les plus gourmands !

WebNN est complètement agnostique côté matériel et côté modèles. Quel que soit le hardware qu’on a sous le capot (Intel, AMD, NVIDIA, Qualcomm…) et le format des modèles (ONNX, TensorFlow…), cette API va nous permettre de tirer parti un maximum des ressources disponibles, tout ça de manière transparente, sans avoir à se prendre la tête avec des lignes de code spécifiques à chaque plateforme.

Cette API suit un modèle de programmation super simple en deux grandes étapes :

  • 1. La construction du modèle : on utilise l’API MLGraphBuilder pour définir notre réseau de neurones, ses opérations, ses entrées et ses sorties et une fois que c’est fait, on peut le compiler en un graphe exécutable.
  • 2. L’exécution du modèle : maintenant qu’on a notre super graphe optimisé, il ne reste plus qu’à lui envoyer nos données d’entrée, et il va nous fournir ses prédictions et classifications à toute vitesse !

Grâce à WebNN, les tâches d’inférence de machine learning sont accélérées par le matériel local, ce qui offre des performances améliorées et une faible latence, même sans connexion internet ou avec une connexion non fiable. De plus, les données restent sur la machine de l’utilisateur, ce qui préserve ainsi sa vie privée.

WebNN est conçu pour fonctionner avec DirectML sur Windows, lequel assure des performances optimales sur divers matériels, notamment les RTX GPUs de NVIDIA, les Intel Core Ultra avec Intel AI Boost, et les Copilot+ PC avec des NPU Qualcomm Hexagon. Ça ouvre la porte à des applications évoluées de génération d’IA, de reconnaissance d’images, de traitement du langage naturel, et bien d’autres cas d’utilisation tout à fait passionnants.

Si vous voulez vous lancer dès maintenant avec WebNN, je vous conseille fortement de visiter le dépôt WebNN Developer Preview sur GitHub. Vous y trouverez plein de démos et d’exemples de code pour vous familiariser avec l’API et ses fonctionnalités. Par contre, vous devrez télécharger Edge en version Canary et la dernière Insider de Windows 11 puis dans la barre d’URL, tapez edge://flags/ pour pouvoir ensuite activer WebNN.

Pour plus de détails, vous pouvez consulter le tutoriel officiel de Microsoft.

Un grand merci au super neurone NexusSeven pour les sources de cet article !

Source

GPT-4 défie les analystes financiers à leur propre jeu !

Par : Korben
25 mai 2024 à 10:45

Des chercheurs de l’Université de Chicago ont voulu tester les capacités de GPT-4 dans le domaine de l’analyse financière, et pas n’importe quelle analyse hein, ils sont allés directement au cœur du sujet à savoir la prédiction des bénéfices futurs des entreprises à partir de leurs états financiers !

Normalement, c’est un boulot d’expert réservé aux analystes financiers chevronnés, car il faut savoir décortiquer les bilans comptables, calculer des ratios clés, interpréter des tendances… Bref, c’est complexe et les machines n’étaient pas vraiment censées rivaliser avec le flair et l’expérience des pros.

Sauf que… Surprise ! Les résultats de l’étude sont bluffants.

GPT-4, sans aucune formation spécifique, s’est révélé meilleur que la moyenne des analystes humains pour prédire si les bénéfices allaient augmenter ou baisser ! L’IA a même fait jeu égal avec les modèles de machine learning spécialisés, entraînés pendant des heures sur des tonnes de données financières. Pas mal comme performance !

Pour y parvenir, les chercheurs ont préparé des données en anonymisant les états financiers comme ça, pas moyen pour GPT-4 de tricher en allant piocher dans sa mémoire. Il a donc dû se débrouiller comme un grand, en analysant uniquement les chiffres fournis… Il repère les tendances clés, calcule les bons ratios, interprète finement les résultats… bref, il effectue un vrai travail d’analyste !

Les chercheurs ont même montré qu’un réseau de neurones entraîné uniquement sur les commentaires fournis par GPT-4 arrivait à prédire les bénéfices presque aussi bien que l’IA elle-même.

Évidemment, GPT-4 a encore du mal avec les cas tordus, genre les petites boîtes qui font des pertes et les analystes humains gardent un avantage quand ils ont accès à des infos « soft » en plus des chiffres, donc rassurez-vous l’IA ne va pas piquer leur job demain (mais après-demain ?).

N’empêche, ces résultats ouvrent des perspectives plutôt excitantes ! Premièrement, ça pourrait démocratiser l’analyse financière en la rendant accessible au grand public. Deuxièmement, les hedge funds pourraient utiliser GPT-4 pour détecter des opportunités d’investissement.

Les chercheurs ont d’ailleurs testé une stratégie de trading basée sur les prédictions de l’IA, et ça marche plutôt bien ! L’étude montre que la stratégie « long short » basée sur les prédictions de GPT-4 génère des rendements supérieurs au marché, avec des ratios de Sharpe et des alphas significatifs. L’IA semble particulièrement douée pour dénicher de la valeur dans les petites capitalisations, là où les analystes humains et même les réseaux de neurones traditionnels ont plus de mal.

Mais attention, il faut rester prudent. Une IA qui joue en bourse, ça peut être risqué et il va falloir plus de garde-fous. Et puis n’oublions pas que ça reste une étude expérimentale et pas la réalité du terrain.

Mais je trouvais ça assez cool pour vous en parler.

Source

TimeGPT – L’IA qui prédit l’avenir

Par : Korben
23 mai 2024 à 07:00

Mesdames et Messieurs, préparez-vous à plonger dans l’univers fascinant de TimeGPT, le premier modèle fondateur dédié à la prédiction des séries temporelles ! Fruit d’un mariage audacieux entre l’apprentissage profond (deep learning) et l’analyse temporelle, TimeGPT promet de révolutionner notre façon d’appréhender l’avenir.

Imaginez que vous soyez à la tête d’une entreprise florissante, mais l’incertitude plane quant à l’évolution future de vos ventes. C’est là que TimeGPT entre en scène, tel un chevalier en armure étincelante ! Grâce à sa capacité à ingérer des quantités astronomiques de données temporelles et à en extraire les tendances les plus subtiles, il est capable de vous offrir des prédictions d’une précision redoutable. Fini le temps où seules les grandes entreprises pouvaient s’offrir les services d’une armée de data scientists pour décrypter l’avenir.

Alors comment ça fonctionne ? Vous allez voir, c’est pas compliqué. Cette IA s’appuie sur une architecture de type Transformeur, ce fameux modèle qui a déjà fait des merveilles dans le domaine du traitement du langage naturel. Mais ici, au lieu de jongler avec des mots, TimeGPT jongle avec des séries temporelles !

Ainsi, il suffit de donnez à TimeGPT un aperçu du passé, comme un enfant à qui vous raconteriez une histoire. Le modèle, avec sa curiosité insatiable, absorbe alors ces informations, les analyse sous toutes les coutures, et y recherche des motifs cachés et les relations subtiles entre les différents points dans le temps. Météo, jours fériés, tendances du web… tout est bon pour nourrir ses algorithmes.

Et puis, tel un magicien extrayant un lapin de son chapeau, TimeGPT génère une prédiction pour le futur, prolongeant la trajectoire des données !

Mieux encore, TimeGPT est loin d’être figé. Grâce au fine-tuning, il peut s’adapter à vos besoins spécifiques. Vous pouvez l’entraîner sur vos propres données pour obtenir des résultats encore plus pertinents. Et bien sûr, grâce à son apprentissage continu, il s’améliore au fil du temps pour toujours coller au plus près de la réalité.

Cet imitateur du passé est surtout capable de s’adapter à une multitude de domaines et de cas d’usage : financier cherchant à anticiper les tendances du marché, responsable de la chaîne d’approvisionnement optimisant ses stocks, ou médecin prédisant l’évolution d’une maladie…etc

Les créateurs de TimeGPT, Azul Garza et Max Mergenthaler-Canseco, ont mis leur créature à l’épreuve face à un véritable arsenal de modèles statistiques, d’algorithmes d’apprentissage automatique et de réseaux de neurones. Et devinez quoi ? TimeGPT a triomphé haut la main, surpassant ses concurrents en termes de précision, d’efficacité et de simplicité d’utilisation.

Je vous invite à tester TimeGPT par vous-même, à lui soumettre vos propres séries temporelles et vous verrez bien ce que ça donne. Et c’est facile de prendre en main puisque quelques lignes de code suffisent pour ouvrir les portes d’un avenir plus prévisible et plus maîtrisé.

Vibe – Une app de transcription audio compatible macOS, Windows et Linux

Par : Korben
21 mai 2024 à 07:31

Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable.

Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui permet de faire de Vibe une véritable solution audio polyvalente bourrée de fonctionnalités.

Vous pouvez par exemple transcrire des fichiers audio et vidéo par lots, prévisualiser le résultat en temps réel, exporter dans une flopée de formats (SRT, VTT, TXT…), et même personnaliser les modèles selon vos besoins. Il fonctionne entièrement hors ligne, donc pas de risque que vos données sensibles se retrouvent dans les griffes des GAFAM et ça tourne sous macOS, Windows et Linux. Pour cela, il vous suffit de vous rendre sur la page des releases GitHub et de télécharger la version qui correspond à votre OS.

Le support pour Apple Silicon est optimisé ce qui offre une performance accrue et pour Windows, la version 8 ou plus sera nécessaire, mais bon, je pense que vous êtes tous ou presque déjà sous Windows 10/11. Les utilisateurs Linux, quand à eux, peuvent installer Vibe via un fichier .deb, et les utilisateurs d’Arch Linux peuvent utiliser debtap pour convertir le paquet en fonction de leurs besoins.

Côté performance, c’est du gâteau puisque comme vous vous en doutiez, les ordinateurs Mac ont droit à une petite optimisation GPU qui booste les résultats. Mais même sur un vieux coucou Windows, Vibe est capable de s’adapter à vos ressources sans broncher via à ses réglages avancés. Et pour les Linuxiens, sachez que le support de l’audio système et du micro est prévu pour bientôt.

Bref, c’est à tester si vous êtes dans le business du sous-titre ou de la transcription.

Source

LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts

Par : Korben
20 mai 2024 à 07:00

Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous !

Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’identification et de suppression des tokens non essentiels, il peut réduire jusqu’à 20 fois la taille des prompts, tout en préservant les performances des modèles.

Que vous soyez un développeur cherchant à optimiser ses coûts d’API ou un utilisateur souhaitant dépasser les limites de contexte, LLMLingua vous offre de nombreux avantages :

  • 💰 Réduction des coûts : En compressant à la fois les prompts et les réponses générées, LLMLingua permet de réaliser des économies significatives sur votre facture d’API.
  • 📝 Support de contextes étendus : Fini le casse-tête du « perdu au milieu » ! LLMLingua gère efficacement les longs contextes et booste les performances globales.
  • ⚖️ Robustesse : Pas besoin d’entraînement supplémentaire pour les LLM. LLMLingua fonctionne de manière transparente.
  • 🕵️ Préservation des connaissances : Toutes les informations clés des prompts originaux, comme l’apprentissage en contexte et le raisonnement, sont conservées.
  • 📜 Compression du cache KV : Le processus d’inférence est accéléré grâce à l’optimisation du cache clé-valeur.
  • 🪃 Récupération complète : GPT-4 est capable de reconstituer l’intégralité des informations à partir des prompts compressés. Bluffant !

Prenons un exemple simple et imaginons que vous vouliez compresser le prompt suivant avec LLMLingua :

python from llmlingua import PromptCompressor

llm_lingua = PromptCompressor()

prompt = "Sam a acheté une douzaine de boîtes contenant chacune 30 surligneurs, pour 10 $ chacune..."

compressed_prompt = llm_lingua.compress_prompt(prompt)

print(compressed_prompt)

Et voilà le travail ! En quelques lignes de code, vous obtenez un prompt compressé prêt à être envoyé à votre modèle favori :

Sam acheté boîtes contenant chacune 30 surligneurs, 10 $ chacune.

Avec un taux de compression de 11,2x, le nombre de tokens passe de 2365 à seulement 211 ! Et ce n’est qu’un début. Sur des exemples plus complexes comme les prompts Chain-of-Thought, LLMLingua maintient des performances similaires avec un taux de compression allant jusqu’à 20x.

Alors bien sûr, pour l’avoir bien testé, faut quand même comprendre que vous n’obtiendrez pas forcement un résultat identique entre le prompte compressé et celui non compressé mais pour un gain de 60 / 70 voire 80%, le résultat généré à partir du prompt compressé reste précis à hauteur de 70 / 80 %, ce qui est très bien.

Pour démarrer avec LLMLingua, rien de plus simple. Installez le package avec pip :

pip install llmlingua

Puis laissez libre cours à votre créativité ! Que vous soyez un adepte du Retrieval Augmented Generation (RAG), des réunions en ligne, du Chain-of-Thought ou même du code, LLMLingua saura répondre à vos besoins. De nombreux exemples et une documentation complète sont à votre disposition pour vous guider.

Perso, je l’ai testé sur de longs prompts que j’avais dans mes scripts, avec Claude3 d’ailleurs et pas ChatGPT et le résultat est top !

A tester ici !

Discord LLMCord – Quand les chatbots s’invitent dans Discord

Par : Korben
18 mai 2024 à 16:48

Vous êtes fan de Discord et vous aimez bidouiller des trucs ?? Alors préparez-vous à découvrir Discord LLMCord. C’est un petit bout de code qui va vous permettre de causer avec des IA directement dans vos canaux, comme si c’étaient vos potes. Et ça marche avec à peu près tous les modèles de langage, qu’ils soient hébergés à distance ou en local sur votre bécane.

Pour lancer une conversation, il suffit de tagger le bot et hop, c’est parti mon kiki. Vous pouvez continuer la discussion en répondant aux messages et ainsi construire des fils de discussion complets. Vous pouvez par exemple :

  • Poursuivre votre propre conversation ou celle de quelqu’un d’autre.
  • « Rembobiner » une discussion en répondant à un vieux message.
  • Poser une question sur n’importe quel message de votre serveur en taguant le bot.

En plus, si vous envoyez plusieurs messages à la suite, ils seront automatiquement mis bout à bout et si vous répondez juste au dernier, le bot verra tous les précédents. Vous pouvez aussi déplacer une conversation dans un fil sans perdre le fil (lol). Il vous suffit de créer un thread à partir d’un message et de tagger le bot dedans pour continuer à papoter.

Côté compatibilité, ça supporte les modèles distants d’OpenAI, Mistral, Anthropic et plein d’autres grâce à LiteLLM. Si vous voulez faire tourner un modèle en local, pas de souci non plus puisque ça marche avec OLLaMa, OobaBooga, Jan, LM Studio ou n’importe quel serveur d’API compatible OpenAI.

Le bot gère même les images si vous utilisez un modèle de vision comme GPT-4, Claude-3 ou LLaVA. Il a un prompt système personnalisable et vous pouvez lui parler en DM pour plus d’intimité (pas besoin de le tagger).

Si vous utilisez l’API OpenAI, LLMCord est également capable de reconnaître l’identité des utilisateurs. De plus, les réponses s’affichent en temps réel, avec un joli dégradé de vert quand c’est fini et s’il cause trop, il coupe automatiquement ses messages en plusieurs morceaux. Pratique pour éviter de se faire ban par Discord ! Il affiche aussi des avertissements utiles si besoin, genre « J’utilise seulement les 20 derniers messages » quand vous dépassez la limite. Bref, c’est un bot bien élevé.

Sous le capot, il utilise un dico global avec des mutex pour mettre en cache les données des messages de manière efficace et thread-safe, comma ça, ça réduit les appels à l’API Discord et ça évite les fuites de mémoire. Le tout totalement en asynchrone.

Pour l’installer, c’est fastoche. Vous clonez le repo GitHub, vous installez les dépendances Python avec pip et vous créez un fichier .env avec vos clés d’API et les paramètres du bot. Lancez le script et tada, l’URL d’invitation de votre bot s’affiche dans la console. Pour plus de détails, suivez ce guide :

  1. Installer Python : Téléchargez et installez Python à partir de python.org.
  2. Cloner le dépôt git : Ouvrez un terminal et clonez le dépôt : bash git clone https://github.com/jakobdylanc/discord-llm-chatbot.git cd discord-llm-chatbot
  3. Installer les packages nécessaires : bash pip install -r requirements.txt
  4. Créer un fichier .env : bash cp .env.example .env
  5. Configurer les variables d’environnement : Ouvrez .env et remplissez les champs nécessaires : plaintext DISCORD_BOT_TOKEN=YOUR_DISCORD_BOT_TOKEN OPENAI_API_KEY=your-openai-api-key MODEL_NAME=local/openai/YOUR_MODEL_NAME
  6. Exécuter le script : Dans le terminal, lancez : bash python llmcord.py

Ah et j’oubliais, LLMCord est open source (vive le libre !), donc si vous voulez contribuer ou l’adapter à vos besoins, forkez et PR sans modération.

Avec ça, votre Discord ne sera plus jamais pareil et je sens que vous allez bien vous marrer ! Alors merci à Lorenper pour l’info car c’est une chouette découverte !

Source

Créez votre avatar IA en un clin d’oeil avec PuLID

Par : Korben
18 mai 2024 à 09:38

Développé par une équipe de chez ByteDance (mais si, TikTok, votre réseau social préféré), ce modèle baptisé PuLID va vous permettre de créer des images sur-mesure à partir de photos existantes et tout ça en un clin d’œil.

Basé sur le principe d’alignement contrastif, PuLID vous offre une customisation d’identité ultra rapide et de haute qualité. Pour cela, il utilise une architecture qui apprend à la volée les caractéristiques clés d’une identité source (des photos de vous) pour les transposer efficacement sur de nouvelles images cibles (images générées par IA). On obtient alors des visuels uniques générés en quelques secondes à peine, tout en préservant la cohérence des photos d’origine.

Bon, ok, ça peut paraître un peu barbare dit comme ça mais c’est super simple à utiliser. Si vous êtes flemmard, vous pouvez aller directement sur Huggingface ou pour les plus courageux, l’installer sur votre machine. Tout ce dont vous avez besoin, c’est d’un bon vieux Pytorch (version 2.0 minimum svp) et de quelques lignes de code pour démarrer l’entraînement.

PuLID (Pure and Lightning ID Customization via Contrastive Alignment) fonctionne en utilisant des techniques de machine learning pour aligner des représentations latentes en comparant des paires d’images ou d’identités. L’objectif est de maximiser la similarité pour des identités similaires et de minimiser la similarité pour des identités différentes. En ajustant ces représentations grâce à l’alignement contrastif, PuLID permet de créer des images uniques avec une grande précision et rapidité.

Si vous bossez dans la comm et que ous avez déjà quelques concepts arts sympas d’un personnage, mais vous aimeriez voir à quoi il ressemblerait dans différents environnements ou avec des styles graphiques variés, pas de souci ! Vous balancez vos images dans PuLID avec les bonnes instructions et le tour est joué. Vous obtiendrez alors tout un tas de variations stylées de votre personnage, tout en gardant son visage reconnaissable.

L’équipe de ByteDance a pensé à tout : PuLID est 100% open-source et disponible sur GitHub. Vous pouvez donc bidouiller le code comme bon vous semble pour l’adapter à vos besoins. Y’a même des tutoriels et des exemples pour vous aider à prendre en main le bouzin rapidement.

Et pour les plus impatients d’entre vous, voici un petit tuto d’installation pour commencer à jouer avec PuLID :

Pré-requis :

Étapes d’installation :

  1. Cloner le dépôt PuLID :
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

Créer et activer l’environnement conda :

conda create --name pulid python=3.10
conda activate pulid

Installer les dépendances :

pip install -r requirements.txt

Installer PyTorch : Suivez les instructions sur le site de PyTorch pour installer la version compatible avec votre système. Par exemple, pour CUDA 11.7 :

conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorch

Lancer l’application :

python app.py

Pour en savoir plus sur PuLID et récupérer le code source, rendez-vous sur le repo GitHub.

Allez, je vous laisse vous amuser avec votre nouveau jouet. Un grand merci à Lorenper pour l’info. Grâce à toi, on va pouvoir personnaliser nos avatars comme jamais.

Source

L’IA qui raisonne comme un humain

Par : Korben
17 mai 2024 à 22:18

Les scientifiques du MIT boostent les capacités de raisonnement de l’IA avec une architecture hybride révolutionnaire ! Hé oui, les petits génies du MIT ont développé 3 frameworks qui vont donner aux IA le pouvoir de raisonner comme des humains.

Imaginez que vous ayez un pote un peu limité niveau jugeote (on a tous un [insère ici le prénom de ton collègue le plus proche] dans notre entourage 😅). Il comprend ce que vous lui dites, il peut même vous répondre, mais dès qu’il faut réfléchir un peu, ça rame et parfois ça plante. Eh bien, les IA actuelles, c’est un peu pareil !

Elles sont super balèzes pour ingurgiter des tonnes de données et cracher du texte, mais niveau compréhension du contexte et raisonnement complexe, ce n’est pas encore tout à fait ça. Et c’est là que nos amis du MIT entrent en scène avec leur trésor d’abstractions en langage naturel. En gros, ils ont créé des lib qui vont aider les IA à mieux piger leur environnement et résoudre des problèmes de manière plus humaine. On parle donc de 3 frameworks aux petits noms mignons : LILO, Ada et LGA.

LILO, c’est l’atout du développeur. Il va aider les IA à synthétiser, compresser et documenter du code comme un pro. Fini les IA qui créent des pavés de code illisibles, place à des programmes bien structurés et commentés !

Ada, c’est la stratège du groupe. Elle va permettre aux IA de planifier des actions de manière flexible. Au lieu de suivre bêtement une recette, l’IA va pouvoir s’adapter et improviser en fonction de ce qu’elle trouve dans son frigo. Ada a même montré une amélioration de 59% pour des tâches de simulation de cuisine et de 89% pour des tâches de construction de lit.

Enfin, LGA, c’est l’as de la perception. Elle va filer un gros coup de pouce aux robots pour qu’ils comprennent mieux leur environnement, un peu comme si on leur refilait une bonne paire de lunettes. Terminé les robots qui se prennent les pieds dans le tapis, ils vont pouvoir naviguer dans votre appart’ comme un poisson dans l’eau (ou presque 😅).

Avec ces 3 frameworks qui mixent réseaux de neurones et approches logiques classiques, les chercheurs espèrent bien faire passer les IA au niveau supérieur. Ainsi, on aura enfin des chatbots qui comprennent vos blagues pourries, des robots qui vous apportent une bière sans renverser la moitié au passage, et pourquoi pas des IA qui vous aident à coder votre prochain jeu vidéo pendant que vous glandouillez sur le canapé !

Pour ceux qui veulent aller plus loin, voici les publications sur arXiv des avancées réalisées :
Library Induction from Language Observations
Action Domain Acquisition
Language-Guided Abstraction

J’ai hâte de voir tout ça fonctionner pour en vrai !

Source

Unitree G1 – Le robot humanoïde à tout faire pour 16 000$

Par : Korben
14 mai 2024 à 10:37

Unitree, le fabricant chinois de robots bien connu (sauf par moi visiblement) pour ses quadrupèdes comme le Go2 et le B2, nous réserve une sacrée surprise avec son nouveau robot humanoïde baptisé G1. Et apparemment, ce n’est pas un gadget de geek.

Avec un prix de départ à 16 000 $, le G1 est une « affaire intéressante » comparé à d’autres robots humanoïdes comme l’Atlas de Boston Dynamics (qui coûte bien plus cher). Ce qui frappe d’emblée quand on regarde la vidéo, c’est la flexibilité hallucinante de ce robot. Grâce à ses 23 degrés de liberté dans les articulations, il peut bouger dans tous les sens, bien au-delà des capacités humaines. C’est un peu flippant ^^. Il peut même se plier pour se ranger facilement dans un coin.

Mais ce n’est pas qu’un contorsionniste en manque de reconnaissance. C’est aussi un sacré costaud avec ses 35kg (ou 47 kg… les infos divergent…) et sa vitesse de déplacement de 2 m/s. Ses moteurs délivrent jusqu’à 120 Nm de couple, de quoi soulever des charges d’environ 3 kg avec ses petits bras. Et avec sa batterie de 9000 mAh, il peut tenir environ 2 heures sur une seule charge (sur le papier). Bref, de quoi l’utiliser pour divers travaux sans craindre qu’il tombe à plat trop vite.

Côté look, Unitree a joué la carte du robot futuriste avec son casque aux allures de Daft Punk et son visage illuminé qui cache des capteurs 3D LiDAR et une caméra de profondeur. Mais ce sont surtout ses mains robotiques à trois doigts qui impressionnent le plus. Elles lui permettent d’attraper et de manipuler des objets avec une précision et une dextérité bluffantes.

Ce robot apprend aussi en permanence grâce à des techniques d’imitation et d’apprentissage par renforcement. Il peut simuler les mouvements humains et acquérir de nouvelles compétences au fur et à mesure. Son cerveau embarque 8 cœurs haute performance pour un traitement ultra-rapide des informations. Et avec le WiFi 6 et le Bluetooth 5.2, il est hyper connecté ! Pour ceux qui cherchent à le développer davantage, le modèle G1 EDU inclut même en option le module de calcul haute performance NVIDIA Jetson Orin.

Alors Terminator en devenir ou pas ? Bien qu’il puisse encaisser des coups, il reste très docile. Enfin, pour l’instant… Car Unitree prévoit de l’entraîner dans des environnements simulés pour muscler encore plus son IA.

Bref, ce G1 de Unitree apporte un peu de fraicheur, surtout qu’à ce prix, ça commence à devenir accessible pour le commun des friqués. Certaines de ses fonctionnalités impressionnantes sont encore en développement, mais avec le rythme auquel avancent les technologies robotiques, ce n’est qu’une question de temps avant qu’il ne devienne encore plus polyvalent et sache se rendre indispensable.

Bref, pour en savoir plus, rendez vous sur le site Unitree.

Perso, je me porte volontaire pour le tester.

Source

FaceFusion – Du swaps de visages vite fait mais surtout bien fait

Par : Korben
14 mai 2024 à 07:00

Dernièrement, j’ai testé FaceFusion et j’ai adoré, donc je voulais vous en parler rapidement. Il s’agit d’un outil open source qui permet de faire des échanges de visages (swap) d’une excellente qualité aussi bien avec des photos que des vidéos. Vous vous en doutez, le tout est boosté par de l’intelligence artificielle comme un peu tout ce qui sort en ce moment.

En gros, vous prenez votre visage, vous la collez sur une autre, et bim, ça donne un truc hyper réaliste en quelques clics !

Sous le capot, FaceFusion utilise des techniques de pointe en deep learning pour détecter et aligner les visages avec une précision chirurgicale. Ça passe par des modèles comme YOLOFace ou RetinaFace pour repérer les faciès, puis des algos transforment et mixent tout ça façon Picasso du futur.

Le résultat est assez bluffant puisque vous pouvez littéralement mettre votre tronche de cake à la place de Leonardo DiCaprio et devenir la star de Titanic en deux temps trois mouvements (de brasse coulée).

FaceFusion est optimisé pour le GPU mais fonctionnera également sur votre bon vieux CPU et cela même sur des vidéos en grosses résolutions. D’ailleurs, y’a ‘tout un tas de réglages pour gérer la qualité, que ce soit pour du swap d’image ou de vidéo.

Et histoire de vous simplifier la vie, une jolie interface graphique est même fournie pour piloter l’outil sans mettre les mains dans le cambouis.

Franchement, FaceFusion c’est un outil vraiment cool mais faudra quand même pas déconner et en faire n’importe quoi hein, genre swapper des têtes de politiques pour faire des deep fakes SURTOUT AVEC BURNO LE MAIRE, ça peut vite partir en vrille. 😅

Bref que ce soit pour faire des blagues à vos potes, créer des effets spéciaux délirants, ou juste explorer le champ des possibles de l’IA appliquée à l’image, FaceFusion risque de vite devenir votre nouveau meilleur ami. Et vu que c’est open source, vous pouvez mettre les mains dans le code si ça vous éclate.

Bref, foncez sur le GitHub et en cadeau, je vous ai même fait une vidéo tuto !

Merci les Patreons pour le soutien !

Quelles extensions IA récoltent le plus vos données ?

Par : Korben
13 mai 2024 à 03:21

Bannière Incogni

— Article en partenariat avec Incogni

Salut les amis, j’espère que vous profitez bien de ce printemps dégueulasse avant la période trouble de la fin d’année scolaire qui arrive. De mon côté, comme vous l’avez remarqué je charbonne pas mal en ce moment avec un rythme de publication assez poussé. Le site a 20 ans et presque toutes ses dents … la seconde jeunesse n’est pas un mythe. Et je vous teste du coup pas mal d’outils IA variés et éclectiques. L’occasion de rappeler que tout n’est pas (p)rose au pays du prompt.

Récemment je vous ai mis en garde sur les pratiques des applications d’achat de vêtements, les applis destinées aux enfants et même les voitures intelligentes. Vous pensiez que ce serait difficile de faire pire ? Et bien, détrompez-vous, car avec la mode de l’Intelligence artificielle, il semble « normal » de voir naitre des outils destinés à récolter un max d’informations personnelles à notre propos. Surtout si ce sont des extensions qui tournent sur Google Chrome (que vous devriez avoir remplacé par Firefox ou par Brave au minimum depuis 1974).

Si vous touchez à l’IA, vous savez qu’elles sont capables de rendre d’énormes services et de vous faire gagner du temps. Le souci c’est que cela les rend d’autant plus alléchantes à installer et à utiliser. Et leurs concepteurs l’ont bien compris. Les chercheurs d’Incogni ont donc passé au grill plus de 70 extensions Chrome pour voir si le résultat est catastrophique. Ou tout du moins qui s’en sort le moins bien et qui récolte quoi à votre propos.

Et l’état des lieux est … cata. Encore plus que pour les catégories précédemment citées. Ici ce sont pas moins de 70% des apps qui sont problématiques, mais qui en plus sont considérés à risques élevés. Par exemple 100% des extensions dédiées à l’écriture assistée par IA sont concernées (ouch). 60% récoltent vos données personnelles et surtout 44% récupèrent des infos qui peuvent vous identifier directement (adresse mail, téléphone, nom et prénom …). Du pain béni pour les data brokers.

Du côté des permissions demandées, sans surprises, ce sont les extensions de type assistant personnel qui se gavent le plus. Habitudes de surf, historique web, localisation, identifiants de connexions … certaines peuvent même aller jusqu’à injecter du code JavaScript dans les pages que vous utilisez, avec tous les risques que cela comporte. Parmi les apps inspectées, de grands noms comme Grammarly, Quillbot, Jasper ou WebChatGPT. Est-ce que ce sera utilisé à vos dépens ? Qui sait. Si vous voulez creuser les données, c’est par ici.

Bref, l’IA ne déroge pas à la règle habituelle du web : lorsqu’une nouvelle technologie débarque, c’est toujours un peu le far-west. Et pour se protéger un minimum il n’y a pas tant d’outils que ça, d’ou l’utilité d’un service comme Incogni.

En limitant la durée de rétention de données personnelles stockées chez les data brokers, Incogni contribue à renforcer votre confidentialité en ligne et à réduire votre exposition. L’outil ne peut pas empêcher ce genre d’applications de récupérer vos infos (il n’y a que vous qui pouvez le faire en étant très attentif à votre comportement en ligne, en n’installant rien d’inutile, etc.). Par contre il va empêcher les brokers qui achètent ou se procurent votre profil de l’utiliser et le revendre.

Via une interface simple à prendre en main, l’outil de Surfshark va servir d’intermédiaire. Il va analyser sa liste de courtiers sous surveillance (environ 200), voir si vous apparaissez dans leurs bases et si c’est le cas leur envoyer un mail pour demander un retrait. Et relancer sans arrêt jusqu’à ce que le broker effectue la suppression. En plus de voir l’avancée des étapes sur votre compte, vous pouvez aussi connaitre le niveau de dangerosité des différents brokers. Un retour sur mon test personnel est à lire ici.

Il fait aussi du suivit long terme. Donc dès qu’un vilain pas beau vous a effacé, vous savez que c’est pour de bon (s’il tente un coup en scred il sera rappelé à l’ordre). Et savoir qu’il ne fera plus d’argent sur votre dos est toujours une petite satisfaction. Le prix du service reste inchangé, vous pouvez vous abonner pour moins de 94€ TTC/an. Et cela sans risques grâce à la garantie satisfait ou remboursé de 30 jours.

Lancez-vous, testez Incogni !

En manque d’inspiration avec vos prompts IA ? Allez jeter un œil à la bibliothèque d’Anthropic

Par : Korben
12 mai 2024 à 07:00

Vous en avez assez de passer des heures à chercher la formulation parfaite pour obtenir de bons résultats avec vos prompts IA ?

Ne vous cassez plus la tête, puisque Anthropic a pensé à tout avec sa Prompt Library. Cette bibliothèque gratuite de prompts va vous permettre d’interagir plus facilement avec des outils comme Claude3, ChatGPT, Mistral…etc. Les prompts que vous y trouverez sont pré-optimisés pour une multitude de tâches, allant de la rédaction au développement en passant par l’analyse de données. Et ça n’a de cesse de s’enrichir puisque tout le monde peut soumettre ses meilleurs prompts.

Pour l’utiliser, il vous suffit de copier-coller le prompt de votre choix dans votre IA préférée, d’y apporter quelques modifications si le cœur vous en dit, et voilà ! Il y a même le code en TypeScript ou Python qui vous permettra de passer un message « system » avant votre message « user ».

Chacun de ces prompts est le fruit d’un travail minutieux de la part des équipes d’Anthropic dont l’objectif est de fournir des résultats d’e qualité supérieure d’excellente qualité afin de montrer ce que Claude3 a dans le ventre. Et, comme je le disais, il y en a pour tous les goûts… Des prompts pour générer des recettes, interpréter les rêves, se lancer dans la médiation pleine conscience, à des choses plus boulot / business comme créer une marque, rédiger des documents, debugger du code python et j’en passe.

Si ça vous dit de jeter un œil, c’est par ici que ça se passe.

❌
❌