Vue lecture

SimpleFold - Un labo de biologie moléculaire qui tourne sur un simple Macbook Pro

Apple vient de sortir un truc énorme et je pense que personne n’a encore capté cette folie. Leur équipe de recherche en machine learning a publié SimpleFold , un modèle d’IA pour prédire la structure des protéines. Jusque-là, rien de révolutionnaire me direz-vous car AlphaFold de Google fait déjà ça très bien, sauf que… SimpleFold, lui, tourne sur votre MacBook Pro !

Maintenant, je vais vous expliquer pourquoi c’est complètement dingue. D’après l’article de recherche d’Apple , SimpleFold atteint 95% des performances d’AlphaFold2 tout en étant infiniment plus léger. En effet, AlphaFold nécessite des supercalculateurs avec des GPU à 20 000 balles pièce alors SimpleFold, lui tourne tranquille sur un MacBook Pro M2 avec 64GB de RAM.

Pour réaliser cet exploit, au lieu d’utiliser les modules super complexes d’AlphaFold comme la méthode du triangle attention ou les MSA ( Multiple Sequence Alignments ), SimpleFold utilise une technique appelée “flow-matching” avec des transformers basiques. Pour rappel, flow matching ça permet de générer des données (souvent des images ou du texte), à partir de bruit aléatoire…

Ils ont donc échangé le moteur de Formule 1 utilisé par des outil comme Alphafold par un moteur de Twingo bien générique et arrivent à atteindre la même vitesse.

Les chercheurs d’Apple ont pour cela entraîné 6 versions différentes de SimpleFold, de 100 millions à 3 milliards de paramètres. Et même la plus petite version (100M) atteint 90% des performances d’ ESMFold sur les benchmarks CAMEO22.

Et c’est super cool parce que prédire la structure d’une protéine, c’est pas juste un truc de geek pour s’amuser. C’est LA base pour créer de nouveaux médicaments, comprendre des maladies, développer des vaccins… Jusqu’à présent, seuls les gros labos avec des budgets de malade pouvaient se permettre de faire ça, c’est pourquoi SimpleFold change complètement la donne en rendant cette technologie accessible à n’importe quel chercheur avec un MacBook.

Un chercheur indépendant peut maintenant découvrir de nouvelles molécules depuis son canapé… Chapeau Apple pour démocratiser cette partie de la recherche scientifique !

Le plus drôle dans tout ça, c’est qu’Apple a entraîné SimpleFold sur 8,6 millions de structures protéiques, ce qui en fait donc le plus gros modèle de folding jamais créé, avec 3 milliards de paramètres pour la version complète. Maintenant pour l’installer, c’est super simple. Le repo GitHub montre que vous aurez juste besoin de Python 3.10 et que ça supporte PyTorch ou MLX (le framework d’Apple pour les puces Silicon).

Et voilà, en 5 minutes, vous avez un labo de biologie moléculaire totalement open source sur votre machine !

Yuyang Wang et son équipe ont donc prouvé que pour prédire les structures protéiques, pas besoin de réinventer la roue. Des transformers classiques avec du flow-matching, et ça marche ! Imaginez des lycéens qui découvrent de nouvelles molécules pour leur TPE, des startups biotech qui se lancent depuis un garage (littéralement), des pays en développement qui peuvent enfin faire de la recherche de pointe sans investir des millions dans l’infra…

Apple vient de casser un petit peu le monopole de la big pharma sur la recherche moléculaire.

C’est top non ?

  •  

Un score secret dans votre sang révèle le vieillissement caché de chaque organe

Votre cerveau ne vieillit pas au même rythme que vos poumons, vos vaisseaux que vos muscles, vos reins que votre foie… Mais alors, comment savoir où en est l’horloge biologique précise de l’organisme ? Comment identifier quels organes et systèmes seront les plus susceptibles de dysfonctionner...

  •