Bilan du hackathon IA de l'IFB - IFB

L’IFB/ELIXIR-FR a réuni une trentaine de participants du 1er au 3 juin 2026 sur le campus CNRS de Villejuif pour un hackathon dédié à l’intelligence artificielle appliquée à la biologie alliant présentations et sessions techniques.

Organisé dans le cadre de l’axe stratégique IA de l’IFB et du projet MUDIS4LS, cet événement a rassemblé les équipes de l’IFB-core, des plateformes membres, contributrices et équipes associées avec pour objectifs : faire le point sur les pratiques et outils d’IA au sein de l’IFB et de ses plateformes, et esquisser une stratégie collective pour les années à venir.

De l'état de l'art aux projets en cours : l'IA à l'IFB/ELIXIR-FR

La première demi-journée a été dédiée à un état des lieux de l’intelligence artificielle en biologie. Après un tour d’horizons « panorama et perspectives pour l’IFB » mené par Christophe Blanchet, Alban Gaignard et Jacques van Helden, Romuald Marin (IFB/ELIXIR-FR) a présenté les fondamentaux des LLM (tokenisation, embeddings, entraînement, prompting), tout en soulignant leurs limites : coût computationnel, hallucinations, non-déterminisme et sensibilité à la formulation des requêtes. Enfin, Nicolas Servant (Institut Curie) a présenté différents usages concrets et illustrés de RAG (Retrieval-Augmented Generation).

Plusieurs initiatives internes à l’IFB ont ensuite été présentées. Romuald Marin a introduit ViromeChat, un agent conversationnel dédié à l’exploration des interactions entre les virus, leurs hôtes et leurs environnements, permettant d’interroger des bases de données taxonomiques et d’interaction hôtes/virus et de répondre aux questions des virologues. Par la suite, Anakim Gualdoni a présenté son projet de thèse sur l’utilisation des LLM pour faire des prédictions sur des espèces de champignons, ainsi que des pistes pour enrichir les métadonnées de la base madbot. Alban Gaignard a quant à lui exposé comment LLM et ontologies peuvent cohabiter et plus particulièrement la capacité à alimenter des graphes de connaissances à partir de textes, ou inversement à interroger un LLM via des requêtes.

Retour en images sur ces journées. ©️IFB/ELIXIR-FR

Six use cases développés lors de la session de hacking

Lors de la deuxième journée, les sessions hacking en groupes ont permis de travailler sur 6 des huit cas d’usage prévus, illustrant la diversité des applications possibles des LLM dans l’écosystème bioinformatique :

Le groupe EDAM-terms-recommender, piloté par Alban Gaignard et Baptiste Rousseau, a travaillé à l’annotation automatique d’outils bioinformatiques en s’appuyant sur l’ontologie EDAM via un adaptateur permettant de basculer entre LLM local (BioMistral), API Albert (API académique) et API Groq (LLM commercial). L’évaluation de la pertinence des annotations reste un défi, notamment en raison de la hiérarchie des classes EDAM. Le code est disponible sur GitHub.

Le groupe Utilisation d’une IA pour faciliter et améliorer les définitions de concepts dans EDAM, animé par Jacques van Helden, a exploré comment un LLM peut aider à réviser et enrichir les termes d’une ontologie, en prenant l’exemple de la régulation transcriptionnelle. ChatGPT s’est montré le plus efficace après dialogue itératif, produisant un tableau de résultats pertinents mais incomplets, tandis qu’Albert a présenté des limites liées à la taille du contexte (3 400 lignes d’EDAM). Pour la suite, il s’agirait d’étudier la possibilité de mener ces analyses sur des IA souveraines.

Le groupe AI Assistant for tool selection in Biosphere, porté par Matis Zouari, Audrey Bihouée, Christophe Blanchet et Hervé Ménager, souhaitait développer un chatbot capable de guider les utilisateurs de Biosphere vers les machines virtuelles les plus adaptées à leurs besoins. Les résultats sont encourageants, avec quelques hallucinations sur des requêtes complexes absentes de la base réduite utilisée. Lien du dépôt GitLab

Le groupe Spatial RAG for earth virome exploration, conduit par Paul Tissot, Pauline Le-Corre et Romuald Marin, a développé un agent interrogeant un jeu de données de 6 millions de lignes de métadonnées BioSample du projet Virome@tlas. Trois outils ont été construits : le premier produit une description textuelle à partir de son identifiant ; le second génère un résumé des échantillons pour un pays donné ; le troisième recherche les virus présents à proximité d’une ville par calcul de distances. Lien du dépôt GitLab

Le groupe Benchmarking de solutions pour l’implémentation d’un workflow Nextflow, mené par Philippe Hupé, Frédéric Jarlier, Nicolas Servant, Corentin Raoux, Baptiste Roelens, Fabrice Leclerc et Quentin Duvert, a comparé Albert, Seqera AI, Claude et Gemini sur la génération d’un pipeline single-cell RNA-seq complet. Résultat : les modèles les plus récents et les plus volumineux donnent de meilleurs résultats, la planification préalable avec l’IA améliore significativement la qualité du code, et les modèles commerciaux restent plus performants que les solutions académiques. Aucun des outils testés n’a produit de pipeline fonctionnel.

Le groupe Microbiome Metadata, animé par Hélène Chiapello, Nicolas Pons, Liliana Ballesteros-Mejia, Alban Gaignard, Imane Messak et Thomas Denecker, a testé la capacité des LLM (Perplexity / Mistral, API Albert) à extraire automatiquement des métadonnées d’échantillons de microbiome à partir d’articles scientifiques. Les travaux s’inscrivent dans une constellation de projets complémentaires déjà en cours au sein de la communauté (FAIR-Checker, MIASSM Cloud4Sams, MicrobiomeSchemas, référentiel de biodiversité du MNHN, madbot).

Pour en savoir plus, consultez la synthèse de ces différents use case.

Des discussions stratégiques pour construire l'IA académique

La dernière matinée, animée par Jacques van Helden, a été l’occasion d’ouvrir des questions structurantes pour l’avenir de l’IFB sur le sujet de l’IA. Plusieurs enjeux ont été identifiés : le passage à l’échelle et le coût des ressources GPU, le choix entre modèles ouverts et solutions commerciales, la nécessité de disposer de jeux de données de référence pour évaluer et comparer objectivement les modèles, et l’importance croissante du benchmarking.

À plus court terme, les participants ont acté la nécessité de mutualiser les compétences et les modèles entre projets, de préparer une future formation à destination des communautés bioinformatiques, et d’articuler les actions IA de l’IFB avec celles des autres acteurs français et européens.