Inclure la phrase suivante dans la section « Funding » ou « Acknowledgement » des publications :
Descriptif du projet
L’IFB-core pilote le projet PIA3 – Equipex, “Mutualised Digital Spaces for FAIR Life Sciences” (MUDIS4LS) afin de consolider ses orientations stratégiques et de les structurer autour de 5 projets thématiques (Implementation Studies – IS) qui s’appuient sur 4 WorkPackages (WP) technologiques. Ce projet vise à couvrir plus ou moins 30% des besoins en équipement pour l’ensemble des plateformes de l’IFB de 2021 à 2029, et réunit 17 établissements-partenaires. Partiellement orienté sur l’achat d’équipement, il constitue le socle de l’infrastructure numérique distribuée opérée par l’ensemble des plateformes et gérée par une “task force” mutualisée (WP2). Un axe majeur du projet est d’assurer l’orchestration des flux de données tout au long de leur vie (WP3), depuis leur production (avec les INBS) jusqu’à leur diffusion via des dépôts nationaux et internationaux. Il relève également le défi de l’IA pour les sciences de la vie en s’appuyant sur les ressources nationales de calcul intensif (WP4). Ses 5 implémentations studies visent à affronter le défi de l’intégration multi-omique, imagerie et phénomique (IS1) et à articuler les développements sur les besoins des communautés ciblées : écologie marine (IS2), santé (IS3), microbiologie (IS4) et agriculture (IS5).
WP1 – Coordination
Co-responsables : Jacques van Helden (AMU), Gildas Le Corguillé (SU/CNRS), Julien Seiler (CNRS), Rachida Chibani (CNRS), Hamid Ouahioune (CNRS)
Objectifs :
- Établissement des documents contractuels
- Mise en place et gestion du schéma de gouvernance
- Déploiement des outils d’organisation
- Reporting et suivi du projet
- Communication interne et externe
WP2 – A Distributed data infrastructure for project-life-long secured storage and backup
Co-responsables : Guillaume Seith, Olivier Sallou
Objectifs :
- Rationaliser l’équipement des plates-formes fédérées IFB en installant tous les équipements dans des centres de données régionaux ou nationaux labellisés.
- Soutenir le Core et les nœuds régionaux du NNCR, en combinant le HPC et le stockage sécurisé à moyen terme.
- Étendre les services aux régions qui ne sont pas encore couvertes par le NNCR IFB.
- Construire un réseau de secours entre les sites au sein du NNCR.
- Créer des espaces de données partagés (data lake) permettant l’intégration de différents types de données et leur accès par différentes technologies informatiques de manière transparente.
WP3 – Orchestrating data flows for life sciences
Co-responsables : Julien Seiler (CNRS), Frédéric de Lamotte (INRAE)
Objectifs : Assurer la mise à disposition des données
- Élaborer des procédures basées sur des plans de gestion des données exploitables par machine (maDMP) pour la gestion des flux de données entre les infrastructures de production, les centres de calcul et les référentiels.
- Instrumenter les infrastructures de données et de calcul pour la capture des métadonnées (y compris la provenance) et l’alimentation des maDMP.
- Mettre à jour automatiquement les maDMP tout au long du cycle de vie des projets de recherche.
- Diffuser les maDMP auprès de l’INBS afin de garantir une gestion des données conforme aux principes FAIR dès le départ.
- Établir des liens avec les services de référentiel ELIXIR pour le courtage de données.
- Fournir des environnements permettant la curation des données par les communautés
- Accroître la visibilité des données hébergées par l’IFB et ses partenaires.
Cas d’usage :
- Soumission des données de séquences auprès de l’EBI-ENA
- FAIRisation des données
WP4 – Intensive Computational Biology (HPC/AI)
Co-responsables : Christophe Blanchet (IFB-core) et Philippe Hupé (Institut Curie)
Objectifs :
- Mettre en place l’accès et l’usage des ressources HPC/AI nationales (IDRIS) pour la communauté des sciences de la vie.
- Mettre en œuvre les environnements de recherches adaptés, et les ressources bioinformatiques utiles (outils et données de référence).
- Prototyper et évaluer les performances sur des sites intermédiaires (CBP-PSMN)
- Former les développeurs et utilisateurs
Cas d’usage :
- Déployer les applications Santé dans un environnement HPC/AI (IS3)
- Déployer les applications Microbiome dans un environnement HPC/AI (IS4)
- Évaluer les applications avec différentes ressources de calcul (benchmark)
- Déplacer les données entre les sites IDRIS et CCIN2P3 pour les rendre accessibles et interopérables (coll. projet FITS)
IS1 – Intégration FAIR des données imagerie, multi-omiques et phénomiques
Co-responsables : Jean-François Dufayard (IFB), Perrine Paul-Gilloteaux (FBI) et Emmanuel Faure (FBI)
Objectifs :
- Préparer la feuille de route pour un dépôt national d’imagerie scientifique
- Coordonner le flux des données avec des modèles de PGD (Plan de Gestion des Données) spécifiques
- Assurer l’aspect FAIR de la gestion des données imagerie, et leur intégration avec les données multi-omiques
- Mettre à disposition des workflows spécialisés dans l’intégration multi-échelle
IS2 – Marine biology data integration and dissemination
Co-responsables : Erwan Corre (IFB + EMBRC) – Lucas Leclère (EMBRC) – Eric Pelletier (CEA + FR-2022 GO-SEE)
Objectifs :
- Construire des Plans de Gestions de Données (DMP) spécifiques pour les organismes marins, inspirés des travaux initiés par la communauté travaillant sur les données métagénomiques marines au sein du projet ELIXIR.
- Contribuer au développement d’une infrastructure nationale pour assurer le traitement régulier et la diffusion des données produites par les stations marines et les observatoires marins.
- Favoriser la « FAIRfication » des données issues de modèles marins et des observatoires augmentés et leur diffusion dans les infrastructures de données écologiques (DataTerra, Emodnet Biology) et entrepôts de données génomiques et d’imagerie (ENA, EuroBioImage).
IS3 – Solutions bioinformatiques pour le traitement des données de santé
Co-responsables : David Salgado (INSERM U1251- MMG-GBiT), Abdelkader Amzert (DSI-INSERM) et Boris Dintrans (CINES)
Objectifs :
- Les données de santé sont sensibles : elles nécessitent des environnements de stockage et de calcul spécifiques pour être conformes aux politiques réglementaires
- Tirer parti des ressources physiques, techniques et humaines développées dans le cadre du projet Mudis4LS pour étendre son utilisation aux données sensibles
- Mettre en place des services pour gérer, traiter (workflows à grande échelle), comparer, héberger et partager les données de santé
- Fournir des lignes directrices, des modèles et des outils pour les DMP biomédicales afin d’appliquer les principes FAIR – adaptation de l’environnement numérique des chercheurs (WP1) aux données sensibles.
IS4 – Intégration et partage FAIR du nouveau déluge de données dans la recherche sur le microbiome
Co-coordinateurs : Claudine Médigue (IFB, CNRS), Nicolas Pons (INRAE-MGP)
Objectifs :
- Contribuer au développement d’un espace de données partagé pour le stockage et l’intégration de données génomiques et métagénomiques issues du séquençage massif et d’autres types de données.
- Fournir des lignes directrices et des modèles pour la mise en œuvre de DMP, y compris les principes FAIR et couvrant les normes minimales pour l’acquisition, le traitement, le dépôt et l’interopérabilité des données sur le microbiome, avec des recommandations spécifiques pour l’intégration des données multi-omiques.
- Établir des exigences minimales pour les stratégies d’annotation du métagénome
- Définir des recommandations et des considérations dans la structuration de grands ensembles de données en ce qui concerne l’application du microbiome pour la mise en œuvre de l’IA et du HPC.
Cas d’utilisation : diffusion de la résistance aux antimicrobiens ; lien entre les signatures du microbiome et la sensibilité aux infections virales ; mise en œuvre de l’IA sur le calculateur Jean-Zay.
IS5 – Intégration et partage FAIR des données génétiques et multi-OMICs pour l’agriculture
Co-coordinateurs : Anne-Françoise Adam-Blondon (RARe, PlantBioinfoPF), M. Boichard (RARe), V. Loux (Migale)
Objectifs :
- Soutenir la gestion FAIR des données relatives aux ressources biologiques gérées par l’infrastructure AgroBRC-RARe (https://www.agrobrc-rare.org )
- Lancer le développement de services contribuant à relier les ressources biologiques à des types de données très hétérogènes, notamment divers types de données « omiques », des mesures phénotypiques, y compris des images, et des données environnementales.
- Accorder une attention particulière aux études holobiontiques sur les animaux et les plantes ainsi que sur leurs micro-organismes commensaux, symbiotiques et pathogènes.
Méthode : Utiliser des projets existants comme cobayes, tels que :
- Plantes : ANR DeepImpact
- Animaux : CYATHOMICS, H2020 Saphir
1ᵉʳ août 2021 – Lancement du projet
Avril 2022 – Kickathon MUDIS4LS
Janvier 2025 – Réunion du SAB de MUDIS4LS
Juillet 2025 – Rapport d’évaluation à mi-parcours
31 juillet 2027 – Fin de la phase de mise en place des équipements
31 juillet 2029 – Fin du projet
L’ensemble des publications affiliées au projet MUDIS4LS sont à retrouver dans HAL.


