Retour

Un bio-informaticien au service du partage des données sur le végétal

Au croisement de la génomique, du phénotypage végétal et de la bio-informatique, Cyril Pommier a construit une démarche de recherche profondément ancrée dans les principes de la science ouverte. À travers sa thèse, récemment soutenue, il interroge la manière dont les standards, les bonnes pratiques et les principes FAIR peuvent transformer durablement la production, le partage et la réutilisation des données de phénotypage végétal. Dans cet entretien, il revient sur les raisons qui l’ont conduit à formaliser ses travaux dans une thèse en VAE, et partage son regard sur les enjeux, les freins et les défis à venir pour la science ouverte.

Une thèse pour valoriser ses acquis et son expérience

Vous avez un parcours professionnel riche de plus de 20 ans, et êtes reconnu expert dans votre domaine à l’échelle internationale, qu’est-ce qui vous a motivé à faire une thèse ?

La démarche a émergé progressivement, depuis le développement d'une base de données pour le département Biologie et amélioration des plantes (BAP) qui a soulevé des enjeux d'interopérabilité et d'articulation avec les réseaux internationaux. À partir de 2012, j’ai été invité par Hadi Quesneville à rejoindre le projet européen FP7 « Transplant ». Cela a conduit à un travail approfondi sur les standards et les ontologies à l'échelle internationale. Ce fut un effort collectif, porté par une communauté, ayant abouti à des solutions robustes et répondant aux besoins des biologistes. Ce travail s’est prolongé dans les infrastructures européennes ELIXIR et EMPHASIS. Puis, en 2019, une collègue professeure d’université, Sarah Cohen Boulaika, a identifié dans ce parcours la matière d'une thèse en validation des acquis de l'expérience (VAE). C'est en discutant avec Hadi Quesneville, qui deviendra mon directeur de thèse, Anne Françoise Adam Blondon et cette professeure, que la décision de s'engager dans ce doctorat a été prise. 

Et vos motivations personnelles ?

La première était de récolter le fruit de quinze ans de travail, et le défi intellectuel que cela représente. Le diplôme, au regard de mon parcours, ne constituait pas une fin en soi.

Ensuite, je voulais gagner en efficacité et en clarté d’écriture de textes scientifiques. Écrire des articles scientifiques dans des revues à comité de lecture demande un savoir-faire que je ne maitrisais pas encore bien. Je comptais beaucoup sur le travail d'écriture du mémoire pour mieux apprendre à organiser l'information de manière à ce que quelqu'un qui découvre le sujet le comprenne le plus naturellement possible.

Enfin, mes futurs travaux et collaboration m’amèneront peut être à co-encadrer des doctorants. Cette thèse en VAE est donc une première étape vers une habilitation à diriger des recherches (HDR).

Pour finir, pouvons-nous vous lancer le challenge de nous expliquer votre sujet en 180 secondes ? 

Le phénotypage végétal produit des données hautement hétérogènes - mesures de traits, images multispectrales, séries temporelles - collectées à des échelles variées et dans des environnements multiples. L'intégration sémantique de ces données constitue un défi majeur, qui s'intensifie lorsqu'elles sont combinées avec des données génétiques et omiques.

Ces travaux, conduits sur plus de dix ans, proposent un modèle de données développé à l'interface entre biologie et informatique, articulant bases de données relationnelles, web sémantique et graphes de connaissances. Le système GnplS-Ephesis a servi de cadre de validation à l'échelle nationale, avant que ces travaux ne prennent une dimension internationale à travers l'élaboration de trois types de standards. Le premier, développé en partenariat avec la Crop Ontology, structure la sémantique des variables de phénotypage. Le deuxième, MIAPPE, formalise un modèle d'échange de données, implémenté notamment via la Breeding API - troisième standard, dédié à l'interopérabilité technique entre systèmes. Ces standards ont permis de passer d'un système centralisé à une fédération internationale de données, FAIDARE, et d'engager les premières démarches d'intégration inter-ressources par alignement d'ontologies et graphes de connaissances.

L'enjeu central est de permettre aux biologistes de documenter leurs données dans leur propre langage, tout en les rendant interopérables et exploitables par d'autres, y compris par des approches d'intelligence artificielle. L'objectif final est d'enrichir des graphes de connaissances afin que les scientifiques puissent interroger cette masse de données de manière nouvelle et en extraire des informations inédites. L'essor de l'intelligence artificielle, notamment en imagerie, ouvre de nouvelles perspectives et appelle une évolution des standards existants.

Des principes de science ouverte appliqués depuis longtemps

Les bonnes pratiques d’ouverture de la science ne sont pas nouvelles pour vous, vous les avez intégrées dans vos activités depuis longtemps, qu’est-ce qui vous y a motivé ?

J’ai participé dès 2013 au groupe de travail Datapartage Inra qui préfigurait la DipSO INRAE. J’y suis venu pour deux raisons : la première liée à mon poste et mes activités autour de l’ouverture et de la valorisation des données à l'international et la seconde - et c'est peut-être ça qui m'a le plus motivé - de répondre au désir, et aux craintes, des scientifiques concernant le partage des données. Il y a en effet un équilibre à trouver autour de la science ouverte et de l’ouverture des données pour favoriser le partage autant que possible et protéger autant que nécessaire les intérêts des chercheurs de l’institut en terme de valorisation des données qu’ils produisent.

Comment avez-vous abordé ces craintes liées à l’ouverture dans votre collectif, pour les lever ?

Il est bien sûr nécessaire de rappeler l’injonction des agences de financements qui demandent l’ouverture des données en fin de projets. Mais le levier qui me semble le plus efficace reste de partir de ce que les scientifiques vont gagner à appliquer les principes de l’open science, que ce soit pour échanger des données au sein d’un consortium ou pour les rendre publiques. Je montre cela par exemple dans le papier Reassessing data management in increasingly complex phenotypic datasets que nous venons de publier. Nous y montrons, entre autre, comment un jeu de données expérimentales va permettre la production d’une dizaine de jeux de données dérivées en fonction de certaines questions scientifiques, donnant lieu à autant de publications.

Vous avez parlé des principes FAIR, vous rappelez-vous quand vous en avez entendu parler pour la première fois ? 

Oui, en 2016-2017. Un certain nombre d'auteurs du papier sur les principes FAIR de M.D. Wilkinson font partie des groupes de travail et des collectifs de l'infrastructure européenne ELIXIR, à laquelle j’appartiens. J'ai donc fait partie des premiers groupes de travail construits pour mettre en œuvre ces principes pour les données de recherche sur les plantes. J’ai en particulier défendu, avec d’autres, un point de vue centré sur les besoins des utilisateurs biologistes. En effet, dans l'esprit du premier article, les principes FAIR devaient avant tout s’implémenter à travers des graphes sémantiques et des ontologies. Mais un jeu de données structuré en fichiers, avec la bonne description, la bonne licence, un DOI et publié sur un entrepôt de confiance comme Recherche Data Gouv, c'est déjà du FAIR. 

Donc finalement vous étiez convaincus par les principes FAIR avant même qu’ils soient décrits et formalisés ? 

Exactement ! La publication des principes FAIR a eu deux mérites pour moi. Ça m’a permis de formaliser des idées qui étaient implicites, et donc de rendre mon discours plus clair et plus convaincant. D’autre part, cela a été une référence sur laquelle m’appuyer pour accompagner et convaincre les utilisateurs dans la direction des sciences ouvertes.

Au-delà des données, est-ce que vous appliquez les principes d’ouverture à vos autres productions ? 

Je l’applique bien sûr dans un premier temps aux codes sources des logiciels que je produis ou que je cordonne. Ce principe était ancré bien avant 2016, via les licences open source et l’utilisation de forges logicielles, que ce soit celle d’INRAE ou GitHub dans le cadre de certaines collaborations internationales. 

Mes publications scientifiques sont également en accès ouvert pour permettre une diffusion la plus large possible.

Dans votre thèse vous parlez d’ontologies, quel en est l’intérêt ?

Les ontologies sont à la fois une manière de structurer et d’organiser les données, et de construire un vocabulaire contrôlé spécifique d’un domaine. Dans le premier cas elles sont construites par des bio-informaticiens et des spécialistes des sciences de l’information, elles peuvent alors devenir particulièrement complexes.

Plus d'impact et de collaborations grâce à l'ouverture

Abordons maintenant les questions de l'impact des pratiques de science ouverte. Dans votre collectif, vous avez été précurseur dans l’adoption de ces pratiques d’ouverture. Avez-vous pu mesurer ce que ces démarches de science ouverte ont changé ?

Oui, très clairement. On le constate par exemple sur certains projets d’investissement d’avenir de la « vague 2 », lancés vers 2012-2014 autour du phénotypage végétal et qui se sont achevés vers 2019. Ces projets ont généré une grande quantité de données aujourd’hui disponibles et ré-exploitables pour de nouveaux travaux. Le fait qu’elles soient librement découvrables et accessibles dans des entrepôts de données par tout scientifique, qu’il ait participé au projet initial ou non, garantit leur pérennité, leur valorisation et leur réutilisation. C’est par exemple le cas d’un jeu de données que je mets en avant comme exemple de bonne pratique, associé à un bel article publié dans Plant Physiology et qui a été téléchargé 1 300 à 1 500 fois. 

À l’échelle d’INRAE, toutefois, il reste des progrès à faire sur les standards et le partage des données. Mais la création, il y a quatre ans, du réseau des référents données opérationnels (RDO) fut une réelle réussite : grâce à ce réseau, nos pratiques de standardisation et de partage des données se sont diffusées progressivement au sein de l’institut. Nous avons aujourd’hui une quinzaine de collègues RDO très impliqués ; certains que nous connaissions déjà, d’autres plus récemment arrivés. De plus, à travers les formations et les webinaires que mes collègues et moi avons réalisés, nous avons permis la diffusion à l’international des pratiques de gestion de données que nous avons construite. J’ai ainsi vu plusieurs groupes s’approprier ces pratiques, et l’on voit émerger de nouveaux jeux de données documentés et formalisés selon les standards développés par mon unité l’URGI et ses partenaires – parfois même sans que nous nous soyons directement impliqués. Cela montre un réel impact en France et à l’international.

Ces démarches ont-elles aussi contribué à une forme de notoriété, notamment en termes de partenariats européens ? Par exemple, des acteurs vous ont-ils contactés après avoir découvert vos jeux de données ouverts, en se disant : « ce serait intéressant de collaborer avec eux et de développer des projets ensemble » ?

Absolument, nous sommes très sollicités au niveau européen et reconnus dans notre spécialité, pour participer à des séminaires ou a des montages de projets.

Toutefois cette reconnaissance n’est pas dû qu’à la qualité des jeux de données que nous co-publions. C’est aussi très certainement lié à nos formations, à la manières dont nous accompagnons ce travail de curation et d’expertise, à nos publications, nos recommandations et nos travaux de référence.

Pouvez-vous nous en dire plus sur ces guidelines de bonnes pratiques que vous avez développées, et leur diffusion actuelle ?

À travers plusieurs projets, nous avons rédigé des guidelines de bonnes pratiques spécifiques au phénotypage végétal, à la génétique et à la génomique végétales : des recommandations qui visent à accompagner la gestion et la publication des données, que ce soit dans Recherche Data Gouv, Zenodo ou dans les bases de données thématiques de l’EBI.

Une grande partie de ces guidelines est désormais intégrée au portail international RDMkit, en anglais, mais nous avons également développé une version française. Depuis environ un an, nous échangeons avec l’équipe INRAE de Recherche Data Gouv pour réfléchir à la manière dont ces guidelines pourraient être davantage mises en avant et réutilisées, à la fois au sein d’INRAE et plus largement. Nous sommes en phase de finalisation de ce travail.

Dans vos activités, vous avez été depuis longtemps proactif autour de la science ouverte, mais quels services proposés par INRAE utilisez-vous ?

En premier lieu Recherche.data.gouv et Data INRAE. Nous avons retravaillé le positionnement de l’entrepôt de confiance GnpIS vis-à-vis de Recherche Data Gouv afin qu'il n'y ait ni redondance ni compétition. Aujourd'hui, nous avons atteint un bon équilibre et on voit bien comment collaborer entre ces deux systèmes.

Je met en avant Data INRAE dans les projets européens comme solution de stockage pérenne.

Quant à Vocabulaire INRAE et AgroVoc, ce sont des sources de concepts que j'ai toujours en tête, mais on les utilise finalement assez peu, faute de besoin fort parce que ce n’est pas le cœur de la préoccupation : les collègues se tournent plutôt vers la taxonomie du NCBI pour les identifiants d'espèces. Certains des vocabulaires auxquels je contribue sont également publiés sur AgroPortal pour tirer parti des API et de la visibilité de cet entrepôt dans mon domaine. 

Et puis HAL INRAE, c’est important pour montrer auprès des partenaires, ou pour des dossiers qu'on a à faire une fois par an, en trois clics, on récupère les productions de l'année et puis c'est fait.

Si on revient sur la notion de service, là vous avez évoqué ceux que vous utilisez, auriez-vous une idée de service qui vous manque actuellement, et qui pourrait être utile à la communauté INRAE ?

Je ne sais pas si c'est vraiment dans le périmètre, mais tout ce qui touche au text mining pourrait être utile. Cela fait longtemps que l’URGI travaille avec Bibliome et MAIAGE et nous aimerions beaucoup mettre en place une collaboration autour de ces approches.

Reproductibilité et partage sont au cœur de l'ouverture

Quel regard portez-vous aujourd’hui sur toutes ces démarches d’ouverture ? 

Le cycle de vie de la donnée est complexe et il faut identifier quelle partie de ce cycle on veut partager et comment. Il y a des parties des jeux de données qu'il faut ouvrir très largement, mais il faut le faire pour avoir des retombées comme des partenariats pour les chercheurs de l'Institut, des collaborations sur l'exploitation de données, sur la réalisation d'expériences complémentaires, etc. 

Pensez-vous que les principes FAIR doivent aujourd’hui évoluer ?

En 2020, j'ai participé à un cycle de conférences organisé à Alan Turing Institute, en Angleterre, où après les principes FAIR, j'ai découvert les principes CARE. On y parlait plutôt de « décolonialisme des données » : ce n'était pas qu'une question de partager les données mais de les partager de manière équitable, en prenant en compte les intérêts de chacun et d'éviter les rapports de force, de domination, d'exploitation. Sur le principe, bien sûr je suis d'accord, mais je pense que les principes FAIR sont assez simples et bien bornés. Ils permettent de donner une direction générale, dont on peut peut-être se contenter. On n'est pas forcément obligé d'avoir des principes complémentaires comme le CARE, qui rentrent dans des particularismes.

En conclusion, le FAIR plaît tout simplement !

 


Cyril Pommier, un parcours au service de la gestion et du partage des données végétales

Biochimiste de formation, Cyril Pommier s’est progressivement orienté vers la bioinformatique, développant des compétences solides à l’interface entre biologie et informatique. Après un bref passage dans le privé, il rejoint INRAE en 2001, où il travaille d’abord sur des bases de données génomiques. À l’obtention de son poste permanent, il se tourne vers le phénotypage végétal, avec pour mission de créer une base de données nationale dédiée. Il va contribuer à poser les fondations méthodologiques pour organiser et partager ces nouvelles masses de données.

Depuis près de 25 ans, Cyril exerce au sein de l’unité Ressources en génomique info (URGI) d’INRAE. Son activité se situe à la croisée de la génomique, du phénotypage et de la gestion des données, avec un objectif central : concevoir et promouvoir des cadres et standards qui garantissent, à long terme, l’accessibilité, l’interopérabilité et la réutilisation des données de phénotypage végétal. Ces enjeux de structuration et d’ouverture des données sont au cœur de ses travaux de recherche et ont constitué le sujet de la thèse qu’il a récemment soutenue : « Systèmes et standards pour l'intégration et le partage FAIR des données de phénotypage végétal ». 


 

Retour