Des métadonnées de qualité pour des systèmes d’information interopérables
Les politiques de Science Ouverte promeuvent l’accès et la réutilisation des résultats de recherche via un écosystème ouvert d’applications qui partagent des standards, des référentiels, notamment des vocabulaires. L’entrepôt Recherche Data Gouv et l’archive HAL sont des infrastructures clés pour le dépôt de données et de publications scientifiques. La qualité des métadonnées y est essentielle afin de rendre ces résultats découvrables et réutilisables. En 2024, une nouvelle fonctionnalité ajoutée à Data INRAE permet d’intégrer des mots-clés issus de vocabulaires contrôlés. Le projet HALiance améliore l’interopérabilité entre Recherche Data Gouv et HAL, facilitant le lien entre publications et données. L'intégration du référentiel LIRIC dans HAL permet de valoriser les infrastructures de recherche INRAE en signalant leurs contributions aux publications scientifiques déposées dans l’archive ouverte. Ces évolutions visent à renforcer l’interopérabilité des services, l’échange des informations et, in fine, à faciliter l’utilisation des produits de la recherche.
Contexte et enjeux
Les politiques de Science Ouverte (nationale et institutionnelle) encouragent et accompagnent la mise à disposition des résultats de recherche de manière à ce qu’ils soient réutilisables par des tiers.
Cela passe par le dépôt des publications, jeux de données, codes logiciels, modèles numériques, etc. dans divers entrepôts institutionnels, nationaux ou communautaires et plus globalement par une bonne gestion de ces ressources tout au long de leur cycle de vie. En 2022, l'entrepôt Recherche Data Gouv a été mis en place à l'échelle nationale pour valoriser les données de la recherche française ; Data INRAE en est l'espace institutionnel dédié aux scientifiques de l'Institut. Au même titre, l’infrastructure de recherche nationale HAL héberge l'archive ouverte institutionnelle HAL INRAE depuis 2020 pour le dépôt des travaux scientifiques et techniques de l'Institut (articles, communications, rapports, logiciels…).
La description des produits de recherche par les métadonnées de manière riche et précise est un enjeu important pour rendre ces résultats découvrables, accessibles et réutilisables. À INRAE, la qualité des métadonnées mobilise de nombreux acteurs. C'est le cas des équipes de curation de HAL et Data INRAE, chargées d'assurer cette qualité de diverses façons : conformité aux bonnes pratiques de science ouverte des ressources déposées (Open Access, licence de réutilisation), ajout d'identifiants pérennes (DOI, idHAL, Orcid...), alignement sur des référentiels, indexation avec des mots-clés...
Face à l’appropriation grandissante de ces deux services, des projets d'évolution sont conduits afin d'en améliorer l'usage par les scientifiques et de limiter le coût de la curation a posteriori. La qualité des métadonnées doit en outre s’appuyer sur les standards en vigueur, des référentiels, des vocabulaires partagés et des APIs (Applications Programming interfaces) documentées. Ces derniers permettent aux systèmes d’information d’être interopérables, c’est-à-dire d’échanger les métadonnées avec une intervention humaine minimale.
Résultats
En septembre 2024, une nouvelle fonctionnalité a été intégrée à Data INRAE. Elle permet, pour le champ « Mot-clé/Keyword », de saisir des valeurs issues de vocabulaires contrôlés qui sont hébergés sur AgroPortal, le portail des ressources sémantiques pour l’agronomie et domaines associés. Les travaux réalisés dans le cadre du projet EOSC FAIR-IMPACT ont permis le développement d’un connecteur générique entre un entrepôt utilisant la technologie Dataverse, utilisée pour Recherche Data Gouv, et un portail basé sur la technologie OntoPortal.
À des fins d’expérimentation, cinq vocabulaires (une taxonomie, trois thésaurus et une ontologie) sont actuellement proposés aux utilisateurs pour leur permettre de saisir des mots-clés. Parmi eux, le Thésaurus INRAE, utilisé par plusieurs autres systèmes d’information (SI) à INRAE (dont HAL INRAE), est un levier pour l’interopérabilité sémantique de nos SI institutionnels. Le Thésaurus INRAE fournit des identifiants pérennes permettant de référencer de manière unique des concepts richement décrits en français et en anglais, s'alignant ainsi avec les standards précédemment évoqués.
Figure 1. Fonctionnement du connecteur Data INRAE-AgroPortal pour la saisie des mots-clés (Carmen Corre - CC-BY, mise à jour).
L'une des briques du projet ANR HALiance, porté par le CCSD-Centre pour la Communication Scientifique Directe et ses partenaires (dont INRAE), développe aussi l'interopérabilité à l'échelle de Recherche Data Gouv, cette fois entre l'entrepôt et l'archive nationale HAL. Livrée au premier trimestre 2025, une fonctionnalité permet d'articuler une publication présente dans HAL aux données de la recherche qui y sont liées (figure 2) au moyen du schéma de relations DataCite. La citation du jeu de données est ainsi récupérée dans HAL, exposée dans les différents services (comme l’API) et affichée aux utilisateurs dans l'interface avec, selon les cas, la possibilité de prévisualiser le jeu de données ou d’en afficher une description. La fonctionnalité permet aussi de lier d'autres types d'objets entre eux, comme un article de recherche et son évaluation par les pairs ("review") ou un article de recherche et un logiciel hébergé dans Software Heritage. Les objets liés sont décrits à l'aide du vocabulaire partagé Resource Types COAR.
Figure 2. Exemple de lien réalisé à l'aide de la fonctionnalité « Ressources associées » implémentée dans HAL, entre un article de recherche dans HAL et un jeu de données qu'il cite, hébergé dans Recherche Data Gouv.
Enfin, le projet LIRIC dans HAL (pour Landscape of INRAE Research InfrastruCtures) vise à signaler les contributions des infrastructures INRAE aux publications scientifiques dans un objectif de valorisation de leurs activités. Les infrastructures d’INRAE ou auxquelles INRAE contribue regroupent une grande diversité d’équipements, d’installations expérimentales et de ressources à destination des communautés scientifiques, publiques comme privées et couvrant l’ensemble des thématiques de recherche de l'établissement. Concrètement, un utilisateur de HAL peut indexer une publication avec une ou plusieurs infrastructures INRAE du référentiel LIRIC ayant contribué aux travaux de recherches. Dans les articles scientifiques, ces contributions sont généralement mentionnées dans la section Remerciements mais n'apparaissent pas au niveau des métadonnées, ce à quoi entend remédier cette nouvelle fonctionnalité. L'intégration du référentiel et son utilisation permet aux infrastructures INRAE de bénéficier des services de HAL comme les collections, pour suivre et faire valoir leurs contributions. Ce projet implique l'équipe HAL INRAE, la CNUE-CNOC (Commission nationale des unités expérimentales et des outils collectifs), le DISC (Délégué aux infrastructures scientifiques collectives) et le CCSD (Centre pour la communication scientifique directe).
Perspectives
À l’échelle de l’Institut l’objectif est d’améliorer en continu la trouvabilité des produits de recherche et de perfectionner les outils et services qui ont été mis en œuvre à l’occasion des projets évoqués.
Des améliorations de l’ergonomie de l'interface de Data INRAE, impactée par le connecteur, sont planifiées par l’équipe des développeurs de Recherche Data Gouv. Début 2025, une étude des effets de la mise en place de cette nouvelle fonctionnalité sera publiée dans le cadre d’un livrable du projet EOSC FAIR IMPACT.
L’existence d’autres portails de vocabulaires spécialisés dans d’autres thématiques (sciences de la terre, biomédical, matériaux, écologie, biodiversité…) et basés sur la technologie OntoPortal permet d’envisager l’utilisation du connecteur pour d’autres collections dans Recherche Data Gouv.
Par ailleurs INRAE prévoit d’internaliser le portail de vocabulaires AgroPortal afin d’en assurer la pérennisation et son passage d’un outil de recherche à un service à destination des équipes INRAE et des communautés intéressées. Une collaboration entre le département MathNum, la DSI et la DipSO a été mise en place fin 2024 pour penser et réaliser ce transfert.
Démarré en 2025, le deuxième volet du projet HALiance Lien Publications-Données prévoit une amélioration progressive du service afin de repérer et d'associer automatiquement à la publication déposée dans HAL la citation des données liées. Il poussera aussi plus loin l'interopérabilité des systèmes grâce au protocole COAR Notify, en transférant la relation décrite dans HAL vers l’entrepôt Recherche Data Gouv.
Valorisation
Afin d’encourager l’utilisation de la fonctionnalité de saisie de mots-clés contrôlés dans Data INRAE et l’utilisation de ce type de connecteur, les résultats des travaux du projet EOSC FAIR IMPACT ont fait l’objet d’une présentation et d’un atelier pratique lors des rencontres annuelles des référents « données » 2024.
Figure 3. Apport des vocabulaires contrôlés à la FAIRitude des jeux de données (Carmen Corre – CC-BY).
La publication d’un article est également envisagée en 2025. En effet, la connexion d’un entrepôt de données avec un portail de vocabulaires soulève de nombreuses questions techniques, fonctionnelles mais également de gouvernance qu’il est intéressant de présenter et discuter.
Références bibliographiques
Jonquet, C., Toulet, A., Arnaud, E., Aubin, S., Yeumo, E. D., Emonet, V., Graybeal, J., Laporte, M., Musen, M. A., Pesce, V., & Larmande, P. (2017). AgroPortal : A vocabulary and ontology repository for agronomy. Computers And Electronics In Agriculture, 144, 126‑143. https://doi.org/10.1016/j.compag.2017.10.012
Contacts