Comment faciliter l’accès aux données scientifiques en utilisant l’intelligence artificielle : les expérimentations pour le catalogue de données de Recherche Data Gouv

Un moteur de découverte hybride et des assistants d'intelligence artificielle pour valoriser et évaluer les données de la recherche

Pour pallier les limites des moteurs de recherche classiques dans la découverte de jeux de données réutilisables, un prototype de catalogue national (niveau de maturité TRL 7) a été développé pour Recherche Data Gouv. Ce système fédère les métadonnées de divers entrepôts en s'appuyant sur un moteur de recherche hybride combinant des facettes traditionnelles et une recherche sémantique
(basée sur des embeddings) vectorielle multilingue. Afin d'améliorer la qualité souvent hétérogène des descriptions, des modèles de langage ouverts et frugaux (comme Mistral Small) sont utilisés pour harmoniser les métadonnées (alignement sur des référentiels comme le Research Organization Registry) et générer des classifications disciplinaires. De plus, un outil d'analyse sémantique (basé sur le Large Language Model Mistral) évalue la qualité de la curation des données, non seulement sur la forme, mais aussi sur le fond : pertinence réelle des descriptions de jeux de données, au-delà de la simple conformité technique. Cette approche permettra, à terme, de pré-remplir automatiquement les formulaires en analysant les ressources associées, avec l'ambition de faire chuter le temps de dépôt par le chercheur de trente à moins de cinq minutes. 

Contexte et enjeux

  • Les systèmes de catalogues classiques sont souvent inefficaces pour permettre la découverte de jeux de données, notamment s’il y en a un grand nombre (100 000+).
  • Si les jeux de données sont insuffisamment décrits (curation à améliorer), ces jeux resteront difficilement découvrables et réutilisables. D’où le besoin de disposer d’outils d’analyse de la qualité de la curation.
  • Les métadonnées étant du texte, les technologies IA telles que les grands modèles de langages (LLM) et les embeddings/cross-encoders sont parfaitement adaptés pour leur exploitation et analyse.
  • La collecte de données depuis de multiples sources crée des silos institutionnels et génère des métadonnées hétérogènes nécessitant une harmonisation forte. Les LLM et embeddings sont également utilisés à des fins d’alignement sur des thesaurus reconnus.
  • L’objectif est également de permettre d’identifier des documents (publications) susceptibles d’aider à la réutilisation des jeux de données
  • Utiliser des modèles openweight et au plus juste besoin (en termes de taille) pour limiter les émissions carbone.

Résultats

  • Déploiement, en mai 2025, d'un prototype de moteur de découverte hybride et multilingue combinant la recherche classique par filtres et une recherche sémantique avancée (utilisant des embeddings et un cross-encoder pour affiner le classement). Ce moteur gomme les barrières de la langue en permettant de trouver des données en français via une requête en anglais, et inversement.
  • Utilisation de modèles de langage ouverts (Mistral Small) pour nettoyer les métadonnées, aligner les affiliations sur des identifiants pérennes (ROR, Research Organization Registry) et catégoriser les jeux de données par disciplines. Cette approche réduit l'empreinte carbone tout en garantissant la souveraineté numérique.
  • Création d'un outil innovant pour l’évaluation sémantique de la curation basé sur un LLM spécialisé capable d'évaluer la substance intellectuelle d'une description (clarté, contexte, absence de jargon) afin de cibler les jeux de données nécessitant l'intervention prioritaire d'un curateur humain.
  • L'interface utilisateur sépare et identifie toujours clairement les métadonnées originales de celles générées ou modifiées par l'IA.

Perspectives

  • Amélioration de l’outil d’analyse de la curation, passant d’un simple appel LLM en few-shot learning vers un agent IA capable de rédiger un brouillon de rapport de curation.
  • L’analyse de la curation est faite actuellement a posteriori. L’ambition est de la proposer au moment du dépôt sur l’entrepôt Recherche Data Gouv. Ainsi, le déposant pourra lui même apporter des améliorations aux métadonnées qu’il a saisies.
  • L’ambition à terme est de s’appuyer sur les métadonnées déjà remplies dans le MADMP OPIDOR et d’utiliser l’IA pour lire les documents associés (publications, plans de gestion de données, readme) et pré-remplir automatiquement le formulaire de dépôt, avec l'ambition de réduire le temps de dépôt de 30 minutes à moins de 5 minutes.
  • L’objectif est d’ouvrir le catalogue officiellement en mars/avril 2026.
  • À terme, l’objectif est de proposer un tableau de bord avancé sur les jeux de données de l’entrepôt Recherche Data Gouv et à terme sur l’ensemble des données de la recherche.

Valorisation

  • Le prototype du catalogue est d'ores et déjà opérationnel et accessible publiquement en ligne 
    (à l'adresse : https://catalogue.proto-sandbox.portail-rdg-dev.fr).
    Il sera remplacé à terme par sa version opérationnelle : https://catalogue.recherche.data.gouv.fr
  • L’analyse de la curation est lancée de façon hebdomadaire sur les données de l’entrepôt Recherche Data Gouv.
  • Les travaux ont été présentés lors de la Winter school EOSC2026 et lors du colloque IDCC2026.
  • Ces travaux ont permis de participer activement au futur projet EOSC GenAI4Earth piloté par l’IR Data Terra.

Références bibliographiques 

Moreno, R. (IDCC 2026). Leveraging LLM for semantic search and curation in a national research data catalog. INRAE.
https://www.conftool.org/idcc2026/sessions.php

 

 

Vous avez une question ?

Contactez-nous