Souveraineté, sécurité, intégrité, sobriété... Nouveaux défis pour la science ouverte ?

La prospective INRA de 2018 sur la transition numérique dans l’enseignement supérieur et la recherche 1 identifiait de nombreux risques auxquels nous sommes confrontés aujourd’hui, notamment :

  • la captation de la valeur des données par des acteurs privés, entraînant une dépendance à leurs outils et services ;
  • la réutilisation massive des données personnelles ou la non-prise en compte des droits d’auteur ;
  • la désinformation et la perte de confiance envers la science sur les réseaux sociaux ;
  • la consommation énergétique liée notamment à la multiplication des dépôts numériques.

En 2024, le rapport du Groupe de travail du G7 « Best practices for secure & open research » 2 rappelle qu’ouverture et sécurité ne sont pas opposées : l’ouverture doit se faire dans le respect de la vie privée, de la sécurité, de l’éthique et de la propriété intellectuelle. 

En moins d’une décennie, souveraineté, sécurité, intégrité et sobriété sont devenus centraux pour la science ouverte. Ce chapitre introductif du bilan DipSO 2025 est l’occasion de revisiter quelques-unes de nos actions dans ce contexte et d’évoquer des perspectives.

La gouvernance des données : les quatre principes fondateurs

Depuis 2018, l’Institut a développé un cadre de gouvernance reposant sur quatre principes indissociables alignés sur les « meilleures pratiques » du rapport du G7 :

  • partager et réutiliser les données dans le respect des valeurs : intégrité, déontologie et possibilité d’embargo pour la valorisation scientifique ;
  • documenter, stocker, établir des plans de gestion de données pour qu’elles soient FAIR 3 ;
  • évaluer les risques liés à l’ouverture et appliquer le cadre juridique pour que les données soient « aussi ouvertes que possible, aussi fermées que nécessaire » ;
  • favoriser l’innovation et la création de valeur économique à partir des données ouvertes.

Le dispositif en place (Administrateur des algorithmes, données et codes – Cellule « gouvernance des données » et Référents données stratégiques et opérationnels) a démontré toute sa pertinence pour analyser notre dépendance aux entrepôts de données outre atlantique et trouver des pistes pour la diminuer.

HAL, un entrepôt de publications « certifié » pour une science qui capitalise sur les résultats antérieurs

HAL assure trois des quatre fonctions traditionnelles de la communication scientifique 4 : enregistrement, diffusion et préservation. La certification (révision par les pairs) est assurée par les revues ou par des dispositifs complémentaires (Episcience, Peer Community In). La qualité des contenus est assurée par la curation des métadonnées, le contrôles des documents et la cellule « Intégrité scientifique ». Leur réplication via CORE ou Matilda et l’archivage pérenne au Centre informatique national de l'enseignement supérieur (CINES) garantissent une certaine résilience. La souveraineté est assurée par l’hébergement sur une infrastructure française (IN2P3) indépendante des clouds commerciaux. La définition de critères « qualité » sur les contenus, facilement compréhensibles par le grand public, est une piste de développement à étudier. 

Recherche Data Gouv, un entrepôt souverain pour la reproductibilité des résultats

La plateforme des données de Recherche Data Gouv a été ouverte en 2022 dans le cadre de la mise en œuvre de la feuille de route 2021-2024 du ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation (MESRI) sur la politique des données, des algorithmes et des codes sources 5

Elle garantit la souveraineté des données scientifiques (hébergement sur datacentres INRAE/ESR, plan de reprise d’activité). Elle facilite la reproduction des résultats grâce à l’accès aux jeux de données associés aux publications. Elle permet les partages restreints au sein de consortium avant publication, favorisant la collaboration et le peer‑review. Développée sur Dataverse (logiciel libre), la plateforme contribue à l’European Open Science Cloud (EOSC). La traçabilité des usages et le contrôle de la réutilisation doivent être améliorés.

Qualité « informationnelle » des productions numériques 

La qualité informationnelle est notamment liée aux métadonnées qui rendent les données FAIR. Un rapport de la commission européenne en 2018 6 estime que les données non FAIR coûtent chaque année 10,2 Mds € à l’économie européenne et démontre que rendre les données FAIR améliore l’efficacité et la sobriété énergétique.  

Les identifiants DOI assurent la citabilité mais ne garantissent pas la version, la provenance ou l’intégrité. La traçabilité nécessite l’intégration de métadonnées robustes, voire des technologies comme la blockchain ou le concept de FAIR Digital Object 7.

Usage, production et valorisation de logiciels libres pour la sobriété et la souveraineté

L’État voit l’usage des logiciels open source comme un levier pour la sobriété numérique car ils prolongent la durée de vie des équipements 8. Ils contribuent également à la souveraineté numérique car la capacité à auditer les codes répond aux exigences de sécurité. 

En 2023, la politique d’acquisition des logiciels scientifiques recommande fortement les solutions open‑source, avec une limitation de l’usage des logiciels propriétaires.

La FORGE INRAE soutient le développement de logiciels open source dans l’Institut. La création d’un Open Source Program Office (OSPO) inspiré de celui mis en place par l’université de Grenoble Alpes, sera étudiée dans le cadre de la mise en œuvre du Plan national pour la science ouverte (PNSO3).

Perspectives

Dès 2020, la politique Science ouverte de l’Institut 9 identifiait des opportunités et des risques à l’ouverture. Aujourd’hui il parait nécessaire de :

  • renforcer la gouvernance : poursuivre l’implémentation du principe « aussi ouvert que possible, aussi fermé que nécessaire » pour une maitrise technique, juridique, voire économique de la réutilisation des données ;  
  • améliorer la visibilité de la qualité : développer des labels ou indicateurs pour aider les usagers à identifier les dépôts fiables (ex. certification COAR Notify, badges de conformité FAIR) et matérialiser leurs relations ;  
  • utiliser et Intégrer les IA de façon responsable : contrôler l’accès à des corpus de haute qualité pour l’entraînement tout en assurant le suivi de l’usage (licences, traçabilité).  

Alors...
... Rendons encore plus robustes
nos infrastructures et processus 
pour ouvrir la science... 


1. Barzman, M., Gerphagnon, M., & Mora, O. (2020). La transition numérique dans la recherche et l’enseignement supérieur à l’horizon 2040. Éditions Quae. https://doi.org/10.35690/978-2-7592-3153-9

2. https://science.gc.ca/site/science/sites/default/files/documents/1136-g7-best-practices-for-secure-and-open-research-october-2024.pdf

3. Findable, Accessible, Interoperable, Reusable.

4. Roosendaal, H. E., & Geurts, P. A. T. M. (1997).  Forces and functions in scientific communication: an analysis of their interplay. 1-32. Paper presented at Conference on "Co-operative Research in Information Systems in Physics". https://research.utwente.nl/files/6162491/Roosendaal97forces.pdf

5. https://www.enseignementsup-recherche.gouv.fr/fr/la-feuille-de-route-2021-2024-du-mesri-sur-la-politique-des-donnees-des-algorithmes-et-des-codes-50534

6. European Commission (2018). Cost-Benefit analysis for FAIR research data - Cost of not having FAIR research data. https://www.ouvrirlascience.fr/wp-content/uploads/2019/03/Cost-Benefit-analysis-for-FAIR-research-data_KI0219023ENN_en.pdf

7. Soiland-Reyes, S., Goble, C., & Groth, P. (2024). Evaluating FAIR Digital Object and Linked Data as distributed object systems. PeerJ Computer Science, 10, e1781. https://doi.org/10.7717/peerj-cs.1781

8. https://code.gouv.fr/docs/2023_01_RapportIndiceDurabilite.pdf
9. https://science-ouverte.inrae.fr/fr/la-science-ouverte/la-politique-de-science-ouverte-dinra