OpenCitations, une nouvelle source de données ouvertes sur les citations. Quel potentiel ?

Le projet européen GraspOS vise à développer des services numériques pour une évaluation responsable de la recherche et ainsi soutenir les réformes d’évaluation intégrant les pratiques de science ouverte. 
Les données de citations sont importantes dans l’élaboration des métriques : c’est une mesure d’audience des publications scientifiques et l’expression de l’intérêt qu’elles suscitent dans une communauté. Or, souvent, l’accès à ces données n’est pas ouvert, ce qui nuit à la confiance qu’on peut leur accorder et donc freine leur usage. En tant que pilote thématique « Agricultural & Vet. Science » dans GraspOS, nous nous sommes intéressés à OpenCitations. Nos observations indiquent qu’OpenCitations offre un vrai potentiel pour sortir des sources conventionnelles telles que le WoS (Web of Science) grâce à la qualité des données et sa compatibilité avec la politique de science ouverte d’INRAE.

Contexte et enjeux

Le projet européen GraspOS qui s’est déroulé de 2023 à 2025 visait à développer des services numériques pour une évaluation responsable de la recherche et ainsi soutenir les réformes d’évaluation intégrant les pratiques de science ouverte. Une ambition majeure de ce projet était de développer, d'évaluer et de mettre en service une infrastructure fédérée, ouverte et fiable, pour des métriques et des indicateurs de nouvelle génération. GraspOS a rassemblé 18 partenaires composés d’experts de l’évaluation de la recherche, des fournisseurs de services et des porteurs de cas d’usage dont INRAE faisait partie, pour tester et évaluer les services.

Dans l’évaluation de la recherche, l’analyse des citations bibliographiques occupe une place importante car elle permet de mesurer l’audience des publications scientifiques souvent vue comme un proxy de leur qualité (Waltman, 2016 ; Bornmann, 2020). Une citation bibliographique est « un lien conceptuel allant d’une entité citante vers une entité  citée, dans le but de reconnaître ou d’attribuer le mérite d’une réalisation» (Shotton, Daquino et Peroni, 2020). L’importance des citations est reconnue de longue date et était déjà au centre de la première infrastructure commerciale destinée aux publications universitaires : le Science Citation Index (SCI), créé en 1964 (Garfield, 1964). Les deux sources qui font actuellement autorité en matière de données de citation sont le Web of Science (développé par Clarivate, issu du SCI), et Scopus d'Elsevier, lancé en 2004 (Peroni et Shotton, 2020). Cependant aucune de ces deux sources n'est accessible gratuitement.

Une citation peut être obtenue de différentes façons. Mais dans tous les cas, les métadonnées des entités citantes et citées doivent être rendues disponibles, d’où l’importance de l’ouverture des citations. Une citation bibliographique est ouverte lorsque les données nécessaires à sa définition sont librement disponibles, téléchargeables et réutilisables (Peroni et Shotton, 2018).

OpenCitations a été créé dans le but d’offrir une alternative entièrement gratuite et ouverte (licence CC0, domaine public) pour accéder aux données mondiales de citations scientifiques. Le projet dOpenCitations commence en 2010 avec la création d’un Corpus OpenCitations (OCC) par David Shotton de l’Université d’Oxford. En 2015, Silvio Peroni, de l’Université de Bologne, rejoint OpenCitations pour mettre en place un nouveau schéma de métadonnées, s’appuyant sur de nouvelles technologies d’automatisation. OpenCitationsest actuellement géré par une équipe indépendante au sein de l’Université de Bologne ayant le statut d’organisation à but non lucratif. C’est un des membres fondateurs de lInitiative for Open Citations , qui promeut la publication de données de citation ouvertes, notamment en demandant aux éditeurs scientifiques de rendre les listes de références de leurs publications accessibles à tous.

Dans le cadre de GraspOS, nous nous sommes logiquement intéressés à  OpenCitations, l’un des partenaires du projet. Nous avons envisagé  OpenCitations à la fois comme une source gratuite de métadonnées et comme un outil potentiel de suivi des citations des publications INRAE. Avant d’explorer son potentiel pour élaborer de nouveaux indicateurs, nous avons d’abord évalué son utilisabilité (accessibilité aux données, couverture et audience).

Résultats

Nous avons analysé la qualité des données d’ OpenCitations en les comparant à d’autres sources. Nous avons constitué un corpus de référence avec notre base bibliométrique interne (corpus INRAE 2017-2023 du 30/09/2024). Au total, une liste de 44 829 DOI a ensuite servi à interroger les autres bases de données (WoS, OpenAIRE, OpenAlex et OpenCitations) via leurs API respectives, afin d'en extraire les informations correspondantes. Les quatre listes de DOI obtenues, avec le nombre de citations associé à chaque publication, ont finalement été comparées à notre corpus de référence.

Nous avons étudié la couverture des différentes bases pour répondre à la question « Est ce que les publications de notre corpus de référence sont présentes dans les différentes sources ? ». Pour chaque base de données, la couverture est calculée selon la formule : Taux de couverture (%) = (Nombre total de DOI trouvés dans la base de données) / (Nombre total de DOI présents dans la base référentielle) × 100. Nous avons observé que toutes les bases comparées présentent un taux de couverture élevé de même niveau (> 90 %) (Figure 1). 

Figure 1. Taux de couverture des bases de données. 
Taux de couverture  (%) = (Nombre total de DOI trouvés dans la base de données) / (Nombre total de DOI présents dans la base référentielle) × 100. 

Nous avons fait plusieurs analyses sur les citations pour appréhender les différences entre les sources. Dans le cadre de ce bilan nous restituons uniquement la comparaison du top 5 des articles les plus cités de chaque base bibliographique (Figure 2).  Cette approche permet de comprendre les problématiques de comparaison des sources dans un contexte où la distribution des citations n’est pas gaussienne : peu d’articles peuvent être très cités et beaucoup d’articles peuvent avoir très peu ou pas de citation. Nous avons également comparé le nombre total de citations obtenues depuis les différentes bases bibliométriques en utilisant la médiane (valeur centrale typique). OpenCitations au même titre que le WoS, présente le plus faibles écarts par rapport à notre référence. (différence médiane : + 3 citations, contre + 4 et + 7 pour OpenAIRE et OpenAlex, respectivement).

Figure 2. Top 5 des publications les plus citées de notre corpus INRAE.
Nombre de citations par publication (axe des ordonnées), top 5 des publications classées de 1 à 5 (axe des abscisses). La couleur identifie les différentes bases de données. La valeur 0 indique que l'article n'a pas été trouvé dans la base de données concernée. Données récupérées en 2025.

OpenCitations présente quelques limites. D’un point de vue technique, son API ne semble pas adaptée au téléchargement d'un si grand volume de données. Le téléchargement a pris près de deux heures (contre environ 30 minutes pour les autres sources), malgré des efforts de développement plus importants. Les métadonnées bibliographiques manquent d’exhaustivité. Par exemple, pour faire une analyse sur l’Open Access, il faudrait associer les données d’OpenCitations à celles d’une autre base bibliographique.

Nos résultats suggèrent que parmi les bases bibliographiques comparées, OpenCitations présente le plus de potentiel, avec :

  • la meilleure couverture, quelles que soient les années de publications ou que l’accès soit en Open Access ou non. De plus, les nombres de citations sont les plus cohérents avec ceux de la base bibliographique faisant autorité (Web of Science) ;
  • une information supplémentaire, sur l’auto-citation.

À noter que nos résultats sont en accord avec ceux d’une étude conduite par l’Université de Bologne, laquelle montre qu’OpenCitations est comparable au WoS, d’un point de vue quantitatif (Andreose et al., 2025).

Perspectives

Notre étude est préliminaire et nécessite d’être complétée par une exploration plus approfondie. Néanmoins OpenCitations peut être considéré comme une source de données d’intérêt pour les données de citation.

Outre l’usage dans la production d’indicateurs pour les études bibliométriques sur de grands corpus de publications, il est possible d’envisager d’intégrer ces données dans d’autres services : nombre de citations au niveau de chaque article dans HAL ou un indicateur de type « top 1 % ou top 10 % » des citations de la discipline par discipline scientifique

Valorisation

Le programme GraspOS vient de se terminer, et notre travail a été intégré dans plusieurs de ses livrables.  Nos retours ont contribué à améliorer les services d’OpenCitations, et des obstacles identifiés (notamment ceux concernant l’API) ont désormais été levés.

Les résultats ont été présentés en interne au sein de l’équipe bibliométrie du pôle Astra, dans la perspective de poursuivre l’évaluation du potentiel de ce nouvel outil.

Une collaboration avec Sylvio Peroni (co-directeur d’OpenCitations) est née, nous discutons actuellement de la réalisation d’une analyse plus approfondie d'OpenCitations.

Références bibliographiques 

Andreose, E. & al. (2025) « Analysing the coverage of the University of Bologna’s publication metadata in an existing source of open research information ». arXiv. Disponible sur : https://doi.org/10.48550/arXiv.2501.05821

Bornmann, L. (2020) « How can citation impact in bibliometrics be normalized? A new approach combining citing-side normalization and citation percentiles », Quantitative Science Studies, 1(4), p. 1553‑1569. Disponible sur : https://doi.org/10.1162/qss_a_00089

Garfield, E. (1964) « “Science Citation Index” — A New Dimension in Indexing », Science, 144(3619), p. 649‑654.
Disponible sur : https://doi.org/10.1126/science.144.3619.649

Peroni, S. & Shotton, D. (2018) « Open Citation: Definition ». Disponible sur: https://doi.org/10.6084/m9.figshare.6683855.v1

Peroni, S., & Shotton, D. (2020).  OpenCitations, an infrastructure organization for open scholarship. Quantitative Science Studies 1 (1): 428–444.
Disponible sur : https://doi.org/10.1162/qss_a_00023

Shotton, D., Daquino, M. & Peroni, S. (2020) « In-Text Reference Pointer Identifier: Definition ». figshare, p. 170521 Bytes. 
Disponible sur : https://doi.org/10.6084/M9.FIGSHARE.11674032

Waltman, L. (2016) « A review of the literature on citation impact indicators », Journal of Informetrics, 10(2), p. 365‑391. 
Disponible sur : https://doi.org/10.1016/j.joi.2016.02.007

 



 

Vous avez une question ?

Contactez-nous