Retour

La fouille de texte pour évaluer les verrouillages technologiques

Tristan Salord, a soutenu sa thèse de doctorat en sciences économiques le 27 mars 2024. Il a développé plusieurs méthodes originales de fouille de texte appliquées à l’analyse des sciences et innovations produits, pour rendre compte des trajectoires de développement technologique des légumineuses à l’échelle mondiale et au cours des dernières décennies.

Tristan Salord

Tristan, comment résumer votre thèse en quelques phrases ? 

Nous savons que la culture et la consommation de légumineuses sont des éléments clés de la transition écologique et de l'amélioration de nos régimes alimentaires, mais nous continuons d'en cultiver et en consommer trop peu. Cette thèse cherche à comprendre pourquoi. Parmi les explications avancées certains travaux en sciences humaines et sociales insistent sur le fait qu’il s’agit là d’un effet de « verrouillage technologique » de nos systèmes agro-alimentaires et agricoles autour d’un paradigme agrochimique qui repose lui-même sur une faible diversité cultivée. Si on devait caricaturer, l’idée est que le système est optimisé pour certaines espèces végétales uniquement, les espèces dominantes que l’on connaît (blé, riz, maïs, soja...), ainsi que pour certains types de régimes alimentaires, et que dans ce modèle très fortement structuré, introduire de la diversité n’est pas si simple. Toutefois, ce n’est pas toujours facile d’analyser ces situations de verrouillage technologique, ou, pour le dire en termes plus simples, d’inertie au changement. Un des reproches souvent adressé à ce type d’approches est la difficulté de leur démonstration, qui suppose, en amont, de disposer de très gros volumes de données sur des temps longs. Ma thèse propose à ce titre un cadre méthodologique, c’est-à-dire un ensemble d’outils et de méthodes qui permettent de répondre en partie à ce reproche. À l’aide de ces outils, je peux analyser des trajectoires de développement technologique des légumineuses, dans la science, et dans les marchés, ce qui me permet, en retour, de mesurer plus finement cette inertie au changement.

Qu’est-ce que la fouille de texte ? En quoi les méthodes que vous avez développées sont originales ? 

On peut dire que la fouille de texte (text mining) est la petite-soeur de l’analyse des données (on parle de data analysis, data mining). Toutes les deux ont la même ambition : découvrir des récurrences, des situations remarquables, des « patterns », disent les Anglo-Saxons, au sein de larges volumes de données. À la différence de sa grande sœur, l’analyse des données, la fouille de texte porte sur un type de données très particulier, le texte, qui, par définition est une donnée non-structurée. Ainsi, les méthodes et les approches diffèrent quelque peu. C’est ce qui en fait son originalité. 

Dans ce travail, j’ai mobilisé/adapté certaines des approches et des techniques de fouille de texte sur un objet qui n’avait encore jamais été analysé : les étiquettes des produits alimentaires et en particulier les listes d’ingrédients1. J’ai développé pour ce faire un algorithme de « parsing »2. Disponible sous licence Creative Commons à usage non-commercial (licence CC-BY-NC) au titre d’INRAE, il permet d’identifier au sein de ces listes ce qu’est un ingrédient et de les réorganiser dans une structure de données (une façon de représenter les données qui est compréhensible par un ordinateur) sans perte d’information. Ce « parser » que l’on a nommé avec les collègues, « Foodcop », nous a permis par la suite de repérer au sein de ces listes d’ingrédients sur quelles espèces de légumineuses ils reposent. La démarche ici marcherait cependant sur n’importe quelle autre espèce végétale, si tant est que l’on dispose, comme c’était le cas pour moi, de collègues experts prêts à consacrer un peu de temps pour construire un vocabulaire contrôlé. Ce qui est loin d’être une chose aisée avec les appellations marchandes des produits et ingrédients alimentaires.

Quel impact a eu le mouvement d’ouverture des résultats de la recherche sur vos travaux ? 

C’est une vieille question pour moi, qui s’est d’abord posée sous l’angle de la question de la reproductibilité de la science. Si on avance un résultat intéressant, si on produit une analyse qui permet de faire avancer le débat, c’est essentiel de fournir en parallèle les moyens de reproduire le raisonnement, les résultats qui ont amené à ces avancées. C’est un moyen de contrôle dans le sens où on peut toujours se tromper et dans ce cas l’aide des pairs est essentielle ; à condition, bien sûr, que cette accessibilité des données et des méthodes soit assurée. On avance en se trompant. Si on se prive de la possibilité de l’échec en enlevant la possibilité du contrôle par les pairs, on peut se retrouver à se ranger dangereusement davantage du côté de l’opinion que du résultat scientifique. Plus généralement, avec cette question de la reproductibilité vient pour moi la nécessité d’ouvrir les boîtes noires des outils avec lesquels on travaille au quotidien pour produire des contenus scientifiques. C’est ce qui m’a amené d’ailleurs à passer des sciences humaines et sociales à ce que l’on appelle maintenant les sciences sociales computationnelles.

Dans un second temps, j’ai trouvé à INRAE une politique institutionnelle qui non seulement avait beaucoup investie sur la question de l’ouverture de la science et de la FAIRisation des données, mais a su aussi mettre en place les outils qui la permette. Je parle là d’outils comme l’entrepôt de données DataInrae, des dispositifs de versionnage comme une forge, des équipes formées sur les questions de brevets, de l’édition ouverte... ça a plus que facilité pour moi l’intégration des grands principes FAIR dans mes travaux. Ainsi les données sur lesquelles ma thèse repose, sont disponibles dans l’entrepôt de données INRAE, certains outils que j’ai pu développer, comme celui évoqué précédemment, sont disponibles au format creative commons, la thèse sera disponible sur HAL en libre accès, etc. 

Parlez-nous de votre parcours...

Je viens d’abord des sciences humaines et sociales (M2 de sociologie et de géographie, Licence d’ethnologie). Mais au cours des différents projets de recherche sur lesquels j’ai pu travailler, et, en particulier, au cours de ceux concernant l’analyse des discours militants (analyse des discours de mobilisation politique online, des discours de radicalisation, des mobilisations militantes brésiliennes en ligne au moment du « Golpe »3) et des discours scientifiques (scientométrie/bibliométrie), j’ai été amené à me former aux sciences computationnelles : programmation, gestion et manipulation de bases de données, recherche d’information, analyse de graphes, fouille de données textuelles... Les raisons de cette évolution vers ce qu’on appelle les sciences sociales computationnelles sont assez simples. Les volumes de données sur lesquels j’étais amené à travailler, la complexité des questions à traiter, le fait qu’aujourd’hui, dans nos sociétés, une part importante de nos interactions sont « médiées » par des dispositifs technologiques connectés, imposaient des méthodes d’analyses et de traitement impossibles à réaliser manuellement.  

Où exercez-vous actuellement ?

Je travaille maintenant depuis cinq ans à INRAE. D’abord au sein de l’équipe Odycee de l’unité AGIR où j’ai pu trouver un écho particulièrement favorable et bienveillant à ces approches socio-computationnelles, puis, maintenant au sein du pôle ASTRA de la direction pour la Science ouverte, qui est spécialisé dans l’analyse stratégique de la production scientifique. Au sein de ce pôle très réceptif et dynamique sur ces questions d’analyses bibliométriques, de fouille de texte, ou de suivi de la production scientifique, j’ai notamment pour mission d’accompagner au déploiement et à la mise en œuvre opérationnelle de méthodes et outils dans ce domaine, et de produire des analyses de la production scientifique de l’Institut.



 Salord, T. (2024). Analyser les trajectoires de développement des sciences et produits alimentaires : les apports de la fouille de texte à l'évaluation du verrouillage technologique des légumineuses [Thèse de doctorat]. (dépot dans HAL INRAE à venir)
 


1 Á noter cependant qu’au moment où j’ai développé cet outil pour la base de données que nous avons traité, MINTEL, des collègues américains de l’USDA (United States Department of Agriculture) ont entrepris un travail similaire avec la base de données alimentaire du département américain de l’alimentation et de l’agriculture - Food Branded Database

2 Un « parser » permet de mettre en évidence la structure des données sur lesquelles il est appliqué, de les normaliser et les organiser. On peut le voir comme une sorte de « ciseau » informatique. Par exemple, en langue naturelle les « parser » permettent de repérer et découper les principaux éléments de syntaxe afin de réaliser des analyses.

3 En 2023, lors de la tentative de coup d'État au Brésil.
 

Retour

Articles associés

Et si la prochaine formation que vous concevez contribuait aussi à la science ouverte ?

INRAE, en tant qu’institut de recherche, est impliqué dans l’enseignement supérieur. En valorisant et transférant ses connaissances, il joue un rôle clé dans la préparation des nouvelles générations aux défis scientifiques et techniques de demain, même si l’enseignement n’est pas sa mission première. Cette vision de la transmission des savoirs s’inscrit pleinement dans une démarche d’éducation ouverte, où le partage des connaissances devient un levier pour accélérer l’innovation et la collaboration

Souveraineté, sécurité, intégrité, sobriété... Nouveaux défis pour la science ouverte ? Le bilan 2025 de la DipSO est en ligne

À l’heure où la science évolue dans un monde traversé par des impératifs de souveraineté, de sécurité, d’intégrité et de sobriété, la science ouverte ne peut plus être pensée comme une simple dynamique d’ouverture. Elle doit s’affirmer au contraire comme un cadre structurant, capable de concilier partage des connaissances et maîtrise des usages. Le bilan DipSO 2025 est l’occasion de revisiter les actions engagées dans ce contexte et d’évoquer des perspectives.

Des brebis dans les vignes‎ : quand la recherche participative redessine les paysages agricoles de l'Aude

Le projet SagiTerres, récompensé par le Prix « Coup de cœur INRAE » de la recherche participative 2026, illustre comment l’alliance entre chercheurs et acteurs locaux peut transformer les pratiques agricoles et répondre aux enjeux climatiques. Une aventure collective qui prouve que l’innovation naît aussi du terrain.

HAL, 25 ans de science ouverte

HAL fête ses 25 ans : un quart de siècle au service de la science ouverte

2026 marque un jalon historique pour HAL, qui célèbre ses 25 ans d’existence. Depuis sa création, la plateforme s’est imposée comme l’archive ouverte nationale de référence, fédérant plus de 150 établissements de recherche et d’enseignement supérieur. Avec plus de 1,6 million de documents accessibles, dont un tiers en texte intégral, HAL incarne l’engagement des chercheurs et des institutions pour une science transparente et collaborative.