Des recommandations pour sécuriser l’usage du numérique

 

La « cellule de gouvernance des données » d'INRAE, composée des principaux acteurs touchant au sujet de la donnée (DipSO ; déléguée à la Protection des données – DPO ; direction des Affaires juridiques – DAJ ; Fonctionnaire Sécurité Défense – FSD ; direction du Partenariat et transfert pour l’innovation – DPTI ; délégation aux Infrastructures scientifiques collectives – DISC), s’est saisie récemment de deux sujets qui ressortaient comme des demandes fortes : le webscraping et les IA comme assistants. Des groupes de travail ont été missionnés pour rédiger des recommandations.

Contexte et enjeux

Parmi ses missions, la DipSO doit contribuer aux développements des compétences et des bonnes pratiques dans son périmètre d’activités en étant à l’écoute des demandes. Elle est ainsi en charge d’organiser la rédaction de documents de recommandations lorsqu’un besoin est identifié.

Résultats

Recommandations sur les usages du webscraping au sein d'INRAE 

Le webscraping est une technique informatique qui consiste à extraire automatiquement des données sur un site web. Il est aujourd’hui employé de plus en plus fréquemment dans le cadre de projets de recherche. En effet, il permet d’obtenir des données non disponibles autrement. Cela représente un gain de temps important par rapport à l’extraction « manuelle » par copier-coller d’informations sur une page web. Cette technique offre la possibilité de cibler précisément les informations recherchées et de les organiser pour répondre aux problématiques traitées dans le projet de recherche. Néanmoins, ces pratiques de webscraping soulèvent plusieurs questions d’ordres techniques, juridiques, et éthiques, qu’il s’agit de considérer. 

  • L'extraction d'informations issues du web est réglementée par ses conditions générales d’utilisation (CGU) qui fixent contractuellement toutes les règles d'utilisation du site et définissent les droits et obligations des internautes et de son propriétaire. Elle est également régie par un ensemble de textes juridiques, tels que le règlement général sur la protection des données (RGPD) ou les réglementations sur le droit d'auteur (en France, le Code de la propriété intellectuelle, en Europe, la directive européenne 2019/790 sur le droit d’auteur).
  • Les techniques de webscraping nécessitent des compétences techniques : quels outils employer ? Comment paramétrer une requête ? Comment éviter le blocage du site web « scrapé » ?
  • Il s’agit aussi d’être attentif à la provenance et à la qualité des données collectées pour garantir l'intégrité et la fiabilité des données, ainsi que la reproductibilité des résultats dans une optique de recherche scientifique robuste.

Une enquête au sein d'INRAE pour répertorier les projets qui utilisaient ou envisageaient d'utiliser cette technique a été réalisée. Une série d'entretiens avec douze projets sélectionnés parmi les répondants à l'enquête a suivi afin d'identifier les besoins, les points de blocages et les questions que posent les porteurs de ces projets. La nécessité de rédiger rapidement un document de recommandations est alors apparue. 

Les recommandations proposées insistent sur la nécessité de considérer l'ensemble des étapes du cycle de vie des données collectées dès le début d'un projet employant le webscraping, afin d'anticiper au mieux les difficultés et blocages potentiels. Ce document vise à aider les porteurs et porteuses de projets utilisant cette méthode au sein d’INRAE à faire des choix éclairés pour respecter l'ensemble des règles législatives et institutionnelles. Par le biais de checklists, de logigrammes et de recommandations, les porteurs et porteuses de projet seront capables d’anticiper au mieux chaque étape du webscraping. Ce document s'articule avec les autres documentations mises à disposition par INRAE (gouvernance des données, RGPD, cybersécurité, etc.) et propose aussi une liste de ressources et de personnes soutiens au projet.

Ce document est disponible sur le portail de la Science ouverte INRAE. Il a vocation à être enrichi et actualisé régulièrement. 

Recommandations pour l’usage des IA génératives comme assistant personnel au sein d’INRAE

Depuis plus de dix ans déjà, les systèmes d’intelligence artificielle nous assistent dans des tâches quotidiennes sans nécessairement que nous en ayons pris conscience (correction orthographique, dictées de messages, traduction de textes, traitement des photos de nos smartphones...). 

’ici la fin de la décennie, il est vraisemblable que les systèmes d’intelligence artificielle (IA) nous accompagneront en continu et dans beaucoup d’autres tâches du quotidien. Cela pourrait prendre la forme de nombreux assistants personnels, qui accompliraient des tâches répétitives, appuieraient la réflexion et la prise de décision, et accéléreraient le travail de groupe. Les IA évoluent très rapidement et il parait aujourd’hui nécessaire d’accompagner ce changement dans le cadre du travail à INRAE. 

Une note a été produite et présente les opportunités et les risques de cette avancée technologique ainsi que des recommandations pour leur usage. Celle-ci est disponible sur le portail de la Science ouverte INRAE.

Perspectives

Une seconde note de recommandation pour l’usage pratique des IA est en cours d’élaboration. Une note sur l’utilisation des identifiants pérennes est en projet.

Valorisation

 

Vous avez une question ?

Contactez-nous