Newsletter IST n°14, Avril 2017
Direction de la documentation
Pôle Information Scientifique et Technique

École des Ponts ParisTech

 
Ce 14ème numéro de la Newsletter IST a pour objectif de vous sensibiliser aux enjeux de l’Open Science et de vous présenter les bonnes pratiques de gestion et de valorisation des données de la recherche, à l’instar de ce que nous faisons depuis de nombreuses années en faveur du libre accès à vos publications.
Des données, quelles données ?
La définition la plus communément utilisée pour définir les données de la recherche (ou data research) est celle de l’OCDE (2007) :
« Enregistrements factuels (chiffres, textes, images, sons) utilisés comme source principale pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche ».
 
Les données de la recherche peuvent revêtir des formes différentes (données chiffrées, texte, son, image, questionnaire d’enquête, logiciel…) et elles peuvent provenir de sources différentes impliquant un mode d’archivage différent ; on distingue alors 4 types de données :
  • les données d’observation comme des relevés de température ou de précipitations, les données de télédétection, les photos d’un événement ou encore les données d’enquêtes. Elles sont uniques et impossibles à reproduire d’où la nécessité de les conserver indéfiniment.
  • les données expérimentales comme celles générées par un équipement en laboratoire ou les mesures de performance d’une machine. Ces données sont supposées être reproductibles mais il peut être difficile de reproduire les mêmes conditions de l’expérience ou reproduire la manipulation peut être tellement coûteux que cela en devient prohibitif. Par conséquent, il est recommandé d’archiver avec soin les données recueillies dans de telles situations.
  • les données de simulation numérique produites par des logiciels comme pour des modèles climatiques ou économiques. Ces données sont reproductibles et s’il n’est pas nécessaire d’archiver toutes les données ainsi produites, il est en revanche indispensable de décrire le modèle, le logiciel associé et d’en archiver toutes les informations qui permettront sa ré-exploitation.
  • les données dérivées ou compilées comme celles obtenues par de la fouille de textes ou de données d’une base. Il s’agit de données brutes qui ont fait l’objet de traitements et d’analyses successifs. Il est fortement recommandé de les archiver avec soin. 
En conséquence, un jeu de données (ou dataset) peut alors être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité » (Gaillard R., 2014). Enfin toutes les étapes de la création à la réutilisation des données, en passant par leur traitement, leur analyse, leur conservation et leur mise à disposition constituent le cycle de vie des données.
 
Pour 2017, le Pôle IST s’est fixé l’objectif de soutenir les chercheurs dans la mise en place d’une gestion raisonnée des données produites dans le cadre d’un projet de recherche et de les guider pour un partage et une valorisation optimale.
 
 
Pourquoi gérer et partager ses données ?
Il existe un grand nombre de bonnes raisons de publier ses données :
  • RÉPLICABILITÉ - permettre la reproduction et la validation des résultats et ainsi améliorer la qualité de la science
  • UTILISATION CITOYENNE DES FONDS PUBLICS - éviter de refaire ce qui a déjà été validé
  • PRESERVATION pour retrouver facilement les données (parfois même les siennes) ; on connaît tous des histoires de données perdues car stockées sur une clé USB inondée de café ou abandonnée dans un carton lors d’un déménagement. Ce problème de négligence vis-à-vis des données est soulevé depuis longtemps dans le milieu académique mais tous les chercheurs n’en sont pas encore conscients ou ne savent pas comment y remédier. Une étude a montré en 2013 que la disponibilité des données d’articles scientifiques diminuait de façon vertigineuse au fil du temps jusqu’à atteindre seulement 20% pour les articles publiés il y a 20 ans.  A noter que le dataset pour cette étude est disponible via l’entrepôt Dryad.
(c) Nature
  • INNOVATION pour permettre la création de nouvelles connaissances
  • COLLABORATION pour déclencher des collaborations
  • VALORISATION pour augmenter sa visibilité, pour étayer une demande de financement, son CV. Une étude a montré que le nombre de citations d’un papier augmentait si les données associées étaient disponibles. Par ailleurs, le COMETS du CNRS a émis la préconisation suivante en 2015 : « Le travail de mise à disposition de données utilisables à partir de données brutes doit être reconnu dans l'évaluation et les décisions de promotion des personnels qui s’y impliquent. »
Pour s’inscrire dans cette démarche de Science Ouverte, de plus en plus d’éditeurs et de financeurs exigent la publication des données qui accompagnent notamment une publication.
De nombreuses revues ont désormais une politique de données qu’on trouve dans leurs pages Data Policy ; cela concerne les données qui pourraient servir de preuve à la démonstration scientifique présentée dans un article. Certains éditeurs préconisent voire imposent un ou plusieurs entrepôts pour y déposer les données (exemple : groupe Springer Nature, Geoscience Data Journal).
 
Pour ce qui concerne les financeurs, l’exigence de l’Union Européenne portait déjà sur le fait que les articles scientifiques (peer-reviewed) produits dans le cadre de projets qu’elle finance devaient être rendus gratuitement et librement accessibles. Depuis 2017, le contrat implique par défaut que les données de la recherche liées à ces publications doivent aussi être partagées. Mais la décision de partager dépend entièrement des bénéficiaires du financement ; en effet toutes les données ne peuvent pas être mises en libre accès et il reste possible de se désengager totalement ou partiellement de cette obligation (opt-out) sous certaines conditions (ré-exploitation industrielle envisagée, confidentialité, danger à publier les données, …). La philosophie de l’UE sur ce point repose en une phrase :
« As open as possible, as closed as necessary ».
 
 
De nombreux pays ont défini une politique de partage des données, comme par exemple les Etats-Unis via la National Science Foundation, le Royaume-Uni avec les recommandations des Research Councils, l'Allemagne, les Pays-Bas ou tout récemment la Suisse. Le G8 des Ministres de la Recherche s’est également engagé en faveur d’une Science Ouverte intégrant la mise à disposition des données.
 
En France, si l’ANR encourage au partage, c’est aussi le cadre réglementaire et législatif qui peut conduire le chercheur à la mise en ligne de ses données. Dès 1978, la loi CADA stipulait que les administrations ne pouvaient pas s’opposer à la réutilisation de leurs données (sans pour autant les contraindre à les partager de façon pro-active), mais l’ESR n’était pas concerné. Cette exception a été levée en 2015 avec la loi Valter relative à la gratuité et aux modalités de réutilisation des informations du secteur public. Par ailleurs, le Code de la recherche (article L112-1) indique qu’un des objectifs de la recherche publique est « l'organisation de l'accès libre aux données scientifiques » et la directive européenne INSPIRE impose aux autorités publiques de rendre accessibles les données géographiques qu’elles détiennent.
A cela s’ajoute désormais  depuis octobre 2016 la Loi pour une République Numérique, dite Loi Lemaire, dont nous avons parlé dans la Newsletter IST n°12. Cette loi n’indique pas explicitement que la publication en ligne des données de la recherche est obligatoire, mais certains juristes l’interprètent dans ce sens notamment si on considère que les données issues d’une activité de recherche sont à considérer comme des documents administratifs, dans le sens juridique du terme.
Ce qui est en revanche très clair c’est que, dans l’objectif d’éviter la captation par les éditeurs des données produites dans le cadre de la recherche publique, la loi prévoit que la réutilisation de ces données soit libre (à condition qu’elles ne soient pas protégées par un droit spécifique), dès que celles-ci ont été rendues publiques par le chercheur. En conséquence, elles pourront être utilisées librement même à des fins commerciales.
 
Dans ce contexte juridique complexe, il faut retenir que si une association, une entreprise ou n’importe quel individu en France ou à l’étranger a connaissance de l’existence d’un jeu de données non publiés, il lui sera possible d’en faire la demande (loi CADA) et, sauf exceptions, l’établissement concerné sera dans l’obligation de fournir les données, de les mettre en ligne et de les garder à jour, et ce dans un format ouvert et librement réutilisable.
Il existe bien entendu de nombreuses exceptions (secret défense, données personnelles, données de santé, données provenant d’un tiers privé, etc…) et par ailleurs, il est important de noter que l’on parle ici en termes juridiques de “documents administratifs achevés” et que les données non validées de carnets de laboratoires ne sont donc pas concernées. Mais toutes les autres données peuvent faire l’objet d’une valorisation. Les codes sources sont des documents administratifs comme les autres et à condition qu’ils ne contiennent pas des éléments de codes tiers et sous réserve que leur publication ne porte pas atteinte à la sécurité du système d’information de l’établissement, ils peuvent faire aussi l’objet d’une demande de communication.
 
Comment gérer et partager ses données ?
> DMP (Data Management Plan) ou Plan de Gestion de Données 
 
Le DMP est un document élaboré au tout début du projet pour définir le rôle et la responsabilité de chacun dans la gestion des données et pour identifier de quels types seront les données produites ou collectées, lesquelles pourront être partagées, à partir de quand, et selon quelles conditions. Ce document n’est pas figé et devra être mis à jour régulièrement au fil du projet.
C’est aussi le moyen de définir certains aspects techniques et d’appliquer les principes FAIR (Findability, Accessibility, Interoperability, Reusability) :
  • conversion des données produites afin de les mettre à disposition dans un format ouvert pour faciliter leur réutilisation,
  • convention de nommage des fichiers et répertoires,
  • stockage en cohésion avec la volumétrie estimée,
  • sauvegarde sécurisée et efficace tout au long du projet et après,
  • documentation décrivant les données (nomenclature ou manuel de codes).
Partager ses données n’implique pas de diffuser toutes ses données avec le monde entier et sans délai. Comme nous l’avons vu plus haut avec la punchline de l’UE « As open as possible, as closed as necessary », il s’agit de les rendre disponibles au plus grand nombre pour le partage de la science tout en respectant le cadre juridique, éthique et contractuel du projet.
 
A noter que pour un projet H2020, le DMP est un livrable qui doit être inscrit lors de la soumission du projet et fourni dans sa première version dans les 6 premiers mois.
 
Il existe des outils pour aider à la rédaction d’un DMP comme par exemple DMP OPIDoR (outil développé sur la base de l’outil DMPOnline) mis à disposition de la communauté ESR pour aider à la rédaction du DMP. Il intègre le modèle de DMP préconisé pour un projet H2020. Vous pouvez vous créer un compte à partir de vos identifiants @enpc.fr.
 
Pour plus d’informations, consultez les 8 tutoriels multimédia réalisés par l’INIST-CNRS et surtout, n’hésitez pas à nous demander de l’aide, nous nous sommes formés et avons besoin de pratiquer !
 
 
> Supplementary materials, data papers, entrepôts 

Le moyen le plus simple en apparence et le plus fréquent de partage des données consiste à les intégrer directement à la publication qu’elles alimentent avec des supplementary materials (aussi appelés supporting information ou additional content) ; il s’agit par exemple de tableaux, de photos ou de figures, accompagnés parfois d'éléments d’informations méthodologiques. C’est évidemment un premier effort louable de partage mais on identifie cependant plusieurs problèmes concernant la conservation à long terme, ou encore l’impossibilité fréquente de pouvoir identifier ces données indépendamment de la publication et enfin les problèmes de droits cédés à l’éditeur de la revue. Par ailleurs, l’accès à ces données dépend des conditions d’accès à la revue et peut donc être bloqué par un abonnement payant.
 
Il est préférable de déposer ses données dans un entrepôt de données (data repository) et d’y appliquer une licence définissant ainsi les possibilités d’usage (Creative Commons ou Open Data Commons par exemple). Comme la Loi pour une République Numérique prévoit que les données soient librement réutilisables, même de façon commerciale, inutile de choisir une licence trop restrictive.
 
Il existe un grand nombre d’entrepôts de différents types :
  • entrepôts institutionnels (Harvard Dataverse, Sextant pour l’IFREMER)
  • entrepôts disciplinaires ou thématiques comme Pangaea ou EarthChem ou Materials Data Facility)
  • entrepôts multi-disciplinaires comme Figshare, Zenodo (développé dans le cadre du projet européen OpenAire), Dryad ou Nakala (structure pour les SHS, mise en place par la TGIR Huma-Num). HAL entre aussi dans cette catégorie mais pour certains types de données seulement et dans la mesure où ce n’est pas ce que la communauté internationale utilise et que HAL n’attribue pas de DOI, il semble préférable de choisir un entrepôt dédié aux données.
 
Les dépôts sont décrits par des métadonnées standardisées, cela permet de rendre les données facilement repérables et citables dans la mesure ou un DOI leur est attribué.
Grâce au DOI de la ou des publications qui exploitent un dataset et à celui du dataset lui-même, un lien bidirectionnel pérenne est ainsi créé ; il est par exemple exploité dans ScienceDirect qui affiche une carte interactive avec la localisation des données associées à un article lorsqu’elles sont déposées dans l’entrepôt Pangaea. Ce même lien est aussi signalé dans Scopus dans l’encart Related Research Data. Voir cet exemple de publication (10.1016/j.atmosenv.2009.08.034) dans Scopus, dans ScienceDirect et les données liées) :
 
 
Enfin, pour une meilleure valorisation d’un jeu de données, son producteur pourra publier un data paper (ou software paper pour un logiciel). L’objectif est de décrire les données, comment elles ont été produites ou collectées. La publication de ce data paper (soumise au processus classique de peer-reviewing) permettra d’informer la communauté de l’existence du dataset, d’en faciliter la réutilisation et pourra faire l’objet de citations notamment grâce à l’identifiant DOI qu’il aura reçu. Le data paper permet la reconnaissance du travail réalisé par les chercheurs qui ont produit les données. Voir cet exemple ou celui-ci.
 
 
> Comment choisir ? 

Il existe des moteurs de recherche d’entrepôts (comme http://www.re3data.org) et de jeux de données (DataOne, DataCite, DataSearch). C’est le meilleur moyen pour repérer où votre communauté partage ses données.
Afin de guider le chercheur dans le choix d’un entrepôt de confiance (trusted repository), il existe une certification appelée Data Seal of Approval qui a entrepris de certifier à la demande les entrepôts répondant à des critères de qualité concernant le stockage, l’intégrité et les modalités de mise à disposition des données et vous pouvez utiliser leurs critères de sélection comme une checklist.
 
Mais pour vous faciliter la tâche, nous avons réalisé un tableau dynamique qui vous permettra d’identifier facilement les sites qui correspondent à vos besoins.
 
Ce tableau présente des entrepôts de données, des revues de data papers ou des revues publiant entre autres des data papers, des moteurs de recherche mais aussi des outils de carnets de laboratoire électroniques. C’est dans le carnet de labo que les premières données ou les premières informations sur les données sont notées et qu’il faut donc commencer à y prêter attention...
 
Le Pôle IST se forme et s’informe tous les jours sur ce sujet mais des informations et des habitudes doivent aussi exister dans votre communauté. N’hésitez pas à nous solliciter pour que l’on définisse ensemble à quels niveaux nous pouvons être un soutien pour vous.
 
Vous le savez, nous aimons les défis !!
We are data librarians !
 
 
 
Pôle IST de la Direction de la Documentation, des archives et du patrimoine
Frédérique Bordignon (01 64 15 34 62 -  @freddie2310)
Delphine Du Pasquier (01 64 15 34 68  -  @DelphParis)
Romain Boistel (01 64 15 34 73 -  @RomBoistel)

 

 

Une question ?

Si vous souhaitez qu'un point particulier soit abordé dans cette newsletter, n'hésitez pas à nous en faire part.