Aller au contenu principal

Données de la recherche

Quelques ressources pour vous accompagner dans la gestion des données de la recherche

En quelques mots

Un plan de gestion de données | PGD (ou Data Management Plan | DMP) est un livrable (document formel) qui détaille la façon dont vous obtenez, documentez, analysez et utilisez vos données à la fois au cours de votre recherche et une fois le projet terminé. Il décrit les méthodes et les processus de création, de fourniture, de maintenance, de conservation et de protection des données.

Il sert à :

  • fiabiliser les données et faciliter leur gestion
  • anticiper et favoriser leur éventuelle diffusion
  • décrire la façon dont les données scientifiques d’un projet de recherche seront produites, traitées, diffusées, protégées...
En résumé 
- Le DMP spécifie quelles données sont collectées ou générées, comment celles-ci sont gérées, partagées et préservées 
pendant et après le projet.
- C’est LA bonne pratique pour tout projet de recherche générant des données.
- Il est exigé par les organismes de financement et les institutions.
- Il s’agit du seul livrable concret pour la gestion des DR.

Avant de commencer, répondez aux questions suivantes

Quelles données allez-vous collecter, étudier, générer ou réutiliser ?
  • Quel type, format et volume de données allez-vous collecter, étudier, générer ou réutiliser ?
  • Quelles données existantes (les vôtres ou des données de tiers) allez-vous réutiliser ?

Décrivez brièvement les données que vous allez recueillir, étudier ou générer. Veuillez également mentionner toutes les données existantes qui seront (ré)utilisées. Les descriptions devraient inclure le type, format et contenu de chaque set de données. De plus, veuillez fournir une estimation du volume de l’ensemble des données générées.


Comment les données seront-elles recueillies, étudiées ou générées ?
  • Quels standards, méthodes ou mécanismes d’assurance qualité utiliserez-vous ?
  • Comment prévoyez-vous d’organiser vos fichiers et de gérer les diverses versions ?

Expliquez comment les données seront recueillies, étudiées ou générées. Décrivez la manière dont vous prévoyez contrôler et documenter la cohérence et la qualité des données recueillies : processus de calibrage, mesures répétées, standards d'enregistrement des données, utilisation de vocabulaires contrôlés ou terminologies standardisées, validation de la saisie de données, données évaluées par les pairs, etc. Expliquez comment les données seront gérées au cours du projet, en mentionnant par exemple les conventions de nomenclature, le contrôle des différentes versions et l’arborescence des dossiers.


Quelle documentation et quelles métadonnées allez-vous fournir avec les données ?
  • Quelles informations sont nécessaires pour que les utilisateurs (ordinateur ou humain) soient en mesure de lire et interpréter les données ultérieurement ?
  • Comment allez-vous générer cette documentation ?
  • S’ils existent, quelles standards définis par la communauté seront-ils adoptés pour annoter les (méta)données ?

Veuillez décrire tous les types de documentation que vous allez fournir pour aider les futurs utilisateurs à comprendre et à réutiliser vos données. Les métadonnées devraient au moins contenir des éléments essentiels permettant à d’autres utilisateurs (ordinateur ou humain) de trouver les données. Cela comprend un nom et un identifiant permanent pour chaque fichier, le nom de la personne qui a collecté les données ou y a contribué, la date de collecte et les conditions pour accéder aux données. La documentation peut par ailleurs inclure des détails relevant de la méthodologie utilisée, des informations sur le traitement effectué et sur les étapes analytiques, des définitions de variables, des références aux vocabulaires utilisés, ainsi que des unités de mesure. Veuillez expliquer de quelle manière vous allez préparer et partager ces informations.

Comment les questions éthiques seront-elles abordées et traitées ?
  • Quels standards de protection s’appliquent à vos données ? Êtes-vous liés par une clause de confidentialité ?
  • Avez-vous les autorisations requises pour obtenir, traiter, conserver et partager les données ? Les personnes dont vous réutilisez les données ont-elles été informées ? Ou ont-elles donné leur consentement ?
  • Quelles méthodes allez-vous utiliser pour garantir la protection des données personnelles ou autres données sensibles ?

Dans les projets de recherche, les questions éthiques exigent une adaptation des pratiques quant à la gestion des données ; cela concerne par exemple la manière de les stocker, les personnes qui peuvent y accéder/les réutiliser et la durée de leur conservation. Pour gérer les questions éthiques, plusieurs méthodes existent : anonymisation des données, approbation de commissions d’éthique, accords de consentement officiels. Le cas échéant, vous êtes tenus de préciser que votre projet a identifié toutes les questions éthiques et mentionner les mesures mises en place pour la gestion des données.


Comment seront gérés l’accès aux données et la sécurité ?
  • Quelles sont les principales questions en matière de sécurité des données, quels sont les niveaux de risque et quelles mesures ont été mises en place pour gérer les risques liés à la sécurité des données ?
  • Comment allez-vous réglementer les droits/permissions d’accès aux données en vue de garantir la sécurité des données ?
  • Comment les données personnelles et autres données sensibles seront-elles traitées pour garantir la sécurité du stockage et du transfert de données ?

Si vous travaillez avec des données personnelles ou d’autres données sensibles, vous devez mentionner les mesures de sécurité visant à protéger les données. Dressez une liste des normes officielles que votre étude adoptera [exemple : la certification ISO 27001 en matière de gestion de la sécurité de l’information]. Décrivez les procédures ou dispositifs principaux mis en place pour le stockage et le traitement des données personnelles ou autres données sensibles.


Comment allez-vous gérer les questions de droits d’auteur et de propriété intellectuelle ?
  • Qui sera le propriétaire des données ?
  • Quelles licences seront appliquées aux données ?
  • Quelles restrictions s’appliquent en ce qui concerne la réutilisation des données appartenant à des tiers ?

Définissez les propriétaires des droits d'auteur et des droits de propriété intellectuelle (DPI) pour toutes les données qui seront collectées et générées, ainsi que la (les) licence(s).

De quelle manière vos données seront-elles stockées et sauvegardées au cours de la recherche ?
  • Quelles sont vos capacités de stockage et où seront stockées les données ?
  • Quelles sont les procédures de sauvegarde ?

Mentionnez quels sont les besoins en matière de stockage de données et l’endroit où elles seront enregistrées. Si vous demandez l’aide de services externes, il est important que cela n’entre pas en conflit avec les règlementations de chaque partie impliquée dans le projet, en particulier en ce qui concerne la question des données sensibles. Précisez vos procédures de sauvegarde (fréquence des mises à jour, responsabilités, procédures automatiques/manuelles, mesures de sécurité, etc.).


Quel est votre plan en matière de conservation des données ?
  • Quelles procédures seront utilisées pour sélectionner les données à conserver ?
  • Quels formats de fichiers seront utilisés pour la conservation ?

Précisez les données qui seront gardées, partagées, archivées ou supprimées après l’achèvement du projet, ainsi que la procédure adoptée pour la sélection de ces données (par ex. valeur à long terme, valeur potentielle pour une réutilisation, obligation de détruire certaines données, etc.). Définissez un plan de conservation à long terme de vos données, au-delà du projet de recherche. Justifiez vos choix concernant les formats de fichiers et l’application de standards communautaires.

De quelle manière et où seront partagées les données ?
  • Dans quelle base de données (repository) planifiez-vous de partager vos données ?
  • Comment les utilisateurs potentiels pourront trouver des informations sur vos données ?

Décrivez la manière dont les données seront rendues accessibles et dans quelle base de données elles seront disponibles. Veuillez également tenir compte des modalités permettant à d’autres utilisateurs d’indiquer et de valoriser la réutilisation de vos données.


Y a-t-il des restrictions nécessaires pour protéger les données sensibles ?
  • À quelles conditions les données seront-elles mises à disposition (date de publication des données, motifs de retard le cas échéant) ?

Les données doivent être partagées dès que possible, au plus tard au moment de la publication des résultats scientifiques. Seules des clauses légales, éthiques, de copyright, de confidentialité (ou autres) peuvent imposer des restrictions. Vérifiez si un accord de confidentialité pourrait protéger de manière satisfaisante les données confidentielles.


Vous confirmez choisir des bases de données numériques conformes aux principes FAIR.

Ce que le PGD/DMP décrit

Acquérir des données

  • je crée moi-même les données
  • je (ré)utilise mes données précédemment collectées
  • jutilise des données ouvertes publiques
  • je (ré)utilise les données collectées par dautres, capturées par exemple via re3data
  • jachète les données
    • Garder à l'esprit
      • quelle version des données vous réutilisez
      • que faire si lauteur des données ajoute une nouvelle version
      • stocker et sécuriser la version utilisée et la documentation d’origine
      • vérifier les droits d’auteur, licences, restrictions (accès, réutilisation)
      • vérifier la lisibilité et linteropérabilité

Description

  • types de données (expériences, données d’observation, données d’enquête, fichiers vidéo, etc.)
  • comment les nouvelles données sintègrent aux données existantes
  • quelles données méritent dêtre conservées à long terme
  • si certains ensembles de données sont soumis au droit dauteur ou à des droits de propriété intellectuelle, montrer que vous êtes autorisé à les utiliser

Formats

Volume

  • estimer le volume de données à la fin du projet car de cela dépendent :
    • la préservation
    • l’accès
    • la sauvegarde
    • l'échange de données
    • le matériel et logiciel
    • le soutien technique
    • les dépenses

Comment les données seront-elles collectées ou créées

  • nommer les procédures et méthodes standard existantes
  • existe-t-il des normes de données disponibles ?
  • comment garantir la qualité des données (disponibilité, intégrité, confidentialité)

Logiciel

  • utiliser des logiciels open source lorsque cela est possible
  • interopérable avec d’autres logiciels open source
  • le logiciel doit permettre de répéter les analyses de données effectuées 
  • documentation lors de la création dun nouveau logiciel
  • fournir un support technique pour les logiciels sur mesure
  • système de gestion de versions
  • référentiel de code basé sur le cloud (GitHub)
  • licences de logiciels open source

Organisation des données

  • être systématique et cohérent
  • fichiers de nommage : simples, logiques, sans abréviations ou avec des abréviations standard (pays, langues, unités de mesure, ...)
  • organisation des fichiers (exemples : nom du projet, heure, lieu, collecteur, type de matériau, format, version)
  • la structure des dossiers doit être hiérarchique, simple, logique, courte

Documentation

  • Exemples de guides et outils pour la documentation des données :
  • inclure un fichier texte README avec vos jeux de données. Il contient autant d’informations que possible sur les fichiers de données pour permettre aux autres de comprendre les données.
    • titre de l’ensemble de données
    • résumé, aperçu de l’ensemble de données
    • structure des fichiers et relations entre les fichiers
    • méthodes de collecte des données
    • logiciels et versions utilisés
    • normes 
    • informations spécifiques sur les données (unités de mesure, explications des abréviations et codes, etc.)
    • possibilités et limites de la réutilisation des données
    • coordonnées du créateur du jeu de données (facultatif)
    • instructions pour la création d’un fichier README
    • créer un fichier « Lisez-moi » (université de Montréal)
  • nommez-le toujours README.txt ou README.md (Markdown).
  • créer un fichier README.txt pour chaque jeu de données
  • rendre disponibles, archiver et referencer correctement les codes sources des logiciels utilisés


Métadonnées

  • métadonnées administratives, détails du projet (ID, bailleur de fonds, droits et licences)
  • métadonnées techniques (matériel et logiciels, instruments, outils, droits d’accès)
  • métadonnées descriptives (auteur, titre, résumé, termes du sujet)
  • les normes de métadonnées indiquent les champs à remplir :
  • métadonnées cachées : par exemple dans les photos. DoRANum propose une fiche complète sur ce point : Les métadonnées sont partout !
    • pour lire les données efix - Exchangeable Image File (ensemble de données automatiquement enregistré à chaque photo) : extension Firefox Exif Viewer : permet d’accéder à toutes les métadonnées d’une photo.
  • les dictionnaires et les classifications de métadonnées contrôlées vous indiquent ce qu’il faut écrire dans ces domaines, en utilisant une terminologie standard. Quelques exemples :

Stockage, sauvegarde, transfert et récupération sécurisés

  • L’objectif est de maintenir la qualité des données :
    • disponibilité et accessibilité
    • intégrité (exactitude, exhaustivité et actualité)
    • confidentialité (uniquement accessible aux personnes ou systèmes autorisés, gestion des clés, stockage des fichiers journaux)
  • espace de stockage :
    • environnements cloud
    • serveurs centraux
    • serveurs de données sensibles
    • disque dur
    • disque dur externe
  • sauvegarde :
    • création d’une copie de l’état actuel des données et / ou des programmes qui, après un incident de sécurité, vous permet de le restaurer
      • maintenir et sauvegarder le fichier maître
      • règle 3-2-1 (stockez vos données en 3 copies sur 2 dispositifs mémoire différents dont 1 éloigné)
      • qui est responsable, en particulier pour les appareils mobiles ?
  • effectuer une analyse des risques : que faire en cas de...
    • panne des systèmes informatiques
    • panne de courant, dégat des eaux, feu
    • pert ou vol de l’appareil
    • virus : un logiciel malveillant est découvert dans les appareils
    • décès ou départ d’un membre de l’équipe
    • ...
  • pondération des risques (probabilité et pertes)
  • évaluation des risques
  • norme de sécurité de l’information (famille ISO 27000)

Accès aux données, sécurité de l’information

  • gestion des droits d’accès (identique pour tous, droits contractuels, droits temporaires)
  • pseudonymisation, cryptage, gestion des clés
  • échange de données, données personnelles, pays tiers
  • sécurité organisationnelle et physique : formation d’un nouvel agent, problèmes éventuels avec les collaborateurs sortants, règlement intérieur, sécurité incendie, verrouillage des portes
  • qui est responsable de la sécurité de l’information ?

Intégrité de la recherche

  • L’intégrité scientifique en France : feuille de route
  • Documentation Hcéres (Haut Conseil de l’évaluation de la recherche et de l’enseignement supérieur)

Protection des données personnelles

  • décrire si le projet collecte des données personnelles et comment elles sont traitées conformément au règlement général sur la protection des données (RGPD). Un lien pour commencer.

Droits d’auteur et droits de propriété intellectuelle

  • à qui appartiennent les données
  • les données ont toujours un propriétaire, même s’il s’agit de données ouvertes
  • Creative Commons

Données FAIR

  • quelles données ont une valeur à long terme?
  • préparation des données à partager, selon les principes FAIR
  • sélection du référentiel

F. Comment rendre les données trouvables

  • Les données ont un DOI (généré par le dépot dans l'entrepôt de données certifié)
  • les métadonnées se trouvent dans le registre DataCite
  • les métadonnées proviennent de standards comme Dublin Core ou d’autres normes
  • les métadonnéessont  lisibles par une machine
  • les données et les métadonnées pertinentes sont dans des fichiers séparés mais liés
  • avec des mots-clés
  • et des versions (le cas échéant)

A. Comment rendre les données accessibles

  • choisissez le référentiel où les données sont stockées
  • quelles données sont en libre accès ?
  • quelles données resteront fermées et pour quelle raison ?
  • les métadonnées doivent être ouvertes même lorsque les données ne sont pas ouvertes (excepté la localisation : des espèces rares, des populations...)
  • pour les métadonnées techniques : logiciel requis (version), spécifications de l’instrument, outils logiciels

I. Comment rendre les données interopérables avec d’autres systèmes informatiques

  • principalement le rôle du référentiel
  • quelles normes de données et de métadonnées, vocabulaires contrôlés et taxonomies sont utilisés
  • description des types de données : si non standard, comment l’interopérabilité est assurée
  • liaison à d’autres données, métadonnées et spécifications
  • normes d’échange de données

R. Comment garantir la réutilisation des données

  • s’agit-il de données brutes, nettoyées ou traitées ?
  • période d’embargo, motifs
  • licences 
  • citation
  • métadonnées standard, normes (de domaine) utilisées
  • provenance des données (qui, où, quoi, où, publiées)
  • quelle version de logiciel est utilisée ?
  • combien de temps les données sont-elles disponibles pour une réutilisation ?
  • assurance de la qualité des données (disponibilité, intégrité, confidentialité)
  • suggérer qui pourrait avoir besoin de ces données, pour quelle recherche (dans README.txt)

Partage et restrictions d’accès

  • déposer les données partagées dans un entrepôt, ou en tant que données annexes d’un article, ou en tant qu’article de données distinct dans une revue de données
  • dans quel référentiel les données sont-elles archivées ? (pour trouver un entrepôt : re3data - registre des référentiels de données de recherche)
  • comment partagez-vous vos données (open data, sur demande) ?
  • quand partagez-vous (immédiatement, après la publication de l’article, après la période d’embargo) ?
  • les données sont-elles liées à une publication ?
  • lien vers votre ORCID
  • quelles données sont en libre accès, données ouvertes ?
  • quelles données resteront fermées et pour quelle raison ?
  • quelles sont les données cryptées ?
  • authentification, qui donne les droits d’accès
  • faut-il créer un compte utilisateur, sous certaines conditions, pour accéder aux données ?

Qui sera responsable de la gestion des données ?

L'objectif est d’attribuer dès le départ les rôles et implcations de chacun des acteurs du projet. Soit par poste, soit par tâche.

  • rôles possibles dans l'équipe projet
    • chercheur principal : politique de gestion des données, DMP, contrats, coûts, formation
    • chercheurs associés : suivre et améliorer le DMP, la gestion des données, la résolution de problèmes
    • gestionnaire/ingénieur de données : formation, conseil, sécurité de l’information, sauvegarde, matériel et logiciels
  • rôle par workflow
    • déterminer qui est responsable de la collecte des données, de la documentation, des métadonnées, de la sécurité des données, etc.
  • un exemple à l'université de technologie de Delft (Pays-Bas) : TU Delft RD Policy 

Coûts prévus

  • les coûts sont principalement liés aux ressources humaines, au matériel, aux frais de stockage et aux logiciels
  • queqles exemples :
    • formation, conférences, service de traduction (le cas échéant)
    • APC
    • collecte de données : achat de données, transcription des entretiens enregistrés
    • numérisation et OCRdéveloppement de logiciels ou achat de logiciels, licences d’utilisation
    • matériel : ordinateurs, serveurs, instruments, équipement de travail sur le terrain
    • analyse des données : matériel et logiciels, services externalisés
    • stockage et sauvegarde des données : serveurs, volume de données prévisible, règle 3-2-1
    • stockage à long terme des données : préparation au partage (formatage), anonymisation
    • RH : gestionnaire de données de projet

Parcours interactif sur le plan de gestion des données

Cours introductif sur le Plan de gestion de données (PGD) :

Ce module interactif est un cours introductif sur le Plan de gestion de données (PGD). Il explique tous les éléments essentiels à connaitre (modèles, outil de rédaction et interlocuteurs) pour entamer la rédaction de votre propre PGD.

Ressource créée et maintenue par DoRANum (Données de la recherche : apprentissage numérique), disponible en ligne : https://doranum.fr/plan-gestion-donnees-dmp/cours-introductif-sur-le-plan-de-gestion-de-donnees_10_13143_t3j4-vn03/