PGD Express

Questions relatives au partage et à la préservation dans un PGD
Voici quelques exemples de questions qui vous seront posées à ce sujet dans un plan de gestion des données (PGD)[1]. Vous pouvez croiser une section qui portera le nom de « Partage et réutilisation », « Préservation », « Publication et partage des données » ou une combinaison de ces termes.
- Quels sont les plans pour la gestion à long terme (et le dépôt, et la diffusion) de vos données lorsque seront conclues les phases actives de votre recherche?
- Comment et quand les données seront-elles partagées ? Y a-t-il des restrictions au partage des données ou des raisons de définir un embargo ?
- Comment les données à conserver seront-elles sélectionnées et où seront-elles préservées sur le long terme (par ex. un entrepôt de données ou une archive) ?
- Comment l’attribution d’un identifiant unique et pérenne (comme le DOI) sera-t-elle assurée pour chaque jeu de données ?
- Quelles méthodes, quels outils logiciels, quelle documentation associée (par exemple, protocoles d’étude et instruments de collecte de données) seront nécessaires pour accéder, utiliser et comprendre les données ?
- Décrivez quelles données scientifiques issues du projet seront conservées et partagées. Les données scientifiques générées dans le cadre d’une étude ne seront pas toutes conservées et partagées. Les chercheurs doivent décider quelles données scientifiques conserver et partager en fonction de facteurs éthiques, juridiques et techniques. Le plan doit fournir les raisons qui motivent ces décisions.
- Indiquez comment vous vous assurerez que vos données sont prêtes pour la conservation. À prendre en considération: formats de fichier appropriés pour la conservation, mais qui préservent l’intégrité des données; anonymisation et dépersonnalisation des fichiers, y compris les fichiers de documentation.
- Avez-vous songé au type de licence d’utilisateur final à inclure avec vos données?
- Quelles mesures prendrez-vous pour faire savoir à la communauté des chercheurs que vos données existent?
PGD Express
Partage
Partager des données peut être fait avec les mêmes outils que la préservation, mais les deux actions ne sont pas nécessairement équivalentes et l’ensemble des données préservées ne sont pas systématiquement partagées.
Exemple 1 : j’effectue une recherche où je vais recueillir des échantillons dans la toundra et les analyser ensuite en laboratoire
Afin d’être réutilisées par la communauté de recherche, les données brutes seront conservées à long terme et déposées dans le dépôt institutionnel de notre établissement sous licence CC0, accompagné d’une documentation complète permettant leur compréhension et leur réutilisation. Ce dépôt attribue un identifiant permanent (DOI) aux jeux de données et grâce à des métadonnées de qualité, nous assurerons la visibilité des données dans d’autres dépôts (ex. : Dépôt fédéré de données de recherche) et les moteurs de recherche (ex. : Google), conformément aux principes FAIR. Les données finales, associées aux publications scientifiques, seront également déposées dans le même dépôt sous licence CC BY afin de supporter les résultats de recherche. L’ensemble des fichiers de données seront convertis en formats libres (CSV, JSON) pour garantir leur accessibilité à long terme. Le code utilisé pour l’analyse des données sera fourni en format ouvert (Python), avec les versions des bibliothèques utilisées. Un site Web dédié au projet permettra de valoriser les données, les résultats et les publications, facilitant ainsi leur diffusion auprès de la communauté scientifique et du grand public.
Exemple 2 : j’effectue une recherche où je vais effectuer des entrevues qualitatives et des sondages auprès d’une population ciblée
Les personnes participantes ont consenti à ce que leurs données soient partagées à condition qu’elles soient dénominalisées. Puisque le risque de réidentification ne peut être totalement éliminé, les données seront déposées dans le dépôt institutionnel sous embargo pendant dix ans, avec attribution d’un identifiant permanent (DOI). Si, après cette période, les risques pour la population en cas de réidentification demeurent trop élevés, l’intendance des données sera confiée au service de la Bibliothèque afin qu’elles soient rendues accessibles au moment jugé approprié. Les données seront diffusées sous licence CC BY-SA.
Une version abrégée des données (sans les variables démographiques), accompagnée d’une documentation détaillant toutes les variables recueillies, sera disponible pour maximiser leur visibilité, tandis que les guides d’entrevues et les formulaires de sondage seront partagés sous licence CC BY-NC-SA. Les fichiers audio des entrevues, les retranscriptions et les clés d’identification ne peuvent être partagés et seront supprimés en 2033.
Exemple 3 : j’effectue une recherche où je vais analyser un livre du Moyen-Âge en rapport avec une toile de la même époque
Les deux œuvres étudiées étant dans le domaine public, toutes les photographies originales prises dans le cadre de l’étude pourront être partagées. Ces images seront déposées en format JPEG dans le dépôt institutionnel de l’établissement (qui permet le dépôt par la communauté étudiante). Ainsi, les données auront un DOI qui assurera leur visibilité et traçabilité. Si d’autres œuvres sont photographiées au cours du projet, leurs images seront également déposées, sous réserve que les licences de reproduction le permettent ; dans le cas contraire, des liens vers les collections numériques officielles seront fournis dans une bibliographie détaillée accompagnant les données. Les images seront placées dans le domaine public, tandis que la documentation explicative sera diffusée sous licence CC BY-SA. Les tableaux d’analyse comparant les deux œuvres seront également partagés, et le lien vers la thèse sera ajouté une fois celle-ci publiée. À la fin du projet, le cahier de notes de recherche sera évalué pour déterminer s’il peut être partagé de manière pertinente et éthique, en fonction de son contenu et de sa valeur pour la compréhension du processus de recherche.
Exemple 4 : je supervise un projet de recherche avec de nombreuses personnes impliquées, de différents établissements, et un grand nombre de types de données
Les exigences du financement imposent le partage des données lorsque possible, par le biais d’un dépôt sur le territoire de l’organisme subventionnaire. Une liste de dépôts disciplinaires fiables sera fournie aux équipes, leur permettant de choisir celui qui convient le mieux à la nature de leurs données. Tous ces dépôts sont reconnus par les spécialistes du domaine, respectent les principes FAIR et attribuent un identifiant permanent (DOI), assurant ainsi la traçabilité et la visibilité des jeux de données. Les données brutes des capteurs seront systématiquement déposées, les données finales également, avec la documentation nécessaire pour les comprendre et connaître les transformations qui ont été effectuées. Un article de données sera rédigé pour regrouper les informations essentielles et faciliter la navigation entre les différents dépôts.
Certaines équipes collaborent avec des communautés autochtones et ont rédigé un plan de gestion des données spécifique à leur volet du projet. Le partage des données issues de ces collaborations se fera uniquement selon les volontés des communautés concernées, qui varient d’une communauté à l’autre. La documentation relative à ces décisions est disponible dans les PGD spécifiques.
Les considérations éthiques seront prises en compte par chaque équipe en fonction de la nature des données recueillies, notamment en ce qui concerne la protection des renseignements personnels et le respect du consentement des personnes participantes. Toutes les équipes impliquées dans la collecte de données humaines s’assureront de maximiser le partage tout en respectant les limites établies par les formulaires de consentement et les risques associés.
Exemple 5 : je réutilise des données déjà existantes
Dans le cadre de ce projet, les données réutilisées proviennent de sources externes et ne seront pas repartagées, conformément aux licences d’utilisation et aux droits de propriété intellectuelle. Les nouvelles données produites à partir de ces sources ne seront pas partagées non plus, en raison d’une entente contractuelle qui limite leur diffusion avec le producteur des données originales. L’entente signée entre les partenaires a été communiquée à l’ensemble des membres du projet. Bien que les données ne puissent être déposées, leur existence, leur nature et leur rôle dans le projet seront décrits dans la documentation, dans les articles et les actes de conférence afin de garantir la transparence et la traçabilité du processus de recherche.
Préservation
Lorsqu’il est question de préservation, on pense au-delà des demandes de subvention. Une fois l’argent épuisé, qu’adviendra-t-il des données? Combien de temps doivent-elles être conservées?
Exemple 1 : j’effectue une recherche où je vais recueillir des échantillons dans la toundra et les analyser ensuite en laboratoire
La préservation à long terme des données sera assurée par le dépôt institutionnel gratuit, reconnu pour sa fiabilité et sa capacité à attribuer des identifiants permanents (DOI). Tous les fichiers utilisés seront enregistrés dans des formats ouverts et non propriétaires, ce qui garantit leur accessibilité future, indépendamment des logiciels ou des systèmes utilisés. Afin d’assurer la pérennité des contenus diffusés en ligne, une copie du site Web du projet sera archivée par le programme de collecte de sites Web de Bibliothèque et Archives nationales du Québec (BAnQ) (https://www.banq.qc.ca/notre-institution/bibliotheque-nationale/programme-de-collecte-de-sites-web/). Les données hébergées sur le Web seront également déposées dans le dépôt institutionnel pour éviter toute perte lors de la disparition du site. Les données intermédiaires, jugées non essentielles à long terme, seront supprimées deux ans après la fin du projet, conformément au calendrier de rétention établi.
Exemple 2 : j’effectue une recherche où je vais effectuer des entrevues qualitatives et des sondages auprès d’une population ciblée
La préservation des données est encadrée par les exigences éthiques et les formulaires de consentement. Seules les données pouvant être partagées seront déposées dans le dépôt institutionnel, qui assure une conservation à long terme. Les documents dont la mise en page est significative seront déposés dans des formats ouverts ou semi-ouverts comme DOCX et PDF, tandis que les formats entièrement ouverts comme ODT et TXT seront privilégiés lorsque possible. Les fichiers audio des entrevues, les retranscriptions et les clés d’identification seront conservés pendant huit ans, conformément au certificat éthique, puis supprimés par la personne responsable du projet ou son remplaçant désigné. La liste des fichiers à supprimer, ainsi que la date prévue, est consignée à la racine du dossier du projet, avec les autres éléments de gestion des données.
Exemple 3 : j’effectue une recherche où je vais analyser un livre du Moyen-Âge en rapport avec une toile de la même époque
L’ensemble des éléments partagés dans des dépôts de données seront préservés par ceux-ci. Un soin sera apporté aux formats de fichiers qui seront déposés. La majorité des photos seront prises avec un téléphone sous format JPEG (compressé, mais ouvert). Les documents textuels, s’il y a lieu, seront partagés sous forme de PDF, le but étant davantage de documenter la recherche plutôt que permettre une réutilisation par d’autres.
Exemple 4 : je supervise un projet de recherche avec de nombreuses personnes impliquées, de différents établissements, et un grand nombre de types de données
La préservation à long terme est assurée par le recours à des dépôts reconnus. Certains des dépôts proposés sont certifiés CoreTrustSeal, garantissant des pratiques rigoureuses en matière d’intendance, tandis que les autres indiquent clairement dans leurs politiques leur engagement envers la préservation durable des données. Les équipes seront encouragées à utiliser des formats ouverts lorsque cela est possible, ou à documenter précisément l’environnement informatique requis pour ouvrir des formats spécifiques.
Les données transférées aux communautés autochtones seront sous la responsabilité de ces dernières, conformément aux ententes prises au début du projet. Avant le transfert, les équipes concernées s’assureront de respecter les formulaires de consentement et les exigences éthiques afin de minimiser les risques pour les personnes ayant participé à la recherche.
Enfin, chaque équipe est responsable de la suppression des fichiers qui ne doivent pas être conservés, en maintenant une liste à jour de ces éléments pour assurer une gestion transparente et conforme aux engagements du projet.
Exemple 5 : je réutilise des données déjà existantes
Aucune donnée ne pourra être préservée à long terme, conformément aux ententes établies avec les partenaires et aux obligations liées à la propriété intellectuelle. Les données originales et dérivées demeurent sous la responsabilité des détenteurs initiaux, et leur conservation relève de leurs propres politiques d’intendance. Les sources utilisées seront clairement indiquées dans les résultats de recherche, permettant à la communauté scientifique de contacter directement les partenaires pour accéder aux données, si cela est permis.
Liste de validation
Voici un bref aperçu de ce que le groupe d’experts sur la planification de la gestion des données de l’Alliance de recherche numérique recommande d’avoir dans cette section, vous pouvez trouver l’ensemble des recommandations sur Zenodo[2].
[…] On précise comment les données peuvent être stockées dans une optique d’intendance des données et d’accès à long terme tout en garantissant la conformité éthique et/ou le consentement de la personne participante.
On présente le calendrier de rétention de données et on explique clairement pourquoi certaines ne seront pas stockées après les phases actives du projet (p. ex., les données pourraient facilement être recréées; elles sont assujetties à des ententes sur l’utilisation ou doivent être transférées à des partenaires commerciaux ou sectoriels; elles peuvent être hautement confidentielles)
On décrit comment les données retenues seront préparées au stockage à long terme, notamment toute activité d’assurance de la qualité, de normalisation ou de dépersonnalisation qui aura lieu. On détaille également tout processus utilisé pour le nettoyage ou le changement de format des données, y compris tout point important concernant le format de fichier devant garantir l’accès à long terme (p. ex., fichiers propriétaires vs libres, langages de programmation, scripts, programmes et versions).
On mentionne si des copies des données seront conservées sans être déposées auprès d’un intendant des données (p. ex., un dépôt de données), et on précise où elles seront stockées (p. ex., plateforme de l’éditeur; chez l’équipe de recherche ou l’établissement).[…]
On précise si les données de recherche déposées feront l’objet d’un embargo, et si elles seront disponibles en libre accès ou encore déposées avec certaines conditions. On précise également si les données seront partagées ou réutilisées et dans quelles conditions (p. ex., considérations éthiques par rapport aux données des participantes et participants humains; licences ou modalités applicables).
On explique comment les données seront rendues repérables, accessibles et réutilisables. […] Les données déposées peuvent alors se voir attribuer un identifiant permanent, conformément aux principes FAIR (principes selon lesquels les données doivent être faciles à trouver, accessibles, interopérables et réutilisables), et être liées à des publications au moyen d’un énoncé de disponibilité des données.
Dans votre plan de gestion des données, vous avez mentionné les éléments suivants :
- Ce qui peut être partagé : données complètes, partielles ou dérivées, selon les droits, les licences et les considérations éthiques. Documentation associée.
- Restrictions à appliquer : exigences éthiques, respect des formulaires de consentement, protection des renseignements personnels, volontés des communautés autochtones ou partenaires.
- Contraintes temporelles : embargos, délais avant le partage, durée de conservation avant suppression, calendrier de révision ou de transfert.
- Dépôts choisis : nom des dépôts, leur fiabilité, leur certification (ex. CoreTrustSeal), attribution de DOI, interopérabilité et visibilité.
- Formats de fichiers : formats ouverts privilégiés, formats propriétaires justifiés, documentation de l’environnement nécessaire à l’ouverture des fichiers.
- Responsabilités de préservation : qui assure la conservation (équipe, établissement, communauté).
- Données à supprimer : justification de la non-préservation, échéancier, personne responsable.
Bibliographie
Groupe d’experts sur la planification de la gestion des données. (2025). Grille du modèle de l’Alliance simplifié (demande de financement). Zenodo. https://doi.org/10.5281/zenodo.15650075
Hswe, P., & Musser, L. (s. d.). Part 3: Policies for Data Sharing and Access. https://www.e-education.psu.edu/dmpt/node/666
Tayler, F., Mitchell, M., Ripp, C., Dangoisse, P. (2022). Manuel d’introduction aux données : rendre publiques les données de recherche en sciences humaines numériques. https://ecampusontario.pressbooks.pub/introdonnees
- Source des questions : modèles de l’Alliance numérique de recherche, de la Plateforme transatlantique, de l’Agence nationale de la recherche et des National Institutes of Health (NIH). ↵
- Tiré de la Grille du modèle de l'Alliance simplifié (demande de financement). https://doi.org/10.5281/zenodo.15650075 ↵