Les entrepôts de données ou Data repositories sont des services en ligne permettant le dépôt, la description, la conservation, la recherche et la diffusion des jeux de données.
Il existe plus de 3000 entrepôts où publier des données recensés par Re3data.org ou Datacite Repository Finder, 2 outils qui permettent de choisir un entrepôt.
Les entrepôts peuvent être disciplinaires ou généralistes, gratuits ou payants, publics ou privés, institutionnels ou gérés par une infrastructure nationale, internationale ou un consortium.
En France, depuis 2022, l’entrepôt national Recherche.data.gouv (RDG) a vocation à accueillir toutes les données issues de la recherche française.
NB : Il n’est pas conseillé de déposer
- un même jeu de données dans plusieurs entrepôts, pour éviter la dilution des citations : un jeu de données = un DOI. Les métadonnées peuvent être présentes sur plusieurs sites mais doivent renvoyer sur le même dépôt, dans un seul entrepôt.
- les données liées à une publication chez l’éditeur (en matériel supplémentaire par exemple), pour éviter tout risque de captation des droits et car elles sont alors plus difficiles à trouver en dehors de l’article.
A L’IRD
– S’il existe un entrepôt thématique leader dans votre discipline, il est recommandé de l’utiliser
– A défaut, utiliser l’entrepôt de l’IRD, DataSuds, ouvert aux scientifiques des structures auxquelles l’IRD participe et à leurs partenaires,
et moissonné par Recherche.data.gouv, l’entrepôt national des données de la recherche.
Sommaire
Les critères de choix d’un entrepôt de données
L’entrepôt doit être choisi avec attention pour garantir à ses données pérennité de l’accès, ouverture des droits,….
La recommandation
Certains entrepôts sont incontournables dans leurs disciplines : renseignez-vous auprès de vos collègues !
On cite souvent, par exemple, parmi les entrepôts de référence publics et gratuits distribuant des DOI : Dryad, pour les sciences du vivant, Gbif pour la biodiversité, Pangaea, pour les sciences de la terre et de l’environnement, Seanoe, pour les sciences de la mer et de l’Océan,…
Le financeur de la recherche ou le journal qui publie l’article associé fournit parfois des listes d’entrepôts recommandés.
Vérifiez les conditions du dépôt dans l’entrepôt : elles doivent être conforme au cadre juridique, et ne cédez jamais tous vos droits !
Enfin, le plan de gestion de données du projet qui a permis la création ou le traitement des données peut mentionner dans quel entrepôts les données seront être déposées.
En l’absence de recommandations, vous pouvez rechercher des entrepôts thématiques via https://www.re3data.org/browse/by-subject/ et parcourir leurs descriptions pour en sélectionner un grâce aux autres critères énumérés ci-dessous.
La visibilité
L’entrepôt doit permettre de décrire les données selon les principes FAIR et surtout attribuer un identifiant pérenne (DOI) aux jeux de données.
Le jeu de données doit pouvoir être retrouvé dans Google Scholar, Google Data Search Bêta ou Datacite.
La durabilité
Un entrepôt sera d’autant plus durable qu’il est soutenu par une ou plusieurs institutions publiques.
Les entrepôts certifiés par le Core Trust Seal sont à privilégier.
Les licences proposées ou imposées
Vérifier que la ou les licences proposée(s) par l’entrepôt correspond(ent) à la législation française sur les données publiques, à vos desideratas et à ceux de vos partenaires.
Les services proposés
Assistance aux déposants, modération des dépôts,… par du personnel dédié sont d’une grande aide et garantissent la qualité des données et des métadonnées. Envoyer quelques questions via le formulaire de contact permet de tester la réactivité et la pertinence de l’appui.
L’usage et les fonctionnalités
L’entrepôt doit permettre de retrouver facilement les jeux de données et de les citer, en proposant une citation standard, par exemple.
Il peut aussi apporter des fonctionnalités supplémentaires intéressantes selon le type de données : traitements intégrés, data visualisation,…
DataSuds, l’entrepôt dataverse de l’IRD répond à tous ces critères et permet aux scientifiques de l’IRD et à leurs partenaires de déposer, archiver et décrire correctement leurs données, dans le respect des Objectifs du Développement Durable et de la Science Ouverte.
Les fonctions d’un entrepôt de données
Le dépôt du jeu de données
Qui peut déposer ? Est-ce réservé à des utilisateurs autorisés, un institut ou à une communauté scientifique ou ouvert à tous ?
L’entrepôt peut être être lié à un système d’identification.
Que déposer ? L’entrepôt peut-il gérer tous les formats de fichier ? De toutes les disciplines ? Sont-ils limités en taille ? La présence d’un fichier texte d’explication joint de type « lisez-moi » est-elle obligatoire ?
Les données sont parfois organisées en collections, et chaque collection peut avoir un fonctionnement de validation et dépôt différent.
L’attribution d’un identifiant et la description du jeu de données avec des métadonnées
L’entrepôt attribue un identifiant lors du dépôt, dans la plupart des cas un DOI (Digital Object Identifier), et génère des formats de citation. Il est parfois possible d’intégrer un identifiant déjà existant.
L’entrepôts propose de remplir des schémas de métadonnées standardisées, génériques ou spécifiques à un domaine.
Certaines informations peuvent être remplies automatiquement ou choisies dans une liste contrôlée.
La description des données doit suivre les principes FAIR qui devient un standard de la description des données.
La publication des données et le niveau d’ouverture
L’entrepôt gère les droits des utilisateurs et peut proposer :
- une vérification par des curateurs,
- l’attribution d’une licence d’exploitation unique ou au choix,
- plusieurs niveaux de publication : public, public après une période d’embargo, à la demande, restreint à une communauté, après identification par formulaire.
La recherche et la valorisation des données
L’entrepôt possède des outils de recherche et de découverte : moteur de recherche, affichage par filtres ou facettes (type de fichier, thématique, date, pays…).
Le jeux de données peuvent être valorisés : statistiques de consultation, altmetrics, data visualisation, bibliométrie, génération semi-automatique de datapaper…
La conservation, le stockage et l’archivage
L’entrepôt de données peut garantir un stockage sécurisé des données formatées dans des standards et décrites par des métadonnées.
Il peut également être certifié pour garantir la pérennité des jeux de données et être associé à un système d’archivage à long terme.
Le lien avec d’autres systèmes
L’entrepôt peut diffuser ses métadonnées selon plusieurs formats en interaction avec d’autres infrastructures de recherche ou à destination d’agrégateurs ou d’autres systèmes comme :
- flux RSS
- export OAI-PMH
- export Datacite (via le DOI).
L’entrepôt peut également lier les données aux publications associées ou à leurs logiciels de production.
En savoir plus
Libraries, Boston University. n.d. “Selecting a Data Repository.” Accessed March 1, 2019. https://www.bu.edu/data/share/selecting-a-data-repository/.
Sylvie Cocaud, Pascal Aventurier. Les entrepôts de données de recherche. Participer à l’organisation du management des données de la recherche, gestion de contenu et documentation des données. Action Nationale de Formation organisée par les réseaux Renatis et Médici, Jul 2017, Vandoeuvre-les-Nancy, France. pp.63 slides, 2017 : 10.15454/1.4993537478868977E12, hal-01595599