Les entrepôts de données ou Data repositories sont des services en ligne permettant le dépôt, la description, la conservation, la recherche et la diffusion des jeux de données de la recherche.

Il existe plus de 2400 entrepôts où publier des données recensés par Datacite Repository Finder ou Re3data.org.

Les entrepôts peuvent être disciplinaires ou généralistes, institutionnels ou gérés par une infrastructure nationale, internationale ou un consortium de recherche.

 

 

Les critères de choix d’un entrepôt de données

La recommandation

Certains entrepôts sont incontournables dans leurs disciplines : renseignez-vous auprès de vos collègues !

Le financeur de la recherche ou le journal qui publie l’article associé fournit parfois des listes d’entrepôts recommandés.
Vérifiez les conditions du dépôt dans l’entrepôt : elles doivent être conforme au cadre juridique, et ne cédez jamais tous vos droits !

Enfin, le plan de gestion de données du projet qui a permis la création ou le traitement des données peut mentionner dans quel entrepôts les données seront être déposées.

La visibilité

L’entrepôt doit permettre de décrire les données selon les principes FAIR et surtout attribuer un identifiant pérenne (DOI) aux jeux de données.

Le jeu de données doit pouvoir être retrouvé dans Google Scholar, Google Data Search Bêta ou Datacite.

La durabilité

Un entrepôt sera d’autant plus durable qu’il est soutenu par une ou plusieurs institutions publiques.

Les entrepôts certifiés par le Core Trust Seal sont à privilégier.

L’usage et les fonctionnalités

L’entrepôt doit permettre de retrouver facilement les jeux de données et de les citer.

Il peut aussi apporter des fonctionnalités supplémentaires intéressantes selon le type de données : traitements intégrés, data visualisation,…

DataSuds, l’entrepôt dataverse de l’IRD répond à tous ces critères et permet aux scientifiques de l’IRD et à leurs partenaires de déposer, archiver et décrire correctement leurs données, dans le respect des objectifs du développement durable.

Les fonctions d’un entrepôt de données

Le dépôt du jeu de données

Qui peut déposer ? Est-ce réservé à des utilisateurs autorisés, un institut ou à une communauté scientifique ou ouvert à tous ?
L’entrepôt peut être être lié à un système d’identification. 

Que déposer ? L’entrepôt peut-il gérer tous les formats de fichier ? De toutes les disciplines ? Sont-ils limités en taille ? La présence d’un fichier texte d’explication joint de type « lisez-moi » est-elle obligatoire ?

Les données sont parfois organisées en collections, et chaque collection peut avoir un fonctionnement de validation et dépôt différent.

L’attribution d’un identifiant et la description du jeu de données avec des métadonnées

L’entrepôt attribue un identifiant lors du dépôt, dans la plupart des cas un DOI (Digital Object Identifier), et génère des formats de citation. Il est parfois possible d’intégrer un identifiant déjà existant.

L’entrepôts propose de remplir des schémas de métadonnées standardisées, génériques ou spécifiques à un domaine.
Certaines informations peuvent être remplies automatiquement ou choisies dans une liste contrôlée.

La description des données doit suivre les principes FAIR qui devient un standard de la description des données.

La publication des données et le niveau d’ouverture

L’entrepôt gère les droits des utilisateurs et peut proposer :

  • une vérification par des curateurs,
  • l’attribution d’une licence d’exploitation unique ou au choix,
  • plusieurs niveaux de publication : public, public après une période d’embargo, à la demande, restreint à une communauté, après identification par formulaire.
La recherche et la valorisation des données

L’entrepôt possède des outils de recherche et de découverte : moteur de recherche, affichage par filtres ou facettes (type de fichier, thématique, date, pays…).

Le jeux de données peuvent être valorisés : statistiques de consultation, altmetrics, data visualisation, bibliométrie, génération semi-automatique de datapaper…

La conservation, le stockage et l’archivage

L’entrepôt de données peut garantir un stockage sécurisé des données formatées dans des standards et décrites par des métadonnées.

Il peut également être certifié pour garantir la pérennité des jeux de données et être associé à un système d’archivage à long terme.

Le lien avec d’autres systèmes

L’entrepôt peut diffuser ses métadonnées selon plusieurs formats en interaction avec d’autres infrastructures de recherche ou à destination d’agrégateurs ou d’autres systèmes comme :

  • flux RSS
  • export OAI-PMH
  • export Datacite (via le DOI).

L’entrepôt peut également lier les données aux publications associées ou à leurs logiciels de production.

En savoir plus

Libraries, Boston University. n.d. “Selecting a Data Repository.” Accessed March 1, 2019. https://www.bu.edu/data/share/selecting-a-data-repository/.

Sylvie Cocaud, Pascal Aventurier. Les entrepôts de données de recherche. Participer à l’organisation du management des données de la recherche, gestion de contenu et documentation des données. Action Nationale de Formation organisée par les réseaux Renatis et Médici, Jul 2017, Vandoeuvre-les-Nancy, France. pp.63 slides, 2017 : 10.15454/1.4993537478868977E12hal-01595599