Dans un projet de recherche, la collecte et le traitement des données constituent des étapes majeures. Leur bon déroulement est un facteur essentiel pour la réussite finale du projet.
De plus, de nombreux modèles de Plan de Gestion de Données demandent de préciser concrètement comment la question de la qualité des données va être prise en compte, au niveau opérationnel.
Sommaire
Pourquoi mettre en place une Démarche Qualité pour les données de la recherche ?
- pour être mieux organisé, de façon à :
1) prévenir des incidents éventuels comme des données inexploitables, des pertes de données, des résultats erronés dont la cause est à rechercher dans les données brutes, …
2) réduire l’impact potentiel d’incidents inévitables ; - rationaliser l’utilisation des ressources et du temps disponibles ;
- renforcer la confiance dans les résultats et les conclusions scientifiques du projet ;
- capitaliser et pérenniser les savoir-faire ;
- communiquer sur sa démarche Qualité, la valoriser auprès des partenaires et des bailleurs.
Comment procéder ?
Des recommandations générales sont applicables à la plupart des projets et types des données. Sans aller jusqu’à une possible certification, le référentiel ISO-9001 peut servir de ligne directrice : d’une part il est défini sur le plan organisationnel ; d’autre part il s’applique à tous les types d’activités, tous types de structures et à toutes les échelles.
La Démarche Qualité sera vue avant tout comme un outil utile, qui vit quotidiennement au service d’un projet, et non comme un carcan administratif figé ou encore comme un outil dédié au contrôle. Elle sera menée de façon pragmatique, flexible et transparente afin de susciter l’adhésion de l’équipe projet.
- Définir et prioriser les objectifs à atteindre en termes de qualité de collecte et de traitement des données, autant que possible avant que ces opérations débutent.
Penser aux chercheurs – qui vont exploiter ou analyser les données – en tant que « clients» aidera à compléter cette première étape clé : de quoi ont-ils besoin ? quels sont les enjeux ? que doit-on absolument éviter ?
Cette étape peut s’appuyer sur l’anticipation des principaux risques portant sur les données ainsi que leur processus de collecte et de traitement.
Une attention particulière sera portée aux données dont la collecte ne pourra être répétée, et qui seront donc définitivement perdues en cas d’incident.
A - Concevoir et développer des outils Qualité appropriés au contexte, qui vont aider à atteindre ces objectifs ou/et les maintenir au niveau souhaité. Voici quelques possibilités :
- Concevoir et développer des outils pratiques qui vont, en amont, faciliter certaines opérations et réduire les risques d’erreur. Quelques exemples :
1) créer des « check-lists » ;
2) prévoir des dispositifs d’assistance à la saisie ou/et d’aide contextuelle ;
3) prévenir l’enregistrement de données anormales ou alerter les intervenants en temps réel ;
4) déployer un agenda capable d’envoyer des rappels. - Concevoir et développer des outils afin d’automatiser la vérification des données collectées tout au long du projet. Il s’agit d’être capable de détecter les données
1) manquantes ;
2) anormales, telles que des valeurs physiquement impossibles ;
3) incohérentes, par croisement ou corrélation entre différentes sources de données.
L’objectif est de pouvoir réagir si nécessaire, sans attendre qu’un problème prenne davantage d’ampleur. Idéalement et en cas de processus critique, l’outil devrait pouvoir émettre automatiquement des messages d’alerte, par email ou par SMS. L’outil peut aussi vérifier qu’un destinataire a bien lu une alerte, lui permettre de saisir une réponse.
Lorsque les ressources en développement informatique sont limitées, il est possible de créer des outils de vérification simples à l’aide de logiciels tels que LibreOffice « Calc » ou « Base » (gratuits), Excel, des logiciels statistiques tels que R (gratuit) ou Stata. Il s’agit d’appliquer séquentiellement divers critères de vérification ; des listings de données à investiguer ou à corriger peuvent alors être générés. - Renforcer la traçabilité au niveau des processus de collecte et de traitement de données, pour être en mesure d’analyser pleinement le contexte et les causes lorsqu’un incident survient. On peut, par exemple, conserver des métadonnées supplémentaires ou encore enregistrer l’historique des changements dans les données : dates, heures, motifs, opérateurs, sauvegarde des valeurs précédentes ; on peut aussi prévenir la saisie ou la modification de données en dehors d’un cadre contrôlé.
- Rédiger les versions initiales de procédures, modes opératoires, guides techniques ou pratiques relatifs aux processus de collecte et au traitement des données. Il n’est pas nécessaire de couvrir systématiquement l’ensemble des opérations. On sélectionnera en priorité les processus les plus importants ou présentant les plus grands risques identifiés. Ces documentations serviront de référence à l’équipe, et de support de formation aux nouveaux membres de l’équipe.
- Concevoir des indicateurs Qualité pertinents qui vont permettre de suivre et de quantifier le bon déroulement des processus importants, identifiés à partir des objectifs, tout au long du projet. Ces indicateurs synthétiques seront calculés par agrégation des données et métadonnées collectées. Pour chaque indicateur, on définira un mode de calcul (numérateur, dénominateur), les intervenants qui vont le produire et à quelle fréquence, et enfin les objectifs à atteindre ou à maintenir. Les outils de vérification automatique des données sont un moyen de calculer certains indicateurs.
Quelques exemples génériques : un taux maximum (objectif < X%) de données manquantes ou anormales ; un taux minimum de données vérifiées chaque mois ; un taux maximum d’erreur dans la saisie des données ; la proportion de données dont la sauvegarde a été vérifiée,…
- Concevoir et développer des outils pratiques qui vont, en amont, faciliter certaines opérations et réduire les risques d’erreur. Quelques exemples :
- Effectuer un suivi régulier (hebdomadaire, mensuel, …), dont la fréquence dépendra des caractéristiques du projet, de la présence de « points critiques », en particulier s’il est crucial de remédier rapidement à certains dysfonctionnements potentiels définis au préalable dans les objectifs (cf. étape 1).
Différentes méthodes peuvent être adoptées et combinées :- S’assurer que les outils de vérification des données sont opérationnels et utilisés à bon escient, que leurs résultats sont consultés et pris en compte.
- Collecter, documenter et dénombrer les incidents qui sont survenus ; en analyser le contexte, puis en déduire les causes primaires (root causes). Travailler avec les acteurs afin d’établir des plans d’action qui vont aider à prévenir leur ré-occurrence ; en suivre la réalisation. Les indicateurs et autres outils d’alerte sont là pour aider à détecter les incidents et mesurer leur fréquence.
- Calculer et mettre à jour les indicateurs Qualité à partir des données collectées, puis les rassembler dans un tableau, analyser les résultats et enfin en tirer un bilan.
- Réaliser un audit interne (procéder à un ensemble de vérifications) portant sur certains points à approfondir. Il peut s’agir
1) d’étudier en détails un échantillon de données, sélectionnées au hasard ou encore des premières données collectées dans une nouvelle phase du projet ;
2) de vérifier le respect des consignes pour certains processus, et de discuter de leur adaptation éventuelle. - Organiser un sondage ou des réunions pour recueillir les retours des utilisateurs des données, lorsque leur exploitation a débuté.
- Communiquer, échanger : se réunir régulièrement avec les acteurs impliqués afin de présenter l’état de la démarche Qualité (indicateurs, incidents, résultats de sondage…), en discuter et valider de nouvelles actions préventives or correctives. Résumer également le bilan des actions passées et les clôturer.
- Quelques exemples d’actions correctives et préventives en fonction des situations rencontrées : modifier un processus (la façon dont une tache est réalisée) ; améliorer des critères de vérification automatique des données ; créer un nouvel outil de mesure/vérification/alerte ; organiser une formation ou un rappel de formation ; améliorer une documentation, ajouter des précisions ou la simplifier en retirant des étapes inutiles ; concevoir un nouvel indicateur ; modifier l’objectif à atteindre pour un indicateur ; améliorer l’ergonomie d’un formulaire de collecte de données ; recalibrer, réparer ou remplacer un instrument; (ré-)allouer des ressources.
Pour aller plus loin :
Eva Giesen. Démarche qualité et norme ISO 9001 : une culture managériale appliquée à la recherche. IRD Éditions, 2013.
(ebook PDF librement accessible sur l’archive ouverte Horizon et chez l’éditeur)
A propos de l’auteur de cette page : Luc Decker était ingénieur de recherche à l’IRD, administrateur des données de la Recherche au service IST de la MCST de 2019 à 2024. Spécialisé en informatique scientifique et en mathématiques appliquées, il a obtenu un DU « Qualité pour le Laboratoire de recherche » (Université Paris 6). Durant 12 ans, il a été responsable et expert Qualité pour la plateforme de recherche de l’UMI PHPT (recherche clinique), constituée de 50 à 100 personnels techniques et certifiée ISO-9001.
Contact : data@ird.fr