Projet Open-CESP pour la diffusion de données ouvertes en épidémiologie
Au cours des dernières décennies, les démarches de science ouverte se sont popularisées au sein des communautés scientifiques. Elles visent notamment à promouvoir l’intégrité scientifique en améliorant la transparence de la recherche, et répondent en cela à des enjeux éthiques. Au cœur des principes de science ouverte figure le partage des données générées par la recherche : on parle de données ouvertes. La diffusion de données ouvertes est déjà une réalité dans certaines disciplines : chimie, astronomie, biologie, etc. Dans d’autres, elle se heurte à des obstacles en lien avec des exigences strictes de confidentialité des données. C’est particulièrement le cas en épidémiologie, où les données recueillies sont par nature sensibles puisqu’elles se rapportent à des personnes.
Une réponse possible à cette injonction paradoxale de partage et de confidentialité des données épidémiologiques est celle de l’anonymisation, qui est l’objet d’une littérature conséquente depuis plus de trente ans. L’idée est d’altérer directement ou indirectement les données originales recueillies par les chercheurs, de façon à garantir leur confidentialité tout en préservant le maximum de leur utilité statistique. Les méthodes d’anonymisation usuelles et les méthodes « sémantiques », plus robustes formellement, ont des limites reconnues. En réaction, une approche alternative émerge actuellement : celle des données synthétiques. Les données synthétiques sont des données fictives, générées à partir de données originales par un processus dit de « synthèse », visant à reproduire fidèlement leurs propriétés statistiques. Le processus de synthèse est conçu de sorte à empêcher toute mise en relation d’une observation synthétique (fictive) avec un individu réel, ce qui fournit des garanties solides de confidentialité.
Le Centre de recherche en Épidémiologie et Santé des Populations (CESP) explore depuis 2022 la voie des données synthétiques dans le cadre du projet Open-CESP. Les objectifs, à terme, sont de publier des jeux de données synthétiques obtenus à partir de données épidémiologiques, notamment celles recueillies par le CESP. Les données synthétiques seront librement accessibles dans une démarche de science ouverte. Les éventuels résultats prometteurs obtenus par des équipes tierces en analysant ces données pourront être confirmés sur les jeux de données originaux, accessibles de façon plus encadrée.
Sur le plan technique, l’Open-CESP s’appuie sur une plateforme web sur laquelle plusieurs jeux de données synthétiques sont déjà disponibles. La synthèse elle-même est effectuée par les équipes du CESP selon une approche non paramétrique ayant fait preuve de garanties de confidentialité élevées, évaluées selon des approches formelles et empiriques. Une thèse de doctorat en biostatistiques et science des données est actuellement en préparation, visant à évaluer de façon fine le profil risque-utilité de différentes méthodes de synthèse de données. À l’avenir, cela pourrait conduire à une synthèse de données répondant aux mêmes exigences de confidentialité, mais associée à un niveau d’utilité statistique encore supérieur. L’extension de ces méthodes à des données non tabulaires (signaux physiologiques, graphes, …) et à des applications d’apprentissage automatique est également à l’étude en partenariat avec le Centre Borelli. En somme, l’Open-CESP vise à approfondir cette approche dans toutes ses dimensions, de façon à répondre aux nombreux enjeux éthiques et scientifiques relatifs au partage de données notamment épidémiologiques.
Rémy Chapelle, École Doctorale de Santé Publique, Centre de recherche en Epidémiologie et Santé des Populations