Description
La confidentialité des bases de données est une préoccupation médicale et réglementaire majeure. Dans le cadre de l’analyse des résultats en recherche clinique, les données ne contiennent plus les identités du patient, mais ces données restent sensibles car on peut potentiellement réidentifier les patients. L’idée est donc de créer des données de synthèse, à la fois fidèles (proches des données initiales) et anonymes (pour lesquelles les données de synthèse ne permettent pas de réidentifier les patients de la base de données). Des données anonymisées sont très peu réglementées et peuvent être cédées ou échangées librement. Pour mesurer les indicateurs de fidélité et d’anonynimisation, nous utilisons [le package synthcity](https://arxiv.org/abs/2301.07573). Ce package permet de synthétiser des données à l’aide d’algorithme tels que CT-GAN (conditional tabular-generative adversarial networks), TVAE (tabular variational auto-encoder). J’ai implémenté l’algorithme Avatar, qui synthétise des données avec une finalité de confidentialité. J’ai testé le package sur des données tabulaires et de survie, relatives à la pharmacologie de la transplantation.