2023
Cairn
Bruno Legendre et al., « Comment gérer les données manquantes ? Imputation multiple par équations chaînées : recommandations et explications pour la pratique clinique », Néphrologie & Thérapeutique, ID : 10670/1.5mzqew
La présence de données manquantes, problème constant en recherche médicale, a plusieurs conséquences : une perte de puissance systématique, associée ou non à une diminution de la représentativité de l’échantillon analysé. Il existe trois types de données manquantes : 1) manquantes complètement au hasard (MCAR - missing completely at random) ; 2) manquantes au hasard (MAR - missing at random) ; 3) manquantes non au hasard (MNAR - missing not at random).L’imputation multiple par équations chaînées permet de prendre en charge correctement les données manquantes sous les hypothèses MCAR et MAR. Elle permet de simuler pour chaque donnée manquante j, un nombre m de valeurs simulées qui semblent plausibles au regard des autres variables. Un effet aléatoire est inclus dans cette simulation pour exprimer l’incertitude. Plusieurs jeux de données sont ainsi créés et analysés individuellement de façon identique. Ensuite, les estimateurs de chaque jeu de données sont regroupés pour obtenir un estimateur global. L’imputation multiple permet d’augmenter la puissance, de corriger certains biais et a l’avantage d’être applicable à de très nombreux types de variables. L’analyse en cas complets ne devrait plus être la norme.L’objectif de ce guide est d’aider le lecteur dans la réalisation d’une analyse avec des données imputées de manière multiple. Nous traitons ici les différents types de données manquantes, les approches historiques pour les gérer, puis nous détaillons la méthode d’imputation multiple par équations chaînées. Nous fournissons un exemple de code pour le package mice de R®.