27 mai 2020
Open Access , http://purl.org/eprint/accessRights/OpenAccess
Philippine Garret, « Approches bioinformatiques innovantes pour l’analyse de données de séquençage à haut-débit appliquées à l’étude de pathologies génétiques rares avec anomalies du développement », Theses.fr, ID : 10670/1.o4hk5e
L’avènement du séquençage haut débit d’exome (SHD-E) en diagnostic et en recherche ces dernières années a conduit à l’identification des bases génétiques de nombreuses pathologies mendéliennes, permettant de résoudre de nombreuses situations d’errance diagnostique. Néanmoins, l’analyse des données de SHD-E permet uniquement d’identifier des variations pathogènes ou probablement pathogènes dans 30 à 45 % des situations sans diagnostic. En effet, certaines limites existent, tant au niveau clinique, moléculaire et bioinformatique. L’évolution constante des connaissances cliniques, du nombre de nouveaux gènes impliqués en pathologie humaine, et des corrélations clinico-biologique a un impact important sur l’analyse des données, entraînant une amélioration progressive de la recherche diagnostique. Des limites techniques inhérentes à la technologie, avec en particulier des régions non couvertes, existent, mais se sont également significativement réduites ces dernières années. Enfin, au-delà de l’analyse de SNV et de CNV, d’autres anomalies génétiques peuvent être responsables de maladies rares, nécessitant un développement bioinformatique pour optimiser les résultats. Bien que le séquençage à haut débit du génome permette de résoudre des observations, en particulier en cas de variations dans les régions non codantes ou les variants de structure, il existe encore de nombreuses informations à extraire et à exploiter à partir des données de SHD-E.L’objectif de cette thèse a donc été de participer à l’amélioration des approches bioinformatiques d’analyse de données de SHD-E pour l’identification de nouveaux gènes ou mécanismes moléculaires impliqués dans des maladies génétiques rares afin de réduire l’errance diagnostique des patients.Plusieurs stratégies ont ainsi été mises en place. La première stratégie a consisté en une réanalyse recherche de données de 80 patients ayant bénéficié d’un SHD-E au laboratoire CERBA (thèse CIFRE) dont la lecture diagnostique était négative. Elle a conduit à la mise en évidence deux nouveaux gènes candidats dans la déficience intellectuelle syndromique, dont le gène OTUD7A (article 1). La deuxième stratégie a consisté en la mise au point d’un pipeline bioinformatique pour extraire les données du génome mitochondrial à partir des données de SHD-E. L’ADN mitochondrial n’est pas ciblé par les kits de capture d’exome mais peut être extrait des données capturées indirectement rendant son analyse possible à partir de données de SHD-E préexistantes. A partir de la collection GAD d’exomes de patients sans diagnostic, deux variations causales ont été identifiées chez deux individus atteints de troubles neuro-développementaux sur 928 personnes étudiées, et ainsi résoudre une errance diagnostique dans 0,2 % des patients sans diagnostic (article 2). La troisième stratégie a consisté en la mise en place d’un pipeline bioinformatique d’identification des éléments mobiles au sein des données d’exome, étant attendu qu’environ 0,3 % des variations pathogènes du génome humain ont pour origine l’insertion de novo d’un élément mobile. A partir de la collection GAD d’exomes de 3322 patients sans diagnostic, cette étape a permis d’identifier deux cas en lien avec l’insertion d’un élément Alu au sein d’un exon du gène FERMT1 et du gène GRIN2B (article 3 en cours d’écriture).Cette thèse a permis de repousser certaines limites de la technologie d’exome. D’autres perspectives existent, et sont explorées par l’équipe, en lien avec le projet Européen Solve-RD.