Approches bioinformatiques innovantes pour l’analyse de données de séquençage à haut-débit appliquées à l’étude de pathologies génétiques rares avec anomalies du développement Innovative bioinformatics approaches for the analysis of high-throughput sequencing data applied to the study of rare genetic pathologies with developmental abnormalities Fr En

Fiche du document

Date

27 mai 2020

Périmètre
Langue
Identifiant
Source

Theses.fr

Collection

Theses.fr

Organisation

ABES

Licences

Open Access , http://purl.org/eprint/accessRights/OpenAccess


Mots-clés

Bioinformatique Exome Maladies génétiques rares Bioinformatics Exome Rare genetic diseases 571.6


Citer ce document

Philippine Garret, « Approches bioinformatiques innovantes pour l’analyse de données de séquençage à haut-débit appliquées à l’étude de pathologies génétiques rares avec anomalies du développement », Theses.fr, ID : 10670/1.o4hk5e


Métriques


Partage / Export

Résumé Fr En

L’avènement du séquençage haut débit d’exome (SHD-E) en diagnostic et en recherche ces dernières années a conduit à l’identification des bases génétiques de nombreuses pathologies mendéliennes, permettant de résoudre de nombreuses situations d’errance diagnostique. Néanmoins, l’analyse des données de SHD-E permet uniquement d’identifier des variations pathogènes ou probablement pathogènes dans 30 à 45 % des situations sans diagnostic. En effet, certaines limites existent, tant au niveau clinique, moléculaire et bioinformatique. L’évolution constante des connaissances cliniques, du nombre de nouveaux gènes impliqués en pathologie humaine, et des corrélations clinico-biologique a un impact important sur l’analyse des données, entraînant une amélioration progressive de la recherche diagnostique. Des limites techniques inhérentes à la technologie, avec en particulier des régions non couvertes, existent, mais se sont également significativement réduites ces dernières années. Enfin, au-delà de l’analyse de SNV et de CNV, d’autres anomalies génétiques peuvent être responsables de maladies rares, nécessitant un développement bioinformatique pour optimiser les résultats. Bien que le séquençage à haut débit du génome permette de résoudre des observations, en particulier en cas de variations dans les régions non codantes ou les variants de structure, il existe encore de nombreuses informations à extraire et à exploiter à partir des données de SHD-E.L’objectif de cette thèse a donc été de participer à l’amélioration des approches bioinformatiques d’analyse de données de SHD-E pour l’identification de nouveaux gènes ou mécanismes moléculaires impliqués dans des maladies génétiques rares afin de réduire l’errance diagnostique des patients.Plusieurs stratégies ont ainsi été mises en place. La première stratégie a consisté en une réanalyse recherche de données de 80 patients ayant bénéficié d’un SHD-E au laboratoire CERBA (thèse CIFRE) dont la lecture diagnostique était négative. Elle a conduit à la mise en évidence deux nouveaux gènes candidats dans la déficience intellectuelle syndromique, dont le gène OTUD7A (article 1). La deuxième stratégie a consisté en la mise au point d’un pipeline bioinformatique pour extraire les données du génome mitochondrial à partir des données de SHD-E. L’ADN mitochondrial n’est pas ciblé par les kits de capture d’exome mais peut être extrait des données capturées indirectement rendant son analyse possible à partir de données de SHD-E préexistantes. A partir de la collection GAD d’exomes de patients sans diagnostic, deux variations causales ont été identifiées chez deux individus atteints de troubles neuro-développementaux sur 928 personnes étudiées, et ainsi résoudre une errance diagnostique dans 0,2 % des patients sans diagnostic (article 2). La troisième stratégie a consisté en la mise en place d’un pipeline bioinformatique d’identification des éléments mobiles au sein des données d’exome, étant attendu qu’environ 0,3 % des variations pathogènes du génome humain ont pour origine l’insertion de novo d’un élément mobile. A partir de la collection GAD d’exomes de 3322 patients sans diagnostic, cette étape a permis d’identifier deux cas en lien avec l’insertion d’un élément Alu au sein d’un exon du gène FERMT1 et du gène GRIN2B (article 3 en cours d’écriture).Cette thèse a permis de repousser certaines limites de la technologie d’exome. D’autres perspectives existent, et sont explorées par l’équipe, en lien avec le projet Européen Solve-RD.

In the last years, the advent of exome sequencing (ES) in diagnosis and in research led to the identification of the genetic bases of many Mendelian disorders, allowing many diagnostic wavering cases to be solved. Nevertheless, ES data analysis only leads to the identification of pathogenic or likely pathogenic variants in 30 to 45 % of the undiagnosed cases. Indeed, some limits exist, both at clinical, molecular and bioinformatic levels. The constant evolution of the clinical knowledge, of the number of genes involved in human diseases, and of the clinical-biological correlations, has a significant impact on data analysis, leading to a progressive improvement in diagnostic research. Limits of the current technologies, especially not covered regions, exist, but have been significantly reduced in the recent years. Although genome sequencing will solve some undiagnosed cases, especially in case of non-coding or structural variants, there is still a lot of information to be extracted and analyzed from ES data. Finally, beyond SNV and CNV analyzes, other genetic events can be involved in rare disorders, requiring a bioinformatic development to optimize results.The aim of the project was therefore to improve bioinformatic approaches of ES data analysis in order to identify new molecular mechanisms involved in rare genetic disorders and reduce diagnostic wavering.Several strategies were established. The first one consisted in reanalysing ES data from 80 undiagnosed patients, who were sequenced by the Laboratoire CERBA (CIFRE thesis). It led to the identification of 2 new candidate genes involved in ID, especially OTUD7A gene (article 1). The second strategy was the development of a bioinformatic pipeline in order to extract mitochondrial DNA data from ES data. The mitochondrial genome is not targeted by exome capture kits but can be extracted from off-target data, giving the opportunity to analyze it from preexisting ES data. From the GAD exomes cohort of undiagnosed patients, 2 causal variations were identified in 2 individuals out of 928, affected with neuro-developmental disorder. It thus solved the diagnostic wavering in 0.2 % of patients without diagnosis (article 2). The third strategy consisted in the development of a bioinformatic pipeline to identify mobile elements insertion within ES data, with the expectation that about 0.03 % of the pathogenic variants originate from de novo mobile element insertion. From the GAD exomes cohort of 3322 undiagnosed patients, this step led to the identification of two Alu element insertions in FERMT1 and GRIN2B gene exons (article 3, in process).This PhD permitted to push out some ES limits. Other perspectives exist, and are explored by the GAD team, in connection with the European Solve-RD project.

document thumbnail

Par les mêmes auteurs

Sur les mêmes sujets

Exporter en