Computational method for single cell ATAC-seq imputation and dimensionality reduction

Li, Zhijian; Berlage, Thomas (Thesis advisor); Filho, Ivan Gesteira Costa (Thesis advisor); Schaub, Michael Thomas (Thesis advisor)

Aachen : RWTH Aachen University (2022)
Doktorarbeit

Dissertation, RWTH Aachen University, 2022

Kurzfassung

Die Zugänglichkeit von Chromatin oder der physikalische Zugang zu chromatinisierter offener DNA spielt eine wesentliche Rolle bei der Kontrolle der zeitlichen und räumlichen Expression von Genen in eukaryontischen Zellen. Der Assay für Transposase-zugängliches Chromatin, gefolgt von Hochdurchsatz- Sequenzierung (ATAC-seq) ist ein sensitives und unkompliziertes Protokoll zur genomweiten Analyseder Chromatinzugänglichkeit. Darüber hinaus ist das Einzelzell-ATAC-seq (scATAC-seq) in Kombination mit der Einzelzell-Sequenzierungstechnologie in der Lage, regulatorische Variationen von Hunderten bis Tausenden von Zellen mit Einzelzellauflösung abzubilden, was den Anwendungsbereich weiter ausbaut. Ein großer Nachteil von scATAC-seq-Daten ist jedoch ihre inhärente Datensparsität. Mit anderen Worten, viele offene Chromatinregionen werden aufgrund des geringen Inputs oder des Verlustes von DNA- Material im scATAC-seq-Experiment nicht erkannt, was eine große Anzahl fehlender Werte in der abgeleiteten Zählmatrix hinterlässt. Ein solches Phänomen ist als "Drop-outs" bekannt und wird auch in anderen Einzelzell-Sequenzierungsdaten beobachtet, wie z. B. scRNA-seq. Obwohl viele Computermethoden vorgeschlagen wurden, um dieses Problem für scRNA-seq basierend auf Datenimputation oder Entrauschung anzugehen, gibt es einen erheblichen Mangel an Bemühun- gen, die Verwendbarkeit dieser Methoden für scATAC-seq-Daten zu bewerten. Darüber hinaus ist die Entwicklung spezifischer Algorithmen zur Imputation oder Entrauschung von scATAC-seq noch wenig erforscht. Ein weiterer kritischer Punkt beim Umgang mit der scATAC-seq-Matrix ist die hohe Datendimensionalität. Da ein Gen oft durch mehrere cis-regulatorische Elemente (CREs) reguliert wird, ist die Anzahl der Merkmale in scATAC-seq (d.h. Peaks) normalerweise eine Größenordnung höher als die Anzahl der Merkmale in scRNA-seq (d.h. Gene). Diese hohe Dimensionalität stellt eine Herausforderung für die Analyse von scATAC-seq dar, wie beispielsweise Clustering und Visualisierung. Daher ist es eine übliche Option, zuerst eine Dimensionsreduktion durchzuführen, bevor die Daten interpretiert werden. Die Standard-Rechenmethoden für scRNA-seq-Daten sind jedoch aufgrund der geringen Zählung der scATAC-seq-Daten für diese Aufgabe potenziell ungeeignet, d.h. es werden maximal 2 Verdauungsereignisse für eine einzelne Zelle in einer bestimmten offenen Chromatinregion erwartet. In dieser Dissertation schlage ich scOpen vor, einen Berechnungsansatz zur gleichzeitigen Quan- tifizierung des offenen Chromatinstatus einzelner Zellen und zur Reduzierung der Dimensionalität, um die oben genannten Probleme für die scATAC-seq-Datenanalyse zu adressieren. Formaler aus gedrückt führt scOpen die Imputation und Rauschunterdrückung einer scATAC-seq-Matrix über eine regularisierte nicht-negative Matrixfaktorisierung (NMF) basierend auf einer Term-Frequenzinversen Dokumentenfrequenz (TF-IDF)-Transformation durch. Ich zeige, dass scOpen mehrere entscheidende nachgelagerte Analyseschritte von scATAC-seq-Daten verbessern kann, wie Clustering, Visual- isierung, cis-regulatorische DNA-Interaktionen und Abgrenzung regulatorischer Merkmale. Darüber hinaus demonstriere ich seine Leistungsfähigkeit, die Zugänglichkeitsdynamik von Chromatin auf groß angelegten scATAC-seq-Daten aus intaktem Nierengewebe der Maus zu analysieren. Schließlich führen wir zusätzliche Analysen durch, um die regulatorischen Programme zu untersuchen, die die Entwicklung von Nierenfibrose vorantreiben. Unsere Analysen werfen ein neues Licht auf die Mecha- nismen der Differenzierung von Myofibroblasten, die Nierenfibrose und chronische Nierenerkrankung (CKD) antreiben. Insgesamt zeigen diese Ergebnisse, dass scOpen ein nützlicher rechnerischer Ansatz für biologischen Studien ist, die Einzelzell-Open-Chromatin-Datenverarbeitung beinhalten.

Einrichtungen

  • Fachgruppe Informatik [120000]
  • Lehr- und Forschungsgebiet Life Science Informatik (Fraunhofer FIT) [122620]

Identifikationsnummern

Downloads