Die bioinformatische Analyse von bakteriellen Gesamtgenomdaten
DOI: https://doi.org/10.47184/td.2022.03.04Für die Auswertung der Daten, die durch die Hochdurchsatzsequenzierung von Bakterien oder Viren gewonnen werden, benötigt man spezifische bioinformatische Softwarelösungen, kompetentes Personal, eine passende IT-Infrastruktur und ein Konzept für die Datenspeicherung und -sicherheit. Am Forschungszentrum Borstel werden Next-Generation-Sequencing-Verfahren für die hochauflösende Charakterisierung von Erregergenomen und Transkriptomen aus dem Mycobacterium tuberculosis Komplex eingesetzt.
Schlüsselwörter: NGS, MTBK, Cloud, Qualitätskontrolle, MLST-Schema, Resistenzvorhersage
Seit einigen Jahren wird die Hochdurchsatzsequenzierung (engl.: next generation sequencing; NGS) vermehrt zur detaillierten Charakterisierung von bakteriellen oder viralen Pathogenen eigesetzt. Ein eindrucksvolles Beispiel ist die Nachverfolgung verschiedener Varianten von Sars-CoV-2, die nur durch die weltweit vorgenommene Sequenzierung des viralen Genoms möglich wurde. Die durch die NGS-Verfahren erzeugten Daten bestehen aus Millionen kurzer Sequenzabschnitte, sogenannter Reads. Bei der Auswertung muss aus diesen Sequenzabschnitten das Erregergenom rekonstruiert werden, wofür spezifische, bioinformatische Softwarelösungen notwendig sind.
Generelle Anforderungen
Für die Implementierung einer bioinformatischen Analyse sind die Kompetenz des Personals, die Auswahl geeigneter Software, die Bereitstellung der nötigen IT-Infrastruktur und ein grundlegendes Konzept zur Speicherung und Sicherheit der Daten entscheidend (Abb. 1).
Sowohl die Verfahren der Hochdurchsatzsequenzierung als auch die Methoden zur Analyse der resultierenden Daten sind komplexe, mehrstufige Prozesse. Die erfolgreiche und sichere Anwendung dieser Technologie erfordert darum zumindest ein Grundverständnis der Prinzipien bei den beteiligten Personen. Die Anforderungen an Kenntnisse und Fähigkeiten steigen darüber hinaus proportional dazu an, wie viel von der Softwarelösung, IT-Infrastruktur und Datensicherung selbst eingerichtet werden soll. In den meisten Fällen ist vermutlich eine gezielte Weiterbildung des Personals zusammen mit einer möglichst anwenderfreundlichen Softwarelösung eine gute Option.
Im Bereich der Software gibt es neben kommerziellen Programmen auch Open-Source-Anwendungen sowie Cloud-basierte Lösungen, zum Beispiel in Form von Webservices. Hierbei decken die einzelnen Programme meist nur einen Teil der gewünschten Funktionalität ab und erfordern häufig das Betriebssystem Linux, welches beim Anwender eine gewisse Programmieraffinität voraussetzt. Generell sind ein aktiver Support und eine klare und dokumentierte Versionierung wichtige Kriterien bei der Auswahl von Programmen.
Die nötigen Ausgaben für die IT-Infrastruktur werden oft unterschätzt; sie können in derselben Dimension wie die Ausgaben für die NGS-Sequenzierer liegen. Dabei muss insbesondere beachtet werden, dass mit einer Erweiterung des Durchsatzes in der Sequenzierung auch die Kapazität der IT-Infrastruktur mitwachsen muss. Insofern ist es sinnvoll, eine flexible und leicht erweiterbare Lösung zu wählen. Neben Rechnern mit ausreichender Leistung für die Analyse sind auch Speichersysteme essenziell. Ein Datensatz für einen bakteriellen Erreger, zum Beispiel den Erreger für die Tuberkulose (Genomlänge 4,4 Millionen Basenpaare), liegt etwa in der Größenordnung von 200–400 Mb, abhängig von der Genomlänge und der gewünschten Sequenziertiefe. Zusätzlich entstehen während der mehrstufigen Analyse weitere Dateien in der gleichen Größenordnung. Ein womöglich kritischer Engpass ist die Internetverbindung beziehungsweise die Bandbreite, insbesondere bei Nutzung einer Cloud-basierten Analyse.
In der Planungsphase sollte bereits möglichst früh ein Konzept für den konsistenten Umgang mit den erzeugten Daten erstellt werden. Dies betrifft insbesondere die dauerhafte und ausfallsichere Datenspeicherung, aber auch Maßnahmen zur Sicherung der Daten gegen unberechtigten Zugriff. Zugleich ist eine durchgehende Dokumentation der Datengenerierung von der Vorbereitung über die Sequenzierung bis zur Datenanalyse wesentlich. Die beteiligten Prozesse können hier oftmals in bestehenden Laborinformations- und Management-Systemen nicht oder nicht vollständig abgebildet werden.
Grundprinzipien der Analyse
Die Auswertung von NGS-Daten zur Charakterisierung bakterieller Erreger kann grundsätzlich in verschiedene funktionale Module eingeteilt werden (Abb. 2).
Zu Beginn sollte stets eine Analyse der Qualität der Sequenzdaten selber stehen; nur Datensätze, die den gewünschten Qualitätskriterien entsprechen, sollten der primären Datenanalyse zugeführt werden. Weitere Module können dann eine Ableitung des Phänotyps sein sowie die Erstellung eines eindeutigen genetischen Fingerabdrucks oder ein Vergleich mit genomischen Datensets anderer Isolate des gleichen Erregers zur Ähnlichkeitsanalyse. Während eine umfassende Auswertung der Sequenzdaten nach wie vor die Kombination mehrerer Programme (Analysepipeline) und bioinformatisch geschultes Personal erfordert, gibt es mittlerweile in Teilen automatisierte Lösungen für spezifische Anwendungen. Hierzu gehören die Resistenzvorhersage anhand eines Kataloges Resistenz-assoziierter genomischer Marker sowie die Genotypisierung anhand eines genomweiten Multi-Locus-Sequenztyp(engl.: multi-locus sequence typing; MLST)-Schemas.
Die Qualitätskontrolle der Sequenzdaten ist unabhängig vom betrachteten Erreger und überlappt teilweise mit der primären Datenanalyse. Je nach Qualität der Sequenzdaten und gewählter Strategie zur Anordnung der Reads werden die Daten bereits vorverarbeitet, etwa durch das Abschneiden (Trimmen) von Abschnitten schlechter Sequenzierqualität oder von Adaptersequenzen. An diesem Punkt können Datensätze aufgrund zu niedriger Sequenziergenauigkeit oder zu hoher Kontamination ausgeschlossen werden oder aber, basierend auf den Qualitätswerten, Parameter für die Primäranalyse entsprechend angepasst werden. Je nach gewählter Strategie zur Rekonstruktion des Genoms – die Anordnung der Reads an einem Referenzgenom oder die De-novo-Assemblierung – sollten in der Primäranalyse ebenfalls Qualitätsparameter erhoben werden. Bei der Anordnung an einem Referenzgenom ist ein wichtiger Richtwert zum Beispiel die Abdeckung des Genoms mit den ausgerichteten Reads, also die Frage, wie viele Positionen des Referenzgenoms tatsächlich von Sequenzfragmenten abgedeckt werden.
Während für die Primäranalyse zumeist nur einzelne Parameter der Software für den Einsatz bei unterschiedlichen Erregern angepasst werden müssen, erfordert die Vorhersage des Phänotyps und die Genotypisierung eine spezifische Anpassung der verwendeten Softwarelösungen für den jeweiligen Erreger. Dies beinhaltet beispielsweise den genutzten Katalog an Resistenz- oder Virulenz-assoziierten genetischen Markern oder das zur Genotypisierung genutzte genomweite MLST-Schema.
Ein kritischer Bestandteil der Implementierung ist neben der eigentlichen Funktionalität die umfassende und nachvollziehbare Dokumentation der Datenanalyse. Diese sollte die genutzten Programme und eingestellten Parameter ebenso umfassen wie die während der Analyse bestimmten Qualitätswerte. Insbesondere Open-Source-Anwendungen lassen sich meist dahingehend konfigurieren, dass parallel zur Datenanalyse eine sogenannte log-Datei erstellt wird, die den Ablauf dokumentiert.
Anwendung in der Charakterisierung von Tuberkuloseisolaten
Der Einsatz der Gesamtgenomsequenzierung zur Analyse der Tuberkuloseerreger, die aus dem Mycobacterium tuberculosis Komplex (MTBK) stammen, ist mittlerweile sowohl zur Resistenzvorhersage als auch für die Überwachung von Übertragungsketten fest etabliert. Das Genom der Erreger ist extrem stabil und erlaubt eine verhältnismäßig einfache primäre Datenanalyse durch Anordnung der Reads an dem Referenzgenom des Stammes M. tuberculosis H37Rv. Hierdurch wurden Verfahren zur genombasierten Charakterisierung der Tuberkulose bereits sehr früh implementiert und entsprechende Leitlinien veröffentlicht [1].
Zahlreiche Studien haben die Verlässlichkeit und Genauigkeit der Resistenzvorhersage anhand genomischer Daten gezeigt [2, 3]. Ein zentraler Baustein ist hier neben einer korrekt implementierten primären Analysepipeline zur Detektion genomischer Varianz der genutzte Katalog Resistenz-assoziierter Mutationen. Hier wurden in den letzten Jahren insbesondere durch das CRyPTIC-Konsortium bedeutende Fortschritte erzielt und in Zusammenarbeit mit der WHO ein umfassender Katalog erstellt [4].
Es gibt zahlreiche Softwarelösungen mit einer weitgehend automatisierten Resistenzvorhersage [5]. Wichtige Auswahlkriterien für den Anwender sind hierbei der genutzte Katalog, die Art der Implementierung (zum Beispiel als Webservice oder lokale Anwendung) sowie der von den Programmen erstellte Report. Generell ist die Ableitung eines umfassenden Resistenzprofiles jedoch weiterhin hochkomplex, da man für eine belastbare Aussage die Qualität der Sequenzdaten, die Vollständigkeit der Datenbasis resistenzvermittelnder Mutationen und Heteroresistenzen, in denen nur ein Teil der Bakterienpopulation eine Resistenzmutation trägt, berücksichtigen muss.
Die Übertragungsanalyse basierend auf genomischen Daten ist ebenfalls sehr gut untersucht und wichtige Grenzwerte dafür, ab welchem Ähnlichkeitsgrad zwei Isolate einer Übertragungskette zugeordnet werden, sind etabliert. Ebenso lässt sich anhand des Ähnlichkeitsgrades die wahrscheinliche zeitliche Dimension der Übertragung bestimmen [6, 7]. Vergleichende Untersuchungen konnten zeigen, dass nach bester Praxis implementierte Analysepipelines äquivalente Ergebnisse liefern [8]. Dennoch gibt es nur eine sehr begrenzte Auswahl an vorkonfigurierten und umfassenden Softwarelösungen, insbesondere für die SNP-basierte Ähnlichkeitsanalyse. Bestehende Lösungen sind oft nicht transferierbare In-house-Implementierungen. Dies ist unter anderem der Tatsache geschuldet, dass der Aufbau relativ komplex ist und dass es schwierig ist, eine flexibel erweiterbare Ähnlichkeitsanalyse zum Beispiel für eine kontinuierliche Überwachung zu etablieren. Eine gute Option stellt hier eine Genotypisierung mittels Alleltypbestimmung anhand eines tuberkulosespezifischen genomweiten MLST-Schemas dar [9].