Analyse von Mycobacterium-tuberculosis-Gesamtgenomdaten: Schritt für Schritt zum Resistenzprofil
DOI: https://doi.org/10.47184/td.2023.03.03Die Resistenzbestimmung bei Bakterien-Stämmen aus dem Mycobacterium-tuberculosis-Komplex dauert mithilfe einer phänotypischen Resistenztestung aufgrund der langen Generationszeit der Erreger mehrere Wochen. Um Resistenzen zeitnah und zuverlässig zu bestimmen, empfiehlt die World Health Organization eine Genomsequenzierung. Im Folgenden werden die Schritte der Datenanalyse mit einem kostenlosen Software-Programm beschrieben.
Schlüsselwörter: NGS, MTBseq, Qualitätskontrolle, Mapping, Detektion, Annotation
Die Tuberkulose ist mit 10 Millionen neuen Fällen und 1,5 Millionen Toten pro Jahr noch immer ein weltweites Problem. Insbesondere der Anstieg von resistenten Tuberkulosen (etwa 500.000 in 2022) erschwert die Eindämmung und Kontrolle [1]. Der Nachweis von Resistenzen wird üblicherweise mithilfe der phänotypischen Antibiotika-Empfindlichkeitstestung (engl.: phenotypic drug susceptibility test; pDST, Abb. 1) durchgeführt, bei der das Wachstum der Erreger auf Antibiotika-angereicherten Nährböden geprüft wird.
Dieses Verfahren dauert durch das langsame Wachstum der Tuberkuloseerreger (Generationszeit von 24 Stunden) jedoch bis zu acht Wochen und ist für einige Medikamente nicht zuverlässig reproduzierbar [2]. In dieser Zeit erhalten die Patient:innen eine Standardmedikation, die im Zweifel falsch sein kann. Dann werden weitere Übertragungen und auch die Entstehung weiterer Resistenzen begünstigt. Daher muss die Diagnostik weiter verbessert werden, um resistente Fälle nicht nur zu identifizieren, sondern detailliert zu charakterisieren und für die betroffenen Patient:innen schnellstmöglich ein individualisiertes Therapieregimen zu erstellen.
Resistenzbestimmung
Die Stämme des Mycobacteriumtuberculosis-Komplexes (Mtbk) sind sehr klonal und Resistenzen entstehen hauptsächlich durch dauerhafte Veränderungen im Genom der Erreger. Dadurch kann der Nachweis von Resistenz-vermittelnden Mutationen, zum Beispiel der Einzelnukleotidaustausch (engl.: single nucleotide polymorphism; SNP) oder größere Veränderungen wie Insertionen und Deletionen (Indels) als „rule in“-Test der phänotypischen Resistenz verwendet werden. Die Genomsequenzierung der Erreger stellt daher seit einigen Jahren ein bewährtes Mittel dar, um zeitnah und zuverlässig Resistenzen gegenüber allen gängigen Antibiotika zu bestimmen. Sie wird mittlerweile auch von der Weltgesundheitsorganisation (WHO) empfohlen [3]. Ob eine Mutation eine Resistenz zur Folge hat, ist nicht immer eindeutig und lange Zeit fehlte es an einem einheitlichen, validierten Katalog, der die häufigsten Mutationen kategorisiert (Abb. 1). Ein solcher Katalog wurde 2021 von der WHO veröffentlich und basiert auf der Analyse von 38.000 Isolaten mit gepaarten Gesamtgenomdaten und phänotypischer DST für 13 Antibiotika [4]. Dieser Katalog hat allerdings auch Schwächen, da die Datenlage für die neueren Antibiotika, zum Beispiel Bedaquiline, nicht ausreichend war. Aus denselben Gründen ist die Kategorisierung seltener Varianten ebenfalls erschwert. Außerdem sind in dem Katalog die Koexistenz von Varianten, die sich eventuell gegenseitig beeinflussen, oder Mtbk-linienspezifische Effekte nicht berücksichtigt.
Es wird deutlich, dass bereits die Interpretation der Mutationen durchaus komplex sein kann. Zuvor müssen die Mutationen allerdings auch noch valide aus den Sequenzdaten detektiert werden. Dies ist nur mithilfe von bioinformatischen Analysepipelines möglich, für die wir in diesem Beitrag erst eine grundlegende Beschreibung geben und im Folgenden ein weitgehend automatisiertes und frei erhältliches Softwareprogramm namens MTBseq [5] im Detail mit einer Schritt-für-Schritt-Anleitung vorstellen wollen. In Abb. 2 sind die wichtigsten Schritte dargestellt.
Die durch die Genomanalyse gewonnene Sequenzinformation kann gleichzeitig auch zur Verwandtschaftsanalyse und dadurch zur Ermittlung von Ausbrüchen bzw. Übertragungsketten genutzt werden, indem die Gesamtheit der ermittelten Varianten pro Stamm miteinander verglichen wird. Durch den Fokus auf der Ermittlung eines Resistenzprofiles gehen wir hier nur am Rande auf diese Möglichkeit ein.
Der Weg zum Resistenzreport
Das gängige Verfahren zur Genomsequenzierung von Mtbk-Stämmen ist das Next Generation Sequencing (NGS), bei dem initial die in der DNA kodierte Erbinformation in kleinere Stücke „geschnitten“ wird, die dann zunächst vervielfältigt und dann sequenziert werden. Auf diese Weise besteht jeder Datensatz aus Millionen kurzer, sequenzierter Fragmente, sogenannter Reads. Durch die klonale Struktur des Mtbk bietet sich zur auswertenden Analyse das Referenzmapping an, bei dem die Reads an einer Referenzsequenz (üblicherweise die Genomsequenz des M.-tuberculosis-H37Rv-Stammes) ausgerichtet werden und anschließend Varianten (hauptsächlich SNPs und kleine Indels) im Vergleich zur Referenzsequenz detektiert werden. Die wichtigsten Schritte, um aus den Sequenzdaten am Ende einen finalen Resistenzreport zu erhalten, sind:
- Vorbereitung der Rohdaten und Qualitätskontrolle
- Referenzmapping mit Variantendetektion
- Annotation der detektierten Varianten und Abgleich mit einer Resistenzmutations-Datenbank (z. B. dem Mutationskatalog der WHO)
Qualitätskontrolle
Zur Qualitätskontrolle der Daten können je nach finalem Verwendungszweck diverse Prüfungen gehören, bevor mit der Analyse der Daten begonnen werden kann. Standardmäßig wird die allgemeine Sequenzqualität geprüft. Da beim NGS jede Position eines Reads einen eigenen Qualitätswert erhält – je nachdem, wie eindeutig das Gerät entscheiden kann, dass es sich um die jeweilige Base handelt – kann dies mithilfe der Verteilung dieser Qualitätswerte geschehen. Ein Wert von Q30 bedeutet beispielsweise, dass die Wahrscheinlichkeit für eine falsche Base bei 1 zu 1.000 liegt. Zusätzlich kann auch auf Kontamination mit anderen Spezies geprüft werden. Dazu werden die Reads gegen eine Datenbank von Referenzsequenzen unterschiedlicher Spezies gescreent und die Erbinformation fremder Spezies aussortiert (z. B. humane DNA).
Referenzmapping
Genügen die Daten den vorab festgelegten Qualitätskriterien, kann mit der weiteren Analyse fortgefahren werden. Beim Referenzmapping werden die Reads (normalerweise 150 bis 300 Basenpaare [bp] lang) an einer Referenzsequenz des Mtbk (üblicherweise M. tuberculosis H37Rv, 4,4 Millionen bp) ausgerichtet. Das heißt, die Referenzsequenz wird nach der Position abgesucht, an der möglichst viele Basen des Reads mit der Referenzsequenz übereinstimmen. Durch die Konserviertheit des Mtbk-Genoms können so etwa 99,9 % des Referenzgenoms mit Reads abgedeckt werden. Schwierige Regionen finden sich in repetitiven Bereichen des Genoms, wo es beispielsweise mehrere Positionen gibt, an denen ein Read gleich gut passt. Ob ein Read an exakt einer Position 100-prozentig passt, ob es auch einzelne Basen gibt, die nicht passen oder ob es mehrere Positionen gibt, wo ein Read gleich gut passt, spiegelt sich in der Mapping-Qualität wider. Nicht übereinstimmende Basen können zum einen durch Mutationen des zugrunde liegenden Stammes im Vergleich zur Referenz zustande kommen oder aber durch Sequenzierfehler entstanden sein. Zur Bewertung des Mappings wird üblicherweise die Abdeckung der Referenzsequenz mit Reads verwendet. Hierbei zählt sowohl die Tiefe, also von wie vielen Reads eine Position des Referenzgenomes im Mittel abgedeckt ist, als auch die Breite, also wie viele von den 4,4 Millionen Basenpaaren mit mindestens einem Read abgedeckt wurden. Für das Referenz-Mapping gibt es verschiedene Software-Tools wie den in unserem Beispiel verwendeten Burrows-Wheeler Aligner (BWA).
Variantendetektion
Im folgenden Schritt können in den gemappten Reads Mutationen wie SNPs und Indels im Vergleich zur Referenzsequenz detektiert werden. Wichtig ist hier, dass diese Varianten immer relativ zur gewählten Referenzsequenz detektiert und annotiert werden, sodass Varianten verschiedener Stämme nur verglichen werden können, wenn sie im Verhältnis zur selben Referenzsequenz bestimmt worden sind. Genau wie in den Schritten zuvor können auch hier Fehler passieren und eine auf diese Weise detektierte Variante falsch sein. Deshalb ist es wichtig, sich auch hier auf Qualitätskriterien zu einigen. So kann es zum Beispiel sinnvoll sein, eine Mindestanzahl und Mindestanteil an Reads zu bestimmen, die die Variante tragen, eine Mindestabdeckung einer solchen Position festzusetzen oder für die variablen Basen eine Mindestbasenqualität festzulegen. All diese Faktoren spielen eine noch größere Rolle, wenn der Anwender an niederfrequenten Varianten interessiert ist. Diese entstehen zum Beispiel, wenn die sequenzierte Probe resistente Subpopulationen enthielt, wie es während der Entwicklung von Resistenz unter Therapie der Fall sein kann oder bei Ko-Infektionen zweier unterschiedlicher Mtbk-Stämme.
Annotation und Detektion
Da eine korrekt detektierte Variante nicht zwangsläufig eine Resistenz-vermittelnde Funktion zur Folge hat, ist die Datenbank das wichtigste Tool für die Resistenzvorhersage. Die Annotation und Interpretation der detektierten Varianten sind essenziell. Wie anfangs erwähnt, hat die WHO einen Katalog von Mutationen des Mtbk im Vergleich zum H37Rv-Referenzgenom herausgebracht, der einer Vielzahl der am häufigsten detektierten Mutationen einen Vertrauensindex bezüglich der Resistenz-vermittelnden Funktion zuweist. Die Indexe sind:
- Assoziiert mit Resistenz
- Assoziiert mit Resistenz – Interim
- Ungewisse Bedeutung
- Nicht mit Resistenz assoziiert – Interim
- Nicht mit Resistenz assoziiert
Nicht nur das Vorhandensein einer Assoziation mit Resistenz, sondern auch das Wissen, dass eine Mutation nicht mit einer Resistenz assoziiert ist, spielt eine Rolle, weil beides eine Behandlungsentscheidung beeinflussen kann.
Report
Im finalen Schritt muss die gesammelte Information in einen übersichtlichen, leicht verständlichen Report verpackt werden, um die komplexe Analyse und Auswertung der Genomdaten einem breiten Publikum zugänglich zu machen.
Schritt-für-Schritt-Anleitung
Im Folgenden werden wir eine Schritt-für-Schritt-Anleitung für die beschriebenen Analyseschritte mit der anfangs erwähnten Software MTBSeq geben. Diese Software kann vom Anwender mithilfe vieler Parameter individuell angepasst werden. Es wird allerdings ein gewisses Maß an bioinformatischem Verständnis benötigt, da das Programm über die Kommandozeile eines Linux-basierten Rechners gesteuert werden muss. Da MTBseq zu einem großen Teil auf frei erhältlicher Software aufbaut, kann die Vorstellung insbesondere gut dazu dienen, eine eigenen entsprechende Analysepipeline aufzubauen und zu validieren. Der folgende Abschnitt startet mit der Installation von MTBseq über Conda/Miniconda und liefert Details zu den einzelnen Schritten der Datenverarbeitung auf einem Computer mit dem Betriebssystem Linux (getestet für Ubuntu 16.04 LTS).
Schritt 1:
Installiere Conda oder Miniconda und installiere danach MTBseq mit folgendem Befehl:
conda install -c bioconda mtbseq
Dieser Schritt muss natürlich nur einmal initial durchgeführt werden.
MTBseq erwartet, dass die Dateien einem gewissen Namensschema folgen:
[SampleID]_[LibID]_[*]_[Direction].f(ast)q.gz
Einmal gestartet wird MTBseq in dem Ordner, in dem es aufgerufen wurde, eine eigene Struktur mit Ausgabeordnern anlegen. Es wird automatisch alle Fastq-Dateien verarbeiten, die sich in diesem Ordner befinden und dem erforderlichen Namensschema folgen. Es empfiehlt sich, separate Ordner für unterschiedliche Projekte zu verwenden. Der gesamte Workflow ist Modul-basiert, sodass jeder Schritt einzeln nacheinander ausgeführt werden kann. Die grundsätzlichen Analyseschritte sind in Abb. 2 dargestellt und werden im Folgenden erläutert.
Schritt 2:
Referenz-Mapping:
MTBseq --step TBbwa
Dieser Schritt richtet die Reads an der Referenzsequenz aus und nutzt dafür einen Algorithmus von BWA. Abhängig von der Erstellung der Reads (single-end oder paired-end) nutzt dieser Schritt ein oder zwei Fastq-Files.
Eingabedateien:
[SampleID]_[LibID]_[*]_[Direction].fastq.gz
Ausgabedateien:
Bam/[SampleID]_[LibID]_[*].bam
Bam/[SampleID]_[LibID]_[*].bai
Bam/[SampleID]_[LibID]_[*].bamlog
Schritt 3:
Verbesserung des initialen Mappings:
MTBseq –step TBrefine
Um das initiale Mapping zu verbessern, verwendet MTBseq das Programmpaket GATK, um eine Neuausrichtung um kleine Indels und eine Rekalibrierung der Basenqualitäten durchzuführen. Diese Schritte sind zwar nicht zwingend erforderlich, wir konnten jedoch in einer Veröffentlichung zeigen, dass sie sinnvoll sind, um ein optimales Ergebnis zu erzielen.
Für die Rekalibrierung der Basenqualitäten benötigt die Software eine Datei mit Positionen, an denen bekannte Mutationen auftreten, die bei der Berechnung dann ausgelassen werden. Für die Tuberkulose stellt die Software eine vordefinierte Liste zur Verfügung, die im Github Repository „var/res/MTB_Base_Calibration_List.vcf“ eingesehen werden kann.
Eingabedateien:
Bam/[SampleID]_[LibID]_[*].bam
Ausgabedateien:
GATK_Bam/[SampleID]_[LibID]_[*].gatk.bam
GATK_Bam/[SampleID]_[LibID]_[*].gatk.bai
GATK_Bam/[SampleID]_[LibID]_[*].gatk.bamlog
GATK_Bam/[SampleID]_[LibID]_[*].gatk.grp
GATK_Bam/[SampleID]_[LibID]_[*].gatk.intervals
Schritt 4:
Zusammenfassung der Basen pro Position:
MTBseq --step TBpile
Nun wird basierend auf der verbesserten Mapping-Datei (*.gatk.bam) eine sogenannte „pileup“-Datei (*.mpileup) erstellt. Hierzu verwenden wir das Programm SAMTOOLS. In diesem Datei-Format wird die Baseninformation für jede chromosomale Position festgehalten. Das bedeutet, dass jede Zeile dieser Datei die Chromosomennummer (1 für bakterielle Genome), die genomische Position, die Referenzbase an dieser Stelle, die Anzahl der Reads, die diese Position abdecken, die Basen auf den Reads und die jeweiligen Basenqualitäten enthält.
Eingabedateien:
GATK_Bam/[SampleID]_[LibID]_[*].gatk.bam
Ausgabedateien:
Mpileup/[SampleID]_[LibID]_[*].gatk.
mpileup
Mpileup/[SampleID]_[LibID]_[*].gatk.
mpileuplog
Schritt 5:
Positionsliste erstellen:
MTBseq --step TBlist
In diesem Schritt wird das „pileup“-Format (*.gatk.mpileup) in eine Tabelle umgewandelt. Diese Tabelle enthält alle relevanten Informationen über das Ergebnis des Mappings in 21 Spalten. In jeder Zeile ist die Information über die Anzahl der verschiedenen Nukleotide pro Position im Referenzgenom enthalten.
Eingabedateien:
Mpileup/[SampleID]_[LibID]_[*].gatk.
mpileup
Ausgabedateien:
Position_Tables/[SampleID]_[LibID]_[*].gatk_position_table.tab
Schritt 6:
Variantendetektion/-annotation:
MTBseq --step TBvariants --all_vars
Mit diesem Befehl werden die Varianten im Vergleich zur Referenzsequenz bestimmt. Dies basiert auf der zuvor erstellten Positionsliste (Schritt 5). Es gibt verschiedene Modi, in denen die Varianten bestimmt werden können; diese können über verschiedene Optionen „--all_vars, --snp_vars oder --lowfreq_vars“ gesteuert werden. Die Abkürzungen lassen schon Vermutungen über die Modi zu; so werden unter „--all_vars“ alle Varianten detektiert, egal ob SNP oder Indel, unter „--snp_vars“ ausschließlich SNPs und unter „lowfreq_vars“ die niederfrequenten Mutationen. Standardmäßig sind die Parameter für die Detektion von Varianten so eingestellt, dass eine Mindestabdeckung von vier Reads aus jeder Richtung gefordert wird sowie mindestens vier Reads mit der Variante, bei denen die bestimmte Base eine minimale Basenqualität (Phred Score) von 20 hat und einer minimalen Frequenz von 75 %. Positionen, die den Vorgaben genügen, werden für die weitere Analyse als „unambiguous“ markiert.
Eingabedateien:
Position_Tables/[SampleID]_[LibID]_[*].gatk_position_table.tab
Ausgabedateien:
Called/[SampleID]_[LibID]_[*].gatk_
position_uncovered_[mincovf]_
[mincovr]_[minfreq]_[minphred20]_[all_vars][snp_vars][lowfreq_vars].tab
Called/[SampleID]_[LibID]_[*].gatk_
position_variants_[mincovf]_[mincovr]_[minfreq]_[minphred20]_[all_vars][snp_vars][lowfreq_vars].tab
Schritt 7:
Phylogenetische Klassifizierung:
MTBseq --step TBstrain
Genau wie die Datenbank für Resistenz-vermittelnde Mutationen gibt es vergleichbare Datenbanken über phylogenetische Varianten; also Varianten, die spezifisch für einen bestimmten Stammtyp des Mtbk sind. Die hier verwendete Klassifizierung basiert auf einer Sammlung veröffentlichter Datenbanken/Schemata solcher SNPs [6–8]. Dieser Schritt erzeugt eine TAB-separierte Textdatei im Ordner „Classification“, in der jede Zeile die Klassifizierung für einen Stamm wiedergibt. Jeder Eintrag enthält überdies Angaben zur Qualität der Daten an den zur Klassifizierung verwendeten Positionen. Die Qualität wird mit „gut“ bewertet, wenn alle phylogenetischen Positionen des jeweiligen Schemas von mindestens zehn Reads abgedeckt waren und eine Frequenz von mindestens 75 % hatten. Andernfalls wird „schlecht“ ausgegeben.
Eingabedateien:
Position_Tables/[SampleID]_[LibID]_[*].gatk_position_table.tab
Ausgabedateien:
Classification/Strain_Classification.tab
Schritt 8:
Berechnung der Qualitätswerte:
MTBseq --step TBstats
In diesem Schritt werden verschiedene Qualitätswerte zur Bewertung des Mappings und der detektierten Varianten mit dem Algorithmus SAMTOOLS flagstat berechnet und in eine TAB-separierte Datei geschrieben (Mapping_and_Variant_Statistics.tab). Diese Datei fasst ebenfalls wieder die Werte für alle Datensätze des Aufrufordners zusammen. Die einzelnen Spalten sind in Tab. 1 beschrieben.
Eingabedateien:
Bam/[SampleID]_[LibID]_[*].bam
Position_Tables/[SampleID]_[LibID]_[*].gatk_position_table.tab
Ausgabedateien:
Statistics/Mapping_and_Variant_Statistics.tab
Tab. 1: Spaltennamen mit Erklärungen für die Datei „Mapping_and_Variant_Statistics.tab”.
Spalte | Beschreibung |
---|---|
Date | MTBseq Ausführungsdatum |
SampleID | Stamm-ID |
LibraryID | (Sequenz)Library ID |
FullID | Kompletter Datensatzname |
Total Reads | Anzahl sequenzierter Reads |
Mapped Reads (%) | Anteil der gemappten Reads in % |
Genome Size | Größe des Referenzgenoms |
Genome GC | GC-Gehalt des Referenzgenoms |
(Any) Total Bases (%) | Prozentualer Anteil des Referenzgenoms, das mit Reads abgedeckt ist |
(Any) GC-Content | GC-Gehalt des Referenzgenoms, das mit Reads abgedeckt ist |
(Any) Coverage mean | Mittelwert der Abdeckungstiefe |
(Any) Coverage median | Median der Abdeckungstiefe |
(Unambiguous) Total Bases (%) | Anteil des Referenzgenoms, der „unambiguously“ (siehe Schritt XXX) abgedeckt ist |
(Unambiguous) GC-Content | GC-Gehalt des Referenzgenoms, der „unambiguously“ abgedeckt ist |
(Unambiguous) Coverage mean | Mittelwert der Abdeckungstiefe der Positionen, die „unambiguously“ abgedeckt sind |
(Unambiguous) Coverage median | Median der Abdeckungstiefe der Positionen, die „unambiguously“ abgedeckt sind |
SNPs | Anzahl detektierter SNPs |
Deletions | Anzahl detektierter Deletionen |
Insertions | Anzahl detektierter Insertionen |
Uncovered | Positionen des Referenzgenoms, die nicht abgedeckt sind |
Substitutions (including Stop Codons) | Anzahl Substitutionen innerhalb von Genen |
Schritt 9:
Nachdem alle Datensätze prozessiert wurden, sollte der Nutzer die Tabelle mit den Mapping- und Varianten-Statistiken prüfen (Mapping_and_Variant_Statistics.tab). Da es sich um eine Tabelle handelt, kann diese auch mit gängigen Office-Programmen wie Microsoft Excel geöffnet werden. Die wichtigsten Werte, die geprüft werden sollten, sind:
- Mapped Reads (%): Ein niedriger Prozentwert kann auf eine
- Kontamination hinweisen
- (Any) Coverage mean:
- Gesamtsequenzierungstiefe
- (Unambiguous) Total Bases (%):
- Gesamtsequenzierungsbreite
Schritt 10:
Extrahieren der Resistenz-vermittelnden Mutationen:
Zurzeit gibt es noch keine automatische Lösung, um nur die Resistenz-vermittelnden Varianten ausgegeben zu bekommen, dies wird sich aber in Zukunft ändern und eine automatische Resistenzvorhersage mit Report wird eingefügt werden. Bis dahin muss der Anwender manuell die relevanten Mutationen aus der Datei mit allen Varianten, die sich im „Called“-Ordner befinden, herausfiltern. Diese Datei enthält lediglich die gefestigten Varianten. Es ergibt bei der Resistenzvorhersage allerdings durchaus Sinn, auch niederfrequente Varianten zu betrachten, sodass es gegebenenfalls zweckmäßiger ist, die Varianten im Modus „lowfreq_vars“ zu detektieren. Für den jeweiligen Stamm wird die Tabelle geöffnet und entweder nach Option a oder b wie folgt gefiltert:
a) Spalte „ResistanceSNP“ so einstellen, dass nur Zeilen mit Einträgen dargestellt werden. Dazu gehören dann Positionen, die als phylogenetisch oder Resistenz-vermittelnd markiert wurden, basierend auf dem aktuell verwendeten Mutationskatalog.
b) Spalte „Interesting Region“ so einstellen, dass Einträge angezeigt werden. Mit dieser Spalte können zusätzliche Mutationen in Resistenz-vermittelnden Genen untersucht werden, die bisher (noch) nicht als Resistenz-vermittelnd bekannt sind, aber durch ihre Lokalisierung eine mögliche Rolle in der Resistenzentwicklung spielen könnten.
Schritt 11:
Erstellen eines Resistenzreports:
In Abb. 3 sehen Sie ein Beispiel, wie wir uns einen Resistenzreport vorstellen können, der anschließend an behandelndes (ärztliches) Personal herausgegeben werden kann.
Alle Mutationen aus dem MTBseq-Mutationskatalog, die aus der Spalte „ResistanceSNP“ gefiltert wurden, können als starker Indikator für eine phänotypische Resistenz verwendet werden und würden in diesem Report angegeben und mit einem „R“ für Resistenz markiert werden. Bei „Nicht-Vorhandensein“ von Mutationen sollten die entsprechenden Qualitätswerte für die Positionen geprüft oder mit pDST eine Medikamentensensibilität bestätigt werden. Im Report können die jeweiligen Medikamente dann je nach Geschmack mit „S“ markiert oder das Feld freigelassen werden. In der Kommentarspalte können Informationen angegeben werden, zum Beispiel die Indizierung vom WHO-Katalog (siehe oben) oder ob es sich eventuell um eine sogenannte „low-level“-Resistenz handelt, bei der es durchaus möglich ist, das betreffende Medikament mit einer erhöhten Dosis erfolgreich zu verwenden. Die in Option b gefilterten Mutationen in bekannten Resistenzgenen aber ohne Eintrag im Mutationskatalog sollten in einer zweiten Tabelle dem Report beigefügt werden, sodass eventuell entstandene Diskrepanzen aufgeklärt werden oder neue Resistenzmutationen entdeckt werden können.
Ausblick
Im vorherigen Abschnitt haben wir beschrieben, wie die zur Resistenzermittlung von Mtbk-Stämmen relevanten Informationen aus den NGS-basierten Gesamtgenomdaten bestimmt werden können. Ein in den letzten Jahren entwickelter, spannender Ansatz ist das anwendungsorientierte Sequenzieren spezieller genomischer Zielregionen, das „targeted Next Generation Sequencing“ (tNGS). Mittels tNGS ist eine genombasierte Resistenzermittlung bereits von primären Patientenproben wie Sputum möglich, was die Zeit bis zum Vorliegen eines umfassenden Resistenzprofiles und einer darauf basierenden effektiven Therapie um weitere Wochen verkürzt. Die Analyse von Mtbk-tNGS-Daten erfolgt mit leichten Anpassungen dem für die NGS-Gesamtgenomdaten beschriebenen Ablauf.
Die NGS-basierten Gesamtgenomdaten können zusätzlich für eine Ähnlichkeitsanalyse genutzt werden, um zum Beispiel Ausbrüche oder Übertragungsketten aufzuklären. Für Mtbk-Proben werden dafür die ermittelten Mutationen im gesamten Genom jedes Stammes miteinander verglichen. Für diese Anwendung bietet MTBseq ebenfalls ein Modul, das sich an die normale Pipeline für einzelne Datensätze anschließt. Alternativ kann die Verwandtschaftsanalyse basierend auf einer kerngenomischen „multi locus sequence typing“(MLST)-Analyse erfolgen.
Die in diesem Artikel beschriebenen Schritte können prinzipiell ebenfalls für andere bakterielle Pathogene verwendet werden. Allerdings können die Resistenzmechanismen anderer Pathogene im Vergleich zu Stämmen des Mtbk komplexer sein und zum Beispiel mobile genetische Elemente wie Plasmide besitzen, die für eine Resistenz verantwortlich sind und ebenfalls berücksichtigt werden müssen.
Für die Analyse mit MTBseq ist, wie oben bereits beschrieben, ein gewisses Maß an Computerfertigkeiten erforderlich, da alle Aufrufe und Parametereinstellungen ausschließlich über die Konsole eines Linux-basierten Rechners möglich sind. Für Windows-Nutzer und weniger versierte Anwender gibt es mittlerweile auch automatisierte Analyseangebote, die beispielsweise als Webanwendungen verfügbar sind oder als App auf dem heimischen Computer verwendet werden können. Hierzu zählen:
- Mykrobe (Predictor TB; www.mykrobe.com)
- TB Profiler (https://tbdr.lshtm.ac.uk/)
- PhyResSE (www.phyresse.org)
- GenTB (https://gentb.hms.harvard.edu/)
- ResFinder (https://cge.food.dtu.dk/
- services/ResFinder-4.1/)