Von der Bioinformatik lernen

Farbgestaltung von Befundberichten

Die Lesbarkeit labormedizinischer Kumulativbefunde lässt sich durch den Einsatz einfacher Algorithmen aus der Bioinformatik deutlich verbessern.

Schlüsselwörter: Normalisierung, z-Werte, Farbkodierung

Der Befundbericht ist die wichtigste Schnittstelle zwischen Labor und Arzt: Er präsentiert dem Anforderer die Essenz der erbrachten Leistung, und nicht selten löst er eine Kette diagnostischer und therapeutischer Entscheidungen aus.

Wenn man sich dies bewusst macht, dann ist es doch erstaunlich, wie wenig Aufmerksamkeit viele Labore der Befund­gestaltung schenken. Ihre Berichte sehen genauso aus wie vor einem halben Jahrhundert: lange Kolonnen von Messergebnissen, ergänzt durch Vorwerte, Einheiten, Referenz­intervalle, kryptische Kürzel, und im besten Falle ein paar grafische Elemente in Schwarz-Weiß. Dieses Format ist zwar leicht zu drucken, aber schwer zu lesen.

Die Befundempfänger neigen zu einer stark verkürzten Bewertung solcher Tabellen und übersehen dabei wichtige Details. Besser schneiden grafische Verläufe ab, bei denen die Werte aller Analyte auf eine gemeinsame Skala projiziert werden[1].

Allerdings verbrauchen solche „relativen Multigrafiken" viel Platz und stoßen bereits bei 10 bis 20 Analyten ebenfalls an die Grenzen der Übersichtlichkeit. Spätestens mit der Einführung von Hochdurchsatztechniken wie NGS oder der nebenstehend gezeigten Massenspektrometrie in die Routine sollte man über neue Wege der Befundpräsentation nachdenken.

Erfreulicherweise wartet die noch junge Wissenschaft der Bioinformatik mit einem wahren Füllhorn von Visualisierungs­formaten auf, die eigens dafür entwickelt wurden, in großen Datensätzen komplexe Beziehungen und kritische Veränderungen auf einen Blick transparent zu machen. Techniken wie Hauptkomponenten- und Clusteranalyse sind auch gut auf Routine­laborwerte anwendbar.

 

Datennormalisierung

Die meisten dieser biostatistischen Verfahren setzen voraus, dass man die Messwerte normalisiert, dass man sie also wie in der Abb. 2 gezeigt zur besseren Vergleichbarkeit auf eine gemeinsame Skala projiziert. In der funktionellen Genomik wurde die Normalisierung um die Jahrtausendwende besonders wichtig, als die ersten Microarrays mit Abertausenden von Gen­expressionsdaten auf den Markt kamen. Man musste auf irgendeine Weise sichtbar machen, welche der zahllosen Messpunkte eine normale und welche eine „differenzielle" Genexpression repräsentieren.

Die ersten Lösungsansätze kamen gar nicht aus der Informatik, sondern aus der Bio­chemie: Man mischte grün markierte mRNAs einer normalen Probe mit rot markierten mRNAs einer Tumorprobe und fertigte nach der Hybridisierung ein Farbfoto an. Rote Fluoreszenz repräsentierte eine Überexpression der Tumor-mRNA und Grün eine Unterexpression. Bei etwa gleicher Konzentration beider mRNAs resultierte Gelb als Mischfluoreszenz, bei fehlender Expression blieb es dunkel (Abb. 3).

Bioinformatiker der ersten Stunde übersetzten diese Farbtechnik in eine simple Normalisierungsformel, indem sie aus den quantitativen Rot- und Grün-Signalen einen Quotienten bildeten und das Ergebnis logarithmierten[2]. Dadurch resultierten aus der Überexpression positive und aus der Unterexpression negative Zahlenwerte; 0 (= Logarithmus von 1) bedeutete „normale Expression".

Diese sog. Pseudonormalisierung ist als Schnellschuss durchaus geeignet, die Wertelage zu vereinheitlichen, berücksichtigt aber die biologische Streuung nicht. Deshalb haben sich in der Bioinformatik wie auch in der Labormedizin z-Werte zur Standardisierung durchgesetzt, die den Mittelwert µ und die Standardabweichung σ berücksichtigen:

z=(x-µ)/σ

Das Ergebnis gibt an, um wie viele Standardabweichungen der Messwert x vom Mittelwert des Kollektivs abweicht[2]. Da Referenzintervalle definitionsgemäß die zentralen 95% bzw. µ± 2σ eines normalverteilten Referenzkollektivs enthalten, sind somit z-Werte von -2 bis +2 unabhängig vom Analyten immer als „normal" einzustufen, jenseits davon als „pathologisch".

Inzwischen wurde dieser z-Wert von zwei Arbeitsgruppen der DGKL weiter verfeinert, z. B. als zlog-Wert oder Ergebnisquotient [3]. Das Ziel ist, den gesamten Wertebereich eines Analyten nach Möglichkeit auf einer einheitlichen Skala von beispielsweise -10 bis +10 abzubilden, unabhängig davon, ob das Referenzintervall wie beim Hämoglobin im oberen Drittel der theoretisch möglichen Werte oder wie bei den Transaminasen am unteren Rand liegt.

 

Intuitive Farbkodierung

Diesem Ziel kommt man durch diverse mathematische Transforma­tionen recht nahe: So lassen sich normale und leicht pathologische Werte durch Logarithmierung[4] oder Wurzelziehen[3] befriedigend vereinheitlichen; es gibt aber bislang noch kein Verfahren, das auch die Extrem­bereiche (z. B. Hämoglobinwerte unter 3 g/dl oder Trans­aminasen von mehreren tausend U/l) in die gewünschte Standardskala presst. Abhilfe schafft hier eine intuitive Farbgebung, die die zlog-Werte mithilfe einer logistischen Funktion in eine Skala von RGB-Werten übersetzt[4].

Den Farbintensitäten liegt eine doppelt sigmoide Kurve zugrunde, die folgenden Effekt hat (Abb. 4): zlog-Werte innerhalb des Referenzintervalls bleiben auch nach der Transformation zwischen -2 und +2, leicht pathologische Werte erscheinen etwas gespreizt, sodass hier Veränderungen besonders augenfällig werden, und hochpathologische Extremwerte werden so stark gedämpft, dass die Abweichung vom Zentrum des Referenzkollektivs zehn Standardabweichungen nicht mehr überschreiten kann.

Die Mathematik hinter dieser „Softmax-Normalisierung" ist nicht ganz trivial, aber die praktischen Auswirkungen liegen auf der Hand: Durch die zweifache Transformation (Logarithmierung und logistische Funktion) werden die Originalwerte für Hb, Transaminasen etc. in standardisierte „zlog2-Werte" umgeformt, denen man relativ leicht intuitive Farben zuordnen kann. Wegen der weit verbreiteten Rot-Grün-Schwäche (vor allem bei Männern) empfehlen wir eine Skala, die von Blau über Weiß nach Orange geht[4] und hell genug ist, um schwarze Zahlen auf farbigem Hintergrund gut sichtbar darzustellen (Abb. 5).

Auf diese Weise können die vertrauten tabellarischen Kumulativbefunde beibehalten, aber dank der Farbkodierung wesentlich leichter interpretiert werden. Man erkennt so Trends und Zusammenhänge zwischen Messgrößen auf einen Blick, ohne dass zusätzliche z-Werte oder Ergebnis­quotienten die Übersichtlichkeit stören.