Eine Fallstudie aus der Laborpraxis

Referenzintervall-Überprüfung mit indirekten Verfahren

Die regelmäßige Überprüfung der eigenen Referenzintervalle mit indirekten Verfahren ist eine wichtige Aufgabe jedes Labors. Am Beispiel der Kreatinkinase (CK) wird die Anwendung öffentlich zugänglicher Programme demonstriert. Unser Fallbericht zeigt deutlich, dass die im Laborinformationssystem hinterlegten Angaben kritisch hinterfragt werden sollten, und dass zwischen Referenzintervallen und klinischen Entscheidungsgrenzen unterschieden werden muss.
Schlüsselwörter:  Referenzintervalle, Entscheidungsgrenzen, RLE, RefLim

Die Kreatinkinase (CK) gehört seit über einem halben Jahrhundert zu den am häufigsten angeforderten Enzymaktivitätsbestimmungen im medizinischen Labor. Sie dient in erster Linie der Erkennung und Verlaufskontrolle von Skelettmuskelschäden [1], wird aber auch in der Kardio­logie, Neurologie und Sportmedizin eingesetzt.
Sichtet man die umfangreiche Literatur, so fällt auf, dass trotz der langen Historie erhebliche Unsicherheit hinsichtlich der Referenz­intervalle (RI) besteht. So reichen die publizierten Obergrenzen für Männer von 2,85 µkat/l (170 U/l) bei hospitalisierten Patienten mit geringer muskulärer Aktivität [2] bis zu 18 µkat/l (1.083 U/l) bei Sportlern [3]. Eine Aufschlüsselung nach dem Alter (Abb. 1) fehlt häufig.

Vorschriftsmäßige Überprüfung

Die Consensuswerte der DGKL [4] sind in dieser Aufstellung die niedrigsten und liegen deutlich unter den ebenfalls im Beipackzettel angegebenen Werten einer gesunden Referenzpopulation [5]. Der obere Grenzwert aus einer häufig zitierten norwegischen Populationsstudie [6] ist für Männer unter 50 Jahren sogar doppelt so hoch wie der Consensuswert (Tab. 1). In vielen Quellen fehlen Angaben zur Altersabhängigkeit der CK sowie die Untergrenzen für das Referenzintervall.
Somit liefert die CK eine gute Begründung für die Forderung nationaler und internationaler Organisationen (z. B. DGKL, IFCC), dass jedes Labor die aus externen Quellen übernommenen RI-Grenzwerte anhand eigener Daten validieren soll. Diese Überprüfung sollte systematisch durchgeführt werden, da sie in der Rili-BÄK verankert ist und zukünftig im Rahmen der Akkreditierung nach ISO 15184 nachgewiesen werden muss [7].

Praktisches Vorgehen

Bei der Bestimmung von Referenzintervallen unterscheidet man grundsätzlich zwischen direkten und indirekten Verfahren. Erstere setzen ausreichend große Kollektive gesunder Referenzpersonen für alle zu untersuchenden Subgruppen voraus. Indirekte Verfahren können dagegen mit gemischten Populationen gesunder und kranker Personen anhand von Routine­werten aus der Labor-IT durchgeführt werden. Für die Überprüfung von extern erhobenen Richtwerten sind diese indirekten Verfahren die Methode der Wahl – so auch in der vorliegenden Studie.
Als Datenbasis fragten wir aus dem Laborinformations­system die CK-Resultate von jeweils gut 7.000 erwachsenen Männern und Frauen im Alter von 18 bis 103 Jahren ab. Auf der Basis von Patienten-ID und Abnahme­datum selektierten wir von jedem Patienten den ersten Messwert nach der Aufnahme, um sicherzustellen, dass jedes Individuum nur einmal im Datensatz vorkommt. Excel bietet hierfür im Menüpunkt Daten die praktische Funktion Duplikate entfernen. Anschließend wurden zur Anonymisierung alle Angaben außer Abnahmedatum, Geschlecht, Alter und CK-Wert aus dem Datensatz entfernt.
Für die Berechnung standen mehrere Verfahren zur Verfügung (Abb. 2), sodass ein Methodenvergleich möglich war. Wir verwendeten die im Internet frei zugänglichen Excelprogramme RefLim (www.trillium.de, Services > Software) und Reference Limit Estimator (RLE, www.dgkl.de, Arbeitsgruppen).
Bei den Workshops der Trillium-Akademie (www.trillium.de/akademie.html) wird zusätzlich das Schreiben eigener Auswerte­funktionen mit dem Statistik­paket R (www.r-project.org) geschult und das Excel-Programm TNP (Trillium Normalizer Professional) kostenlos an die Teilnehmer verteilt.

Methodik

Alle hier verglichenen Programme ermitteln zuerst den Verteilungstyp im Zentrum der Daten (z. B. Normal- vs. Lognormalverteilung), entfernen dann die nicht zum Modell passenden (abnormalen) Werte und berechnen aus dem Rest die Referenzgrenzen mit unterschiedlichen Verfahren (Abb. 2 c): Der RLE basiert auf einer „geglätteten Kerndichtefunktion“ [8], RefLim und TNP auf einem  „Quantil-Quantil-Plot“ [9].
Das Programm RefLim eignet sich besonders gut für eine rasche orientierende RI-Prüfung, da es mit wenigen Handgriffen ohne separate Installation direkt auf der Excel-Oberfläche durchgeführt wird. Man sortiert die vorbereiteten Daten nach Geschlecht und Alter, markiert den gewünschten Wertebereich (etwa die CK der Frauen mit 18 bis 99 Jahren) und drückt die Tastenkombination Strg-i. Das Ergebnis wird sofort angezeigt (Abb. 2a). Erscheint  keine Warnung – beispielsweise für zu große Heterogenität der Daten –, so sind die Forderungen von Rili-BÄK und ISO 15189 erfüllt.
Für eine intensivere Analyse bietet sich der TNP an. Dieses Excel-Programm nutzt denselben Algorithmus wie RefLim und liefert deshalb auch ähnliche Resultate. Es bietet jedoch mehr Komfort – beispielsweise eine Histogrammdarstellung wie in Abb. 2b gezeigt – und zieht bei ausreichend großer Anzahl von Messwerten mehrere Zufallsstichproben. Dadurch erhält man zu jedem Grenzwert die Standardabweichung, aus der das 95%-Konfidenzintervall als 2SD-Bereich berechnet werden kann. So reicht das Konfidenzintervall für die Obergrenze in Abb. 2b von 2,8 bis 3,5 µkat/l und schließt den von 3,2 µkat/l in Abb. 2a ein. Weitere Features sind die Umschaltung von Normal- auf Lognormalverteilung, detaillierte Angaben zur Ausreißerentfernung sowie die Ausgabe des QQ-Plots: Wenn dieser eine Gerade bildet, stimmen die Werte mit dem Datenmodell überein.
Der RLE lieferte bei unseren Experimenten trotz unterschiedlicher Verfahren in der Regel sehr ähnliche Ergebnisse. Allerdings erfordert dieses Programm eine vergleichsweise aufwendige Installation von R-Packages, und benö­tigt für die korrekte Ausführung mehrere tausend Messwerte, sodass beispielsweise eine feine Aufgliederung in Altersgruppen nicht immer möglich ist. Dafür erhält man instruktive Grafiken (Abb. 2c).

Ergebnisse und Diskussion

Bei allem Komfort, den die vorgestellten Werkzeuge bieten, darf man die labormedizinische Beurteilung der Ergebnisse nicht dem Computer überlassen: Beim QQ-Plot prüft man, ob sich eine ausreichend lineare Gerade ohne auffällige Knicke und Biegungen ergibt; diese würden für schwer abgrenzbare Subpopulationen sprechen, die das Ergebnis verfälschen können. Man erhält vom Programm einen Warnhinweis, wenn dies der Fall ist. Beim RLE bewertet  man die Plausibilität des statistischen Modells anhand statistischer Kennzahlen und überprüft die Abweichungen zwischen der durchgezogenen grünen und der gestrichelten Linie visuell (Abb. 2c).
Die CK-Ergebnisse von TNP und RLE stimmten für die Frauen mit 0,6–3,1 bzw. 0,6–3,0 µkat/l sehr gut überein (Abb. 2) und deckten sich weitgehend mit den direkt ermittelten Referenzintervallen einer gesunden Kohorte [5] (vgl. Tab. 1). Die Aufschlüsselung nach Altersklassen mit dem TNP und eigenen R-Programmen ergab für erwachsene Frauen einen leichten Anstieg in der ersten, und einen entsprechenden Abfall in der zweiten Lebenshälfte (Abb. 3). Eine Anpassung des laborinternen oberen Grenzwerts (gestrichelte rote Linie) erschien nicht unbedingt erforderlich.

Dagegen zeigten unsere Ergebnisse für Männer in Übereinstimmung mit der Tromsø-Studie [6] eine ausgeprägte Altersabhängigkeit. Während sich die Obergrenze bis zum Alter von 60 Jahren relativ stabil knapp oberhalb der Angaben des Herstellers bewegten [5], fielen sie bei älteren Patienten stark ab, um schließlich das niedrige Niveau der Consensuswerte zu erreichen (Tab. 2).
Bei Männern erscheint es also sinnvoll, die gegenwertigen Grenzwerte im Hinblick auf die Altersabhängigkeit zu diskutieren. Allerdings ist, wie im vorangehenden Beitrag von U. Sack und M. Öczürümez ausführlich dargestellt, der Unterschied zwischen Referenz- und Entscheidungsgrenzen zu berücksichtigen. Je nach Fragestellung (hier Skelettmuskel- vs. Herzmuskelschädigung) beeinflusst die Wahl des berichteten Grenzwerts die Sensitivität und Spezifität der jeweiligen diagnostischen Aussage. Leider können Labor-IT-Systeme bislang Referenz- und Entscheidungsgrenzen nicht komfortabel abbilden, ohne den Befund unübersichtlich werden zu lassen.  

Autor
Jakob Adler
MVZ Medizinisches Labor Prof. Schenk/
Dr. Ansorge und Kollegen GbR, Magdeburg
Aus der Rubrik