Überprüfung von Referenzintervallen: Schnelle Orientierung

DOI: https://doi.org/10.47184/td.2022.02.01

Jedes medizinische Labor muss in der Lage sein, seine Referenzintervalle anhand eigener Daten zu überprüfen. Wir stellen ein einfaches grafisches Verfahren auf Basis von Excel vor und berichten über eine Weiterentwicklung, mit der man Hunderte von Referenzgrenzen in kurzer Zeit screenen kann.

Schlüsselwörter: Referenzintervall, zlog-Wert, Boxplot, QQ-Plot

Das Konzept der Referenzintervalle (abgekürzt RI) wurde vor über einem halben Jahrhundert entwickelt [1] und hat sich als Interpreta­tionshilfe von Laborwerten in der Medizin fest etabliert. Deshalb ist die Angabe geeigneter Grenzwerte im Befundbericht nach Rili-BÄK und ISO 15189 zwingend vorgeschrieben, und auch die Quelle muss in der Verfahrensbeschreibung jedes angebotenen Analyten dokumentiert werden [2].
In aller Regel werden die Referenz­intervalle aus Herstellerangaben oder der Fachliteratur übernommen. Dies ist durchaus zulässig, doch die medizinische Verantwortung für die Gültigkeit der Angaben liegt ausschließlich beim Labor. Daraus leitet sich die Forderung ab, dass jeder Anbieter von Laborleistungen in der Lage sein muss, die Übertragbarkeit extern ermittelter Referenzintervalle anhand eigener Messungen zu überprüfen [2–4]. 
Gerade die Angaben auf den Beipackzetteln der Hersteller sind oft veraltet und in Bezug auf bestimmte Altersgruppen (Säuglinge, Senioren) lückenhaft. Oder sie passen nicht zu den lokalen präanalytischen und analytischen Gegebenheiten wie z. B. Probentransport, Blutentnahme im Krankenhaus (vorwiegend morgens am liegenden Patienten) versus Arztpraxis (meist tagsüber im Sitzen), sowie zum Einfluss des Analysegeräts, der Antikörpercharge (bei Immunoassays) usw. Die Variabilität dieser Faktoren ist so groß, dass man sie bei der Übertragung der Grenzwerte von einem Labor auf ein anderes kaum alle berücksichtigen kann.

Indirekte Verfahren

Über das Ob einer lokalen RI-Prüfung gibt es also – zumindest in Deutschland – kaum noch Diskussionen, wohl aber über das Wie. Definitionsgemäß umfassen Referenzintervalle die zentralen 95 % der Messwerte von „offensichtlich gesunden Individuen“ [3], aber die leitliniengerechte Identifizierung und Rekrutierung solcher Personen ist in der Praxis aus Zeit- und Kostengründen nicht realisierbar [4].
Deshalb wurden in den letzten Jahren zahlreiche indirekte Verfahren beschrieben, die es erlauben, aus Routinewerten mithilfe statistischer Modellannahmen die „vermutlich nichtpathologischen“ Werte zu identifizieren und deren nicht direkt ablesbare Referenzgrenzen über mathematische Parameter wie Mittelwert und Standardabweichung zu schätzen (zur Nomenklatur siehe Glossar).

Die Abbildung links oben demonstriert die Herausforderungen dieser Vorgehensweise am Beispiel öffentlich zugänglicher Albuminwerte von gesunden Blutspendern (A) und HCV-Infizierten mit unterschiedlich ausgeprägter Leberhistologie (B bis D)*. Die Komplexität der Aufgabe steigt mit dem Anteil der Kranken in der Stichprobe und dem Grad der Kurvenüberlappung.

Einfache Prüfung mit Excel

Recht homogene Kollektive von weit­gehend Gesunden erhält man zum Beispiel im Rahmen von Gesundheits-Check-ups oder eben, wie in unserem Beispiel gezeigt, bei Messungen an Blutspendern [3, 4]. Sind die Labor­ergebnisse wie beim Albumin zudem in etwa symmetrisch verteilt, so ist es leicht, einige wenige Ausreißer mithilfe einer Kasten­grafik (Boxplot) zu entfernen und die Referenzgrenzen überschlägig aus den Parametern µ und σ einer Normalverteilung zu schätzen (s. Kasten). Als intuitiv nutzbares Hilfsmittel für diese Schätzung hat sich der sog. Quantil-Quantil-Plot (QQ-Plot) bewährt.
Alle Berechnungen und Grafiken lassen sich in diesem einfachen Fall ohne großen Rechenaufwand auf einem Excelblatt erstellen. Abb. 1 zeigt links einen Boxplot aus aufsteigend sortierten Albuminwerten (ALB).

Die blauen Punkte repräsentieren die zu entfernenden Ausreißer. Rechts ist der Quantil-Quantil-Plot gezeichnet. Auf der x-Achse befinden sich die theo­retischen Quantile 0,025 bis 0,975 der Standard­normalverteilung, die man mit der Excelfunktion NORM.INV berechnen kann [5]. Auf der y-Achse sind die entsprechenden Quantile der Albuminwerte aufgetragen.  
Falls die bereinigten Daten wie im vorliegenden Fall in etwa normalverteilt sind, ergibt sich ungefähr eine Gerade. Von dieser kann man die Grenzen bei etwa x = -2 und x = +2 ablesen (gestrichelte Pfeile) oder aus der Regressionsgleichung berechnen:
Untergrenze = 42,26 - 2 ․ 4,12 = 34,0
Obergrenze = 42,26 + 2 ․ 4,12 = 50,5
Die zu prüfenden Herstellerangaben lauten hier 35,6 bis 46,1 g/l, sind also im Vergleich zum berechneten Referenzintervall etwas zu eng. Nach einer – in der Literatur durchaus kritisch bewerteten [8] – Daumenregel sollen die Prüfergebnisse von den Vorgaben nicht mehr als ±10 % des jeweiligen Referenzbereichs abweichen. Akzeptiert man hier also eine Toleranz von ±1,65 g/l, so ist die Untergrenze des Herstellers noch akzeptabel, die Obergrenze jedoch zu niedrig.
Sind die Werte – wie etwa bei den Trans­aminasen – nicht symmetrisch, sondern linksgipflig verteilt, so sollte man sie für die überschlägige Prüfung logarithmieren [6], ehe man die Ausreißer entfernt und die Referenzgrenzen schätzt. Das Ergebnis muss dann delogarithmiert werden, um das Referenzintervall zu erhalten.
Die statistischen Grundlagen dieses einfachen Prüfverfahrens werden in [5] und [7] erläutert oder auch online in zertifizierten Fortbildungskursen der Trillium Akademie (trillium.de/akademie.html) vermittelt. 

Periodische Routineprüfung

Die Kombination aus Boxplot und Quantil-Quantil-Plot wird in der Literatur in zahlreichen Varianten eingesetzt, um Referenzintervalle aus relativ homogenen Studiendaten zu schätzen. In der Praxis ergeben sich jedoch zwei Probleme:
Routinedaten sind nur selten so „sauber“ wie in Abb. 1, sodass die patho­logischen Ausreißer mit dem Standardboxplot nicht sicher abgetrennt werden können.
Die geforderte periodische Überprüfung von mehreren hundert Referenzintervallen pro Jahr stellt einen enormen Arbeitsaufwand dar, der wohl kaum händisch mit Excel zu bewältigen ist.
Aus diesem Grunde stellen wir im Folgenden eine Weiterentwicklung vor, die mit sehr kurzen Rechenzeiten im Millisekunden­bereich und 100 bis 200 Routinewerten pro Subgruppe einen schnellen Überblick liefert, welche Referenzintervalle dringend überprüft werden müssen und welche belassen werden können. Dafür schlagen wir ein Ampelfarbensystem vor (Abb. 2), das in weiteren Studien überprüft und gegebenenfalls verfeinert werden sollte.

zlog und iBoxplot95

Das neue Verfahren beinhaltet zur Vereinfachung und Beschleunigung zwei Modifikationen der obigen Excel-Methode: Zum einen arbeitet es nicht mit den Originalwerten, sondern mit sog. zlog-Werten [9], zum anderen verzichtet es auf den Quantil-Quantil-Plot und intensiviert stattdessen die Ausreißerentfernung mittels Boxplot so, dass nach mehreren Iterationen nur noch die zentralen 95 % der Werte einer angenommenen Referenz­population übrigbleiben.
Die Vorteile dieser Vereinfachung liegen auf der Hand: Durch die zlog-Standardisierung erhält man transformierte Werte, die im Referenzintervall in etwa symmetrisch verteilt sind und deren theoretische Referenzgrenzen zwischen -1,96 und +1,96 liegen (Abb. 2, x-Achse); durch die iterative Trunkierung entfällt ferner die Notwendigkeit, ein Referenz­intervall zu berechnen. Es genügt, den niedrigsten und höchsten zlog-Wert mit den obigen theo­retischen Referenzgrenzen zu vergleichen, um eine überschlägige Aussage über deren Gültigkeit zu machen.
Als vorläufige Toleranzbereiche für die (zlog-transformierten) Referenzgrenzen des Herstellers schlagen wir ±10 % des Referenzbereichs von 3,92 vor. Liegt der zlog-Wert der berechneten Unter- oder Obergrenze in diesem Bereich, so wird der jeweilige Grafikbalken grün gefärbt. Rot gekennzeichnet werden deutliche Abweichungen von mehr als 20 %, Abweichungen dazwischen sind gelb.
Den neuen Trunkierungs-Algo­rithmus haben wir iBoxplot95 genannt. Dabei steht das i für die iterative Vorgehensweise und der Terminus Boxplot95 für das zugrunde liegende statistische Verfahren, das von den zentralen 50 % innerhalb der „Box“ (Abb. 1, links) auf die zentralen 95 % der Referenzwerte schließt. Ein automatisierbarer Implementierungsvorschlag in der Programmiersprache R mit Erläuterung des theoretischen Hintergrunds kann nach kos­tenloser Anmeldung bei myTrillium unter www.trillium.de/services/software heruntergeladen werden.

Interpretation

Abb. 2 zeigt das Ergebnis der Berechnung am Beispiel von Albumin (ALB) und Alanin-Aminotransferase (ALT) aus dem oben erwähnten, frei verfügbaren Leberdatensatz. 

Dabei wurden diesmal die Werte von Blutspendern und Hepatitispatienten gemischt, wie man dies auch bei Routinedaten aus dem Laborinformationssystem erwarten würde.
Die durchgezogene Linie entspricht der Dichtekurve einer trunkierten Standardnormalverteilung im Bereich von -1,96 bis +1,96. Wenn die eigenen, als Histogramm dargestellten Werte zu diesem erwarteten (also vom Hersteller vorgegebenen) Referenzintervall passen, sollte die gestrichelte Dichtkurve etwa die gleiche Lage und Streuung wie die theoretische Kurve aufweisen. Wenn nicht, erkennt man eine intuitiv interpretierbare Abweichung zwischen der durchgezogenen und der gestrichelten Dichtekurve. Es zeigt sich, dass das vom Hersteller geschlechtsunabhängig angegebene Referenzintervall für Albumin nur für Frauen geeignet ist. Die gestrichelte Kurve der Männer ist dagegen nach rechts verbreitert, und die aus den Echtdaten geschätzte Obergrenze liegt entsprechend weit außerhalb des rot gefärbten Toleranzbereichs. In diesem Fall sollte das Referenz­intervall für Männer korrigiert werden.
Bei der ALT ist der Gipfel der experimentell ermittelten Dichtekurve für die Frauen leicht nach links, für die Männer leicht nach rechts verschoben. Die Streuung entspricht dagegen in etwa der Vorgabe. Die gelbe Markierung besagt folglich, dass die Obergrenze des Herstellers überprüft werden sollte, aber nicht unbedingt eine Korrektur benötigt.
Der hier verwendete Datensatz enthält auch Werte für weitere Lebertests wie etwa Gamma-GT oder Bilirubin. Die Auswertung mit dem hier vorgestellten Verfahren ergab, dass von insgesamt 32 Referenzgrenzen des Herstellers nur 14 (44 %) grün markiert wurden und 7 rot markierte (22 %) einer Korrektur bedürfen. Dieser Befund bestätigt einmal mehr, dass eine lokale RI-Prüfung sinnvoll und nötig ist.   

Autoren
Prof. Dr. med. Georg Hoffmann
Herausgeber
Prof. Dr. Frank Klawonn
Helmholtz-Zentrum für Infektionsforschung
Im Kontext