Es gibt medizinische Zeitschriften, bei denen – etwas übertrieben formuliert – fast jede auf Daten basierende Aussage durch einen p-Wert gerechtfertigt werden muss, wodurch der p-Wert als eines der wichtigsten Konzepte in der Statistik geadelt wird.
Auf der anderen Seite gibt es – insbesondere seitens der Bayes’schen Schule – scharfe und grundsätzliche Kritik an der Verwendung von p-Werten.
Der p-Wert soll hier weder heiliggesprochen noch verteufelt werden. Nein, es geht um das Verständnis der Hintergründe, um p-Werte beurteilen und kritisch hinterfragen zu können.
Definitionen
p-Werte dienen in der Medizin der statistischen Überprüfung einer medizinischen Vermutung wie beispielsweise: Therapie A ist wirksamer als Therapie B. Um solch eine Vermutung zu erhärten, führt man typischerweise eine klinische Studie durch, bei der ein Teil der Patient:innen Therapie A, der andere Therapie B erhält. Man definiert nun ein messbares Kriterium für den Outcome und unterzieht die Ergebnisse für die beiden Gruppen einem Hypothesentest.
Der Test liefert die Wahrscheinlichkeit für die Annahme, dass etwaige Unterschiede zwischen den beiden Gruppen durch puren Zufall erklärbar sind. Diese skeptische Annahme heißt Nullhypothese. Die Wahrscheinlichkeit wird mit dem Buchstaben p (für probability) bezeichnet und ist eine Zahl zwischen 0 und 1 oder zwischen 0 % und 100 %. Je kleiner der p-Wert, desto unwahrscheinlicher ist es, dass die Nullhypothese zutrifft, und desto eher darf man folglich annehmen, dass der beobachtete Unterschied im Outcome auf einem positiven Effekt von Therapie A beruht.
Es ist in der Medizin und anderen biologischen Wissenschaften üblich, die Nullhypothese bei einem p-Wert unter 0,05 (5 %) abzulehnen und das Studienergebnis für „statistisch signifikant“ zu erklären. Bei der Deutung des p-Werts muss man sich immer vor Augen halten, dass statistische Signifikanz nichts über die medizinische Bedeutung des Studienergebnisses aussagt. Der p-Wert gibt – wie gesagt – nur eine Wahrscheinlichkeit dafür an, dass etwaige Unterschiede im Outcome der beiden Gruppen durch Zufall zu erklären sind.
Ein Beispiel
Als klinisches Beispiel für solch einen statistischen Hypothesentest betrachten wir die Überprüfung der Wirksamkeit einer neuen Kombinationstherapie im Vergleich zur klassischen Prostatektomie. Wir erwarten als Outcome-Kriterium, dass etwa 30 % der nur chirurgisch behandelten Männer innerhalb von fünf Jahren ein „biochemisches Rezidiv“, also einen Wiederanstieg des Prostata-spezifischen Antigens (PSA), aufweisen [1].
Es wird nun eine Therapiestudie mit 200 Patienten durchgeführt, die dem Vergleichskollektiv bezüglich Alter und Tumorstadium ähnlich sind. Damit sich die neue Therapie als überlegen erweisen kann, müssten unter diesen 200 Patienten also weniger als 60 (30 %) innerhalb von fünf Jahren einen PSA-Anstieg aufweisen.
Was aber heißt „weniger“? Als Nachweis der besseren Wirksamkeit der neuen Therapie wird es sicher nicht genügen, wenn 59 statt 60 Personen ein Rezidiv aufweisen. Der Unterschied von nur einem Fall dürfte innerhalb der zufälligen Schwankungsbreite liegen. Theoretisch könnte es auch passieren, dass rein zufällig keiner der Erkrankten ein Rezidiv aufweist. Die Wahrscheinlichkeit für einen solchen Zufall ist jedoch extrem klein. Sie liegt bei ca. 10–29 %.
Nehmen wir nun als realistisches Szenario an, dass unter der neuen Therapie 50 Personen (also 25 %) ein Rezidiv erlitten. Wie wahrscheinlich wäre es, dass höchstens 50 (statt 60) Patienten rein zufällig einen PSA-Anstieg aufweisen, obwohl die neue Therapie der Prostatektomie unter der Nullhypothese keinerlei Vorteil bringt?
Die Wahrscheinlichkeit p, dass die Rezidivrate von 25 % durch puren Zufall beobachtet wurde, lässt sich mit der Binomialverteilung* ausrechnen: Sie liegt bei ca. 7 %. Dieser p-Wert besagt: Obwohl bei der neuen Therapie eine Rezidivrate von nur 25 % beobachtet wurde, besteht eine Wahrscheinlichkeit von immerhin ca. 7 %, dass sich der Unterschied rein zufällig ergeben hat, sprich: dass die neue Therapie vermutlich keinen Vorteil bringt.
Tab. 1 zeigt, dass der p-Wert abnimmt, je weiter sich die beobachtete Rezidivrate vom Vergleichswert 30 % entfernt. Ab einem p-Wert unter 0,05 (hier 48 Rezidive) spricht man von einem „statistisch signifikanten“ Effekt, bei p-Werten unter 0,01 (hier 47 Rezidive) nennt man den Effekt in der Medizin gern „hoch signifikant“.