Irrtumswahrscheinlichkeiten bei multiplen Signifikanztests
Irrtumswahrscheinlichkeiten bei multiplen Signifikanztests
Häufig werden in der biomedizinischen Forschung zum Nachweis von Effekten oder Zusammenhängen
statistische Signifikanztests [9] verwendet und das Ergebnis in Form von p-Werten [4] angegeben. Ist dieser p-Wert kleiner als das vorgegebene Signifikanzniveau α (häufig α = 0,05), so wird
die Nullhypothese, dass kein Effekt existiert, verworfen. Das Signifikanzniveau α
begrenzt die Wahrscheinlichkeit für den Fehler 1. Art, nämlich beim Ablehnen der Nullhypothese
eine falsche Entscheidung zu treffen. Die Kontrolle dieser Irrtumswahrscheinlichkeit
ist die wesentliche Eigenschaft eines Signifikanztests zum Niveau α. Die Begrenzung
der Irrtumswahrscheinlichkeit auf höchstens α gilt allerdings nur beim Testen einer Hypothese mit Hilfe eines Signifikanztests. Werden zur Untersuchung einer Fragestellung mehrere Tests jeweils
zum Niveau α durchgeführt (Mehrhypothesenproblem), so wird zwar für jeden einzelnen
Test die individuelle Irrtumswahrscheinlichkeit (engl.: individual error rate) kontrolliert, die versuchsbezogene Irrtumswahrscheinlichkeit (engl.: experimentwise error rate) für das gesamte Mehrhypothesenproblem ist jedoch
größer als α.
Zur Beschreibung der Testeigenschaften im Rahmen von Mehrhypothesenproblemen müssen
verschiedene Signifikanzniveaus unterschieden werden. Bei der Anwendung multipler
Tests hält man das lokale Signifikanzniveau (engl.: local significance level) von α ein, wenn jede individuelle Nullhypothese
höchstens mit Wahrscheinlichkeit α irrtümlich abgelehnt wird. Die versuchsbezogene
Irrtumswahrscheinlichkeit ist jedoch durch die Wahrscheinlichkeit gegeben, mindestens
eine der individuellen Nullhypothese irrtümlich abzulehnen; um diese zu kontrollieren,
genügt nicht die Einhaltung des lokalen Signifikanzniveaus. Ein multiples Testverfahren
hält das globale Signifikanzniveau (engl.: global significance level) von α ein, wenn die Wahrscheinlichkeit, mindestens
eine der einzelnen Nullhypothesen abzulehnen, unter der Annahme, dass alle Nullhypothesen
zutreffen, höchstens α beträgt. Die Annahme der globalen Nullhypothese, nämlich dass
alle einzelnen Nullhypothesen gleichzeitig richtig sind, ist jedoch in der Praxis
meist unrealistisch. In der Regel möchte man sich vor der Fehlentscheidung schützen,
mindestens eine wahre Nullhypothese abzulehnen, und zwar unabhängig davon, welche
der anderen Nullhypothesen wahr oder falsch sind. Daher ist das multiple Signifikanzniveau (engl.: multiple significance level) definiert als die maximale Wahrscheinlichkeit
mindestens eine der einzelnen Nullhypothesen irrtümlich abzulehnen, unabhängig davon,
welche der anderen Nullhypothesen richtig sind und welche nicht. Die Einhaltung des
multiplen Signifikanzniveaus ist das stärkste Kriterium, um sich bei der Anwendung
multipler Signifikanztests vor Fehlentscheidungen zu schützen [2]
[8].
Allgemeine Methoden
Allgemeine Methoden
Die Berechnung der versuchsbezogenen Irrtumswahrscheinlichkeit ist einfach, wenn es
sich um unabhängige Tests handelt (z. B. beim Testen jeweils einer Hypothese in mehreren sich nicht überschneidenden
Gruppen). Falls k unabhängige Signifikanztests jeweils zum lokalen Niveau α durchgeführt
werden, so ist die Wahrscheinlichkeit für einen einzelnen Test, diesen korrekterweise
abzulehnen, 1-α. Da die Tests unabhängig sind, ist die Wahrscheinlichkeit, alle k
Tests korrekterweise abzulehnen, das Produkt der einzelnen Wahrscheinlichkeiten, also
(1-α) k. Damit ist die Wahrscheinlichkeit, mindestens eine der k Nullhypothesen fälschlicherweise
abzulehnen 1-(1-α) k. Mit steigender Zahl der Tests steigt auch die versuchsbezogene Irrtumswahrscheinlichkeit.
Bei α = 0,05 und k = 100 unabhängigen Tests beträgt die versuchsbezogene Irrtumswahrscheinlichkeit
1-(1 - 0,05)100 = 0,994
Mit anderen Worten: Beim Testen von 100 unabhängigen, in Wahrheit richtigen Nullhypothesen
erhält man fast sicher mindestens ein falsch signifikantes Resultat. Mit Hilfe dieser
Berechnung lässt sich auch eine einfache Korrektur für multiples Testen durchführen.
Das als idák-Methode bekannte Verfahren besagt, dass man das multiple Signifikanzniveau
von α einhält, wenn man die k einzelnen Tests jeweils zum Niveau 1-(1-α)1/k durchführt [13].
Die Berechnung der versuchsbezogenen Irrtumswahrscheinlichkeit ist weitaus schwieriger,
wenn es sich um abhängige Tests handelt (z. B. Signifikanztests bezüglich mehrerer Zielvariablen der gleichen
Stichprobe). Dies ist in der Praxis der häufigste Fall. Da die versuchsbezogene Irrtumswahrscheinlichkeit
von der Abhängigkeitsstruktur der Tests untereinander abhängt, kann man keine allgemein
gültige Formel herleiten. Man kann aber die versuchsbezogene Irrtumswahrscheinlichkeit
nach oben abschätzen: sie kann auf keinen Fall größer sein als die Summe der individuellen
Irrtumswahrscheinlichkeiten, d. h. die versuchsbezogene Irrtumswahrscheinlichkeit
bei k (möglicherweise abhängigen) Tests jeweils zum Niveau α ist ≤ k × α. Aus dieser
Ungleichung leitet sich die bekannte Bonferroni-Methode [7] ab, die besagt, dass man das multiple Signifikanzniveau von α einhält, wenn man
die einzelnen Tests jeweils zum Niveau α/k durchführt. Alternativ hierzu kann man
auch die einzelnen p-Werte mit k multiplizieren, um für multiples Testen adjustierte
p-Werte zu erhalten.
Die Bonferroni-Methode ist sehr einfach durchzuführen und global anwendbar auf alle
multiplen Testsituationen. Sie hat allerdings den Nachteil, dass sie - bedingt durch
die grobe Abschätzung der versuchsbezogenen Irrtumswahrscheinlichkeit - die Macht
(engl.: power) der Tests unnötigerweise stark reduziert, insbesondere wenn die Zahl
der Tests hoch ist und die Tests untereinander stark korreliert sind. Daher wurden
in den letzten Jahren eine Reihe weiterer multipler Testprozeduren entwickelt. Diese
kann man einteilen in allgemein anwendbare Methoden und solche, die für spezielle
Testsituationen entwickelt wurden. Bei den allgemein anwendbaren Verfahren sind in
erster Linie die Verfahren zu nennen, die sich aus dem Abschlusstest-Prinzip (engl.:
closed test principle) herleiten [14], sowie neuere rechenintensive Verfahren, die auf Resampling [16] basieren. Beim Abschlusstest-Prinzip wird die logische Struktur der einzelnen Hypothesen
ausgenutzt. Ein vereinfachtes Abschlusstest-Verfahren stellt z. B. die bekannte Methode
von Holm dar [1]. Unter Resampling versteht man die Erzeugung einer großen Zahl von Pseudo-Datensätzen
durch wiederholte Stichprobenziehung mit Zurücklegen aus dem Ausgangsdatensatz. Auf
diese Weise ist es möglich, Informationen über die Abhängigkeiten und Verteilungseigenschaften
der einzelnen Teststatistiken zu gewinnen und auszunutzen. Auf diese Verfahren kann
im Rahmen dieses Artikels nicht im Detail eingegangen werden. Für spezielle Multiplizitätssituationen
gibt es eine Reihe bekannter Verfahren, die im Folgenden kurz zusammengefasst werden.
Eine ausführlichere Übersicht findet man in der Literatur [5]
[8].
Mehr als 2 Gruppen
Mehr als 2 Gruppen
Für den Vergleich von mehr als 2 Mittelwerten mit Hilfe der Varianzanalyse [6] existieren die meisten multiplen Testprozeduren. Mit Hilfe des F-Tests kann entschieden werden, ob es überhaupt Unterschiede zwischen den Gruppen
gibt; die anschließende Anwendung einer multiplen Testprozedur gibt Aufschluss darüber,
zwischen welchen Gruppen Unterschiede bestehen. Die bekanntesten Prozeduren, die auch
häufig in statistischen Programmpaketen enthalten sind, sind die simultanen Testprozeduren
von Scheffé und Tukey, die Methode von Dunnett, bei der mehrere Gruppen jeweils mit
der gleichen Referenzgruppe verglichen werden, und das mehrstufige Verfahren von Ryan,
Einot, Gabriel und Welsch (REGW-Prozedur). All diese Verfahren kontrollieren das multiple
Signifikanzniveau, zumindest in balancierten Designs (d. h. mit gleichen Stichprobenumfängen
pro Gruppe). Für den häufigen Fall von 3 Gruppen gibt es die einfache Methode nach
Bonferroni-Holm-Shaffer, die das multiple Signifikanzniveau kontrolliert. Zunächst
testet man mit einem globalen Test zum Niveau α (z. B. F-Test oder Kruskal-Wallis-Test), ob überhaupt signifikante Unterschiede zwischen den
3 Gruppen bestehen. Nur wenn der globale Test signifikant ist, kann im nächsten Schritt
mit paarweisen Vergleichen (z. B. t-Test oder Wilcoxon Rangsummentest) ebenfalls zum Niveau α getestet werden, zwischen
welchen Gruppen die Unterschiede bestehen.
Mehr als 1 Endpunkt
Mehr als 1 Endpunkt
Der Fall multipler Endpunkte ist das häufigste Multiplizitätsproblem in klinischen
Studien. Es gibt mehrere mögliche Strategien zum Umgang mit multiplen Endpunkten.
Die einfachste Möglichkeit ist, einen einzigen primären Endpunkt zu spezifizieren.
Dies macht eine Adjustierung für multiples Testen unnötig; allerdings sind dann Signifikanztests
bezüglich sekundärer Endpunkte untergeordnete Analysen und nur einer explorativen
Interpretation zugänglich. Zweitens können multiple Endpunkte zu einem einzigen Endpunkt
aggregiert (zusammengefasst) werden. In der UK Prospective Diabetes Study (UKPDS)
wurden z. B. Ereignisse wie Tod durch Hyperglykämie oder Hypoglykämie, Nierenversagen,
Amputation, Blindheit u. a. zur Zielvariable „irgendein diabetesbezogener Endpunkt”
zusammengefasst [15]. Allerdings erhält man dann keine Resultate für die einzelnen Endpunkte. Drittens
können multivariate Methoden, z. B. eine multivariate Varianzanalyse (MANOVA) verwendet
werden, wobei jedoch auch hier, wie bei aggregierten Endpunkten, keine Interpretation
der einzelnen Variablen möglich ist. Falls es mehrere gleichwertige Endpunkte gibt,
von denen kein primärer Endpunkt spezifiziert werden kann, oder falls die Resultate
der einzelnen Endpunkte interessieren, so ist die Anwendung einer multiplen Testprozedur
notwendig. Hierfür können wiederum die o. g. allgemeinen Methoden nach dem Abschlusstest-Prinzip
[8]
[14] und die Resampling-Verfahren [16] verwendet werden.
Messwertwiederholungen
Messwertwiederholungen
Obwohl hochentwickelte statistische Methoden zur Analyse von Messwertwiederholungen
vorhanden sind, gibt es beim Vorliegen von Messwertwiederholungen nur sehr wenige
multiple Testprozeduren für ganz spezielle Datensituationen. Handelt es sich um Verlaufskurven,
so kann in vielen Fällen das Multiplizitätsproblem verringert oder sogar ganz vermieden
werden, wenn anstelle der Verlaufskurven geeignete Kurvenkenngrößen ausgewertet werden
[4]. Dies führt oftmals zu varianzanalytischen Fragestellungen, die mit den entsprechenden
Methoden untersucht werden können (siehe oben).
Subgruppen-Analysen
Subgruppen-Analysen
In aller Regel sind Subgruppenanalysen schwierig zu interpretieren. Prinzipiell gilt,
dass Analysen bezüglich a posteriori definierten Subgruppen nur explorativen Charakter
haben, egal ob für multiples Testen adjustiert wird oder nicht. Ist die Untersuchung
eines Effektunterschieds zwischen a priori definierten Subgruppen das Ziel einer konfirmatorischen
Studie, so ist die adäquate Methode im Allgemeinen ein Test auf Signifikanz der entsprechenden
Wechselwirkung. Zur Untersuchung der unterschiedlichen Effekte in den Subgruppen können
die klassischen Methoden nach dem Abschlusstest-Prinzip [8]
[14] und die Resampling-Verfahren [16] verwendet werden.
Zwischenauswertungen
Zwischenauswertungen
Häufig werden in klinischen Studien Daten über längere Zeiträume gesammelt und bereits
vor dem definierten Ende der Studie Zwischenauswertungen durchgeführt. Bei solchen
Studien besteht die Möglichkeit, die Studie ggf. vorzeitig abbrechen zu können, so
dass möglichst wenige Patienten eingeschlossen werden und die Effektivität neuer Therapiemethoden
möglichst früh erkannt wird. Prinzipiell führen Zwischenauswertungen zu einer Erhöhung
der Irrtumswahrscheinlichkeit 1. Art. Daher muss eine adäquate Adjustierung für multiples
Testen vorgenommen werden. Eine einfache Regel, die in der Praxis häufig ausreicht,
ist die folgende: Wenn man bei Vorliegen eines Endpunkts und höchstens 10 Zwischenauswertungen
jeweils zum Niveau α = 0,01 testet, so hält man insgesamt das Signifikanzniveau von
α = 0,05 ein. Die erforderlichen Signifikanzniveaus für andere Anzahlen von Zwischenauswertungen
lassen sich mit der Methode von Pocock [11] berechnen. Der Nachteil dieser Methode ist, dass auch am Ende der Studie mit dem
gleichen niedrigen Niveau wie bei den Zwischenauswertungen getestet werden muss. Es
gibt eine Reihe von Verfahren, die es ermöglichen, am Ende der Studie möglichst nahe
am Niveau α = 0,05 zu testen; dafür werden vorher die Zwischenauswertungen zu einem
sehr viel kleineren Signifikanzniveau durchgeführt. Eines der bekanntesten Verfahren
dieser Art ist das von O’Brien und Fleming [10].
Wann muss multiples Testen berücksichtigt werden?
Wann muss multiples Testen berücksichtigt werden?
Es stellt sich nun die Frage, in welchen Fällen eine Adjustierung für multiples Testen
notwendig ist und wann nicht. Prinzipiell gilt, dass keine Berücksichtigung für multiples
Testen erforderlich ist, wenn es genügt, das lokale Signifikanzniveau einzuhalten.
Soll dagegen das multiple oder zumindest das globale Signifikanzniveau kontrolliert
werden, so ist eine Adjustierung für multiples Testen zwingend erforderlich. Schwieriger
ist nun die Beurteilung, in welchen Situationen welches Signifikanzniveau eingehalten
werden sollte; dies wird in der Literatur kontrovers beurteilt [5]
[12]. In explorativen Versuchen, in denen häufig eine Vielzahl von Signifikanztests verwenden
werden, um Hypothesen zu generieren, halten wir die Anwendung multipler Testprozeduren
nicht für unbedingt erforderlich. „Signifikante” Ergebnisse solcher Studien haben
jedoch nur explorativen Charakter und müssen als solche kenntlich gemacht werden.
Darüber hinaus ist selbstverständlich eine konfirmatorische Validierung dieser Resultate
in späteren Studien erforderlich.
In konfirmatorischen Versuchen sollte sorgfältig überprüft werden, ob die Anwendung
einer multiplen Testprozedur erforderlich ist. Hierfür muss zunächst definiert werden,
welche Signifikanztests eine inhaltlich zusammenhängende Familie von Tests zur Untersuchung
einer Fragestellung darstellen [12]. Ein „blindes” Adjustieren für multiples Testen mit Verfahren wie der Bonferroni-Methode
ist nicht sinnvoll, insbesondere dann nicht, wenn aus den einzelnen Tests gar keine
gemeinsame Schlussfolgerung gezogen werden soll. Liegt allerdings eine klar definierte
Fragestellung in Form eines Mehrhypothesenproblems vor, dann ist für die Familie inhaltlich
zusammenhängender Tests zur Einhaltung des multiplen Signifikanzniveaus die Anwendung
einer adäquaten multiplen Testprozedur erforderlich. Denn nur dann kann in sinnvoller
Weise der Fehler 1. Art kontrolliert werden.
Tab. 1 Übersetzung (deutsch - englisch).
<TD VALIGN="TOP">
Signifikanztest
</TD><TD VALIGN="TOP">
significance test
</TD>
<TD VALIGN="TOP">
p-Wert
</TD><TD VALIGN="TOP">
p value
</TD>
<TD VALIGN="TOP">
Signifikanzniveau
</TD><TD VALIGN="TOP">
significance level
</TD>
<TD VALIGN="TOP">
Fehler 1. Art
</TD><TD VALIGN="TOP">
type 1 error
</TD>
<TD VALIGN="TOP">
individuelle Irrtumswahrscheinlichkeit
</TD><TD VALIGN="TOP">
individual error rate = comparisonwise error rate
</TD>
<TD VALIGN="TOP">
versuchsbezogene Irrtumswahrscheinlichkeit
</TD><TD VALIGN="TOP">
experimentwise error rate = familywise error rate
</TD>
<TD VALIGN="TOP">
lokales Signifikanzniveau
</TD><TD VALIGN="TOP">
local significance level
</TD>
<TD VALIGN="TOP">
globales Signifikanzniveau
</TD><TD VALIGN="TOP">
global significance level
</TD>
<TD VALIGN="TOP">
multiples Signifikanzniveau
</TD><TD VALIGN="TOP">
multiple significance level
</TD>
<TD VALIGN="TOP">
Abschlusstest-Prinzip
</TD><TD VALIGN="TOP">
closed test principle
</TD>
<TD VALIGN="TOP">
paarweise Vergleiche
</TD><TD VALIGN="TOP">
pairwise comparisons
</TD>
<TD VALIGN="TOP">
Macht
</TD><TD VALIGN="TOP">
power
</TD>
<TD VALIGN="TOP">
Varianzanalyse
</TD><TD VALIGN="TOP">
analysis of variance (ANOVA)
</TD>
<TD VALIGN="TOP">
multivariate Varianzanalyse
</TD><TD VALIGN="TOP">
multivariate analysis of variance (MANOVA)
</TD>
<TD VALIGN="TOP">
balanciertes Design
</TD><TD VALIGN="TOP">
balanced design
</TD>
<TD VALIGN="TOP">
Messwertwiederholungen
</TD><TD VALIGN="TOP">
repeated measurements
</TD>
<TD VALIGN="TOP">
Subgruppen-Analysen
</TD><TD VALIGN="TOP">
subgroup analyses
</TD>
<TD VALIGN="TOP">
Wechselwirkung
</TD><TD VALIGN="TOP">
interaction
</TD>
<TD VALIGN="TOP">
Zwischenauswertungen
</TD><TD VALIGN="TOP">
interim analyses
</TD>
<TD VALIGN="TOP">
konfirmatorischer Versuch
</TD><TD VALIGN="TOP">
confirmatory trial
</TD>
<TD VALIGN="TOP">
explorativer Versuch
</TD><TD VALIGN="TOP">
exploratory trial
</TD>
Für viele Standardsituationen sind eine Vielzahl von multiplen Testprozeduren entwickelt
worden. Diese werden bisher in der medizinischen Literatur nicht genügend beachtet.
In der Praxis ist es schwierig, multiples Testen adäquat zu berücksichtigen, wenn
es verschiedene Multiplizitätsebenen gibt (z. B. mehr als 1 Endpunkt und mehr als 2 Gruppen und Messwertwiederholungen). In der Studienplanung sollte man daher darauf achten, dass
Multiplizitätsprobleme so gering wie möglich gehalten werden. Die englischen Bezeichnungen
der hier diskutierten Begriffe zeigt Tab. [1].
kurzgefasst
In konfirmatorischen Studien benötigt man zur Einhaltung des vorgegebenen Signifikanzniveaus
bei der Anwendung multipler Signifikanztests zur Untersuchung einer Fragestellung
Methoden zur Adjustierung für multiples Testen. Bei der Planung von Studien sollten
Multiplizitätsprobleme so gering wie möglich gehalten werden, so dass entweder eine
Adjustierung für multiples Testen unnötig wird oder eine der zahlreichen multiplen
Testprozeduren angewendet werden kann.
Dieser Beitrag ist eine überarbeitete Fassung aus dem Supplement Statistik aus dem
Jahr 2002.