Zusammenfassung
In einem statistischen Testproblem wird eine wissenschaftliche Fragestellung in Form
einer Nullhypothese und einer gegensätzlichen Alternative formuliert. Bei der Konstruktion
einer geeigneten empirischen Entscheidungsregel konzentriert man sich üblicherweise
auf die Kontrolle des Fehlers 1. Art, einer irrtümlichen Ablehnung der Nullhypothese.
Dies hat zur Konsequenz, dass unter Umständen eine nicht unerhebliche Gefahr eines
Fehlers 2. Art besteht. Im Falle eines nicht signifikanten Testergebnisses ist man
also keineswegs sicher, dass die Nullhypothese tatsächlich gültig ist. Im Rahmen der
Planung einer Studie kann man versuchen, einen solchen unerwünschten Ausgang eines
Signifikanztests zu vermeiden. Gelingt dies nicht, so empfiehlt es sich, das nicht
signifikante Testergebnis weitergehend zu bewerten. Dazu bietet es sich an, Konfidenzintervalle
der getesteten Effekte zu erstellen. Der p-Wert kann in seiner Eigenschaft als Metrik
als Maß der Evidenz gegen die Nullhypothese interpretiert werden. Darüber hinaus schätzt
man im Rahmen einer nachträglichen Power-Analyse unter den gegebenen Umständen die
Wahrscheinlichkeit eines signifikanten Testergebnisses. So zeigt sich möglicherweise,
dass der angewandte Test - unter der Annahme der tatsächlichen Gültigkeit der Alternative
- erwartungsgemäß kaum eine Chance gehabt hätte, dies zu erkennen. Anhand einer derartigen
Aussage wird natürlich eine nicht signifikante Testentscheidung, die auf die Nullhypothese
hindeutet, erheblich relativiert. Andererseits deutet eine große Power auf eine geringe
Wahrscheinlichkeit eines Fehlers 2. Art hin.
Abstract
In a statistical significance test a scientific problem is expressed by formulating
a null hypothesis and an opposite alternative. Construction of an empirical decision
rule usually focuses on control of the α-error, i. e. the probability of erroneously
refusing the null hypothesis. Contrary to the α-error, the β-error is not controlled
and in general is of unknown size. Thus in case of a non-significant result the validity
of the null hypothesis still may be highly questionable. Such an unwanted outcome
of an applied test the researcher should try to avoid by choosing an appropriate study
design. In case it occurs nevertheless, it is advised to further evaluate the (non-significant)
result. This can be done by calculating confidence intervals of the tested effects.
Furthermore the p-value can be interpreted as a metric measure of evidence against
the null hypothesis. By means of a posterior power analysis the probability of a significant
test result is estimated under the given circumstances. Thus possibly the applied
test - under the assumption of actual validity of the alternative - turns out to have
had hardly a chance of rejecting the null hypothesis. In this case the non-significant
result (pointing towards the null hypothesis) is relativised substantially. On the
other hand a large power points to a small probability of a β-error.
Schlüsselwörter
Signifikanztest - Fehler 1. Art - Fehler 2. Art - p-Wert - Power
Key words
significance test - α-error - β-error - p-value - power