Aspekte der Fallzahlkalkulation und Powerberechnung anhand von Beispielen aus der rehabilitationswissenschaftlichen Forschung

M. Kutschmann; R. Bender; U. Grouven; G. Berg

doi:10.1055/s-2006-940113

Rehabilitation (Stuttg) 2006; 45(6): 377-384
DOI: 10.1055/s-2006-940113

Methoden in der Rehabilitationsforschung

Aspekte der Fallzahlkalkulation und Powerberechnung anhand von Beispielen aus der rehabilitationswissenschaftlichen Forschung

Aspects of Sample Size Determination and Power Calculation Illustrated on Examples from Rehabilitation ResearchM. Kutschmann¹ , R. Bender² , U. Grouven² , G. Berg¹

¹AG Epidemiologie & International Public Health, Fakultät für Gesundheitswissenschaften, Universität Bielefeld
²Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen, Köln

Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, SiegburgInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@web.de

Abstract

Zusammenfassung

Vielfach wird in medizinischen Studien berichtet, dass ein vermuteter Effekt, z. B. bezüglich der Wirksamkeit einer Maßnahme, nicht gefunden werden konnte. Dies kann damit zusammenhängen, dass die Zahl der in die Studie eingeschlossenen Patienten zu klein war, um einen tatsächlich vorhandenen Effekt entdecken zu können. Oft ist dies darauf zurückzuführen, dass vor Beginn der Studie eine solide Fallzahlkalkulation nicht durchgeführt wurde. Damit fehlen Informationen darüber, wie viele Patienten man hätte einschließen müssen, um den vermuteten Effekt, sofern er vorhanden ist, auch nachweisen zu können. Auf der anderen Seite besteht die Gefahr einer fehlenden Fallzahlkalkulation darin, dass mehr Personen als nötig in die Studie eingeschlossen werden. Dies ist aus zeit- und kostenökonomischen, insbesondere aber auch aus ethischen Gründen bedenklich. Im vorliegenden Beitrag wird das Prinzip der Fallzahlkalkulation erläutert und auf seine Bedeutung - insbesondere in der rehabilitationswissenschaftlichen Forschung - eingegangen.

Abstract

Often it is reported in medical studies that an expected effect could not be detected. This may be the case if the sample size had been too small to detect an effect which actually exists. This often is due to the fact that sound sample size estimation had been omitted prior to the study outset. As a result, it is not known how many persons should have been involved in the study to detect this effect if present. On the other hand, if sample size estimation has not been realized, more persons than needed might be included in the study. This is problematic for economic and in particular for ethical reasons. The aim of this paper is to point out the principles of sample size estimation as well as to emphasize its importance not only in general but also in medical rehabilitation research.

Schlüsselwörter

Power - Fallzahl - Stichprobenumfang - Signifikanz - relevanter Unterschied

Key words

Power - sample size - significance - relevant difference

Volltext

Referenzen

Literatur

1 Bock J. Bestimmung des Stichprobenumfangs für biologische Experimente und kontrollierte klinische Studien. München; Oldenbourg 1998: 1
2 Beck-Bornholdt H P, Dubben H H. Der Hund der Eier legt - Erkennen von Fehlinformationen durch Querdenken. Reinbek; Rowohlt 2001: 113-114
3 Dubben H H, Beck-Bornholdt H P. Was ist Power und warum ausgerechnet 80 %?. Medizinische Klinik. 1999; 94, Suppl II 5-7
4 Faller H. Signifikanz, Effektstärke und Konfidenzintervall. Rehabilitation. 2004; 43 174-178
5 Knottnerus J A, Bouter L M. The ethics of sample size: Two-sided testing and one-sided thinking. Journal of Clinical Epidemiololgy. 2001; 54 109-110
6 Bland J M, Altman D G. One and two sided tests of significance. British Medical Journal. 1994; 309 248
7 Lange S, Bender R. Was ist ein Signifikanztest? - Allgemeine Aspekte. Deutsche Medizinische Wochenschrift. 2001; 126 T42-T44
8 Bender R, Lange S, Ziegler A. Wichtige Signifikanztests. Deutsche Medizinische Wochenschrift. 2002; 127 T1-T3
9 Hartung J. Statistik - Lehr- und Handbuch der angewandten Statistik. München; Oldenbourg 1991: 891
10 Lehr R. Sixteen s-squared over d-squared: A relation for crude sample size estimates. Statistics in Medicine. 1992; 11 1099-1102
11 Beaupre L A, Lier D, Davies D M, Johnston D BC. The effect of a preoperative exercise and education program on functional recovery, health related quality of life, and health service utilization following primary total knee arthroplasty. Journal of Rheumatology. 2004; 31 (6) 1166-1173
12 Lehmacher W, Wassmer G. Adaptive sample size calculations in group sequential trials. Biometrics. 1999; 55 1286-1290
13 Cohen J. A power primer. Psychological Bulletin. 1992; 112 155-159
14 Lenth R V. Some practical guidelines for effective sample size determination. American Statistician. 2001; 55 187-193
15 Hoening J M, Heisey D M. The abuse of power: The pervasive fallacy of power calculations for data analysis. American Statistician. 2001; 55 19-24
16 Schulz K F, Grimes D A. Fallzahlschätzung in randomisierten Studien: ein Muss und ein Mysterium. Zeitschrift für ärztliche Fortbildung und Qualität im Gesundheitswesen. 2006; 100 129-135
17 Bock J, Toutenburg H. Sample size determination in clinical research. In: Rao CR, Chakraborty R (eds) Handbook of Statistics (Vol. 8). Amsterdam; Elsevier 1991: 515-538
18 Lachin J M. Introduction to sample size determination and power analysis for clinical trials. Controlled Clinical Trials. 1981; 2 93-113
19 Julious S A. Sample sizes for clinical trials with normal data. Statistics in Medicine. 2004; 23 1921-1986
20 Ortseifen C, Bruckner T, Burke M, Kieser M. An overview of software tools for sample size determination. Informatik, Biometrie und Epidemiologie in Medizin und Biologie. 1997; 28 91-118

1 Der Zusammenhang dieser drei Größen wird im Abschnitt „Zusammenhang zwischen Fallzahl, Power, Signifikanzniveau, relevantem Unterschied und Zielgrößenvariabilität” noch ausführlicher erläutert.

2 Dabei wird das Konzept des Signifikanztests nach J. Neyman und E. Pearson zugrunde gelegt. Sie erweitern die Konzepte von R. A. Fisher, in denen lediglich eine Nullhypothese betrachtet wird, um die Alternativhypothese. Zum Fehler 1. Art kommt so noch der Fehler 2. Art hinzu, ohne dessen Berücksichtigung Fallzahlberechnungen und Powerkalkulationen nicht möglich wären.

3 Die relevante Differenz von 21 AU-Tagen wurde auf Grundlage der Überlegung gewählt, was eine Rehabilitationsmaßnahme mindestens leisten muss, um als erfolgreich betrachtet werden zu können. Man kam zu dem Schluss, dass dies der Fall ist, wenn die Zeit der Arbeitsunfähigkeit um mindestens drei Wochen reduziert werden kann.

Dr. Marcus Kutschmann

Universität Bielefeld · Fakultät für Gesundheitswissenschaften · AG Epidemiologie & International Public Health

Universitätsstraße 25

33615 Bielefeld

eMail: marcus.kutschmann@uni-bielefeld.de