Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann

M. Wirtz

doi:10.1055/s-2003-814839

Subscribe to RSS

Please copy the URL and add it into your RSS Feed Reader.

https://www.thieme-connect.de/rss/thieme/en/10.1055-s-00000065.xml

Download PDF

Rehabilitation (Stuttg) 2004; 43(2): 109-115
DOI: 10.1055/s-2003-814839

Methoden in der Rehabilitationsforschung

Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann

On the Problem of Missing Data: How to Identify and Reduce the Impact of Missing Data on Findings of Data AnalysisM. Wirtz¹

¹Methodenzentrum des Rehabilitationswissenschaftlichen Forschungsverbunds Freiburg/Bad Säckingen, Freiburg

Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de

Further Information

Publication History

Publication Date:
21 April 2004 (online)

Also available at

Permissions and Reprints

Zusammenfassung

Fehlende Werte stellen ein häufig unterschätztes Problem bei der Analyse empirischer Datensätze dar. Neben der effektiven Verringerung der Stichprobenumfänge muss damit gerechnet werden, dass durch fehlende Angaben statistische Ergebnisse verfälscht werden. Die beiden zentralen Aussagen des Beitrags bestehen darin, dass zum einen die Analyse der Ursachen fehlender Angaben in empirischen Datensätzen fester Bestandteil jeder Datenanalyse sein sollte und zum anderen der Umgang mit fehlenden Werten auf angemessenen Annahmen beruhen sollte, um fehlerhafte Ergebnisse und Probleme bei der Interpretation empirischer Befunde zu vermeiden.

Abstract

The impact of missing data on the analysis of empirical data is a frequently unrecognized problem. Missing data may not only result in a decrease in the actual sample size but potentially biasing effects on statistical findings have to be considered as well. Two important points are made in this article: Firstly, it is shown why the identification of potential causes of missing data should be an inherent part of any data analysis; secondly, the handling of missing data should be based on appropriate assumptions in order to avoid biased results and problems concerning the interpretation of empirical findings.

Schlüsselwörter

Missing-Data-Diagnose - Missing-Data-Prozesse - fallweiser Ausschluss - paarweiser Ausschluss - Imputationsverfahren

Key words

Missing data diagnosis - missing data processes - listwise deletion - pairwise deletion - imputation procedure

Literatur

1 Schafer J. Analysis of incomplete multivariate data. London; Chapman & Hall 1997

Search in Google Scholar
2 Little R JA, Rubin D B. Statistical analysis with missing data. New York; Wiley 2002

Search in Google Scholar
3 Hair J F, Anderson R E, Tatham R L, Black W. Multivariate data analysis. New Jersey; Prentice Hall 1998

Search in Google Scholar
4 Rubin D B. Inference and Missing Data. Biometrika. 1976; 63 581-592

Crossref Search in Google Scholar
Download RIS citation
5 Schafer J L, Graham J W. Missing data: Our view of the state of the art. Psychological Methods. 2002; 7 147-177

Crossref PubMed Search in Google Scholar
Download RIS citation
6 Allison P D. Missing data. Thousand Oaks; Sage 2001

Search in Google Scholar
7 Rost J. Testtheorie und Testkonstruktion. Göttingen; Huber 1996

Search in Google Scholar
8 King G, Honaker J, Joseph A, Scheve K. Analyzing incomplete political science data: An alternative algorithm for multiple imputation. American Political Science Review. 2001; 95 49-69

Search in Google Scholar
Download RIS citation
9 Bock J. Bestimmung des Stichprobenumfangs. München; Oldenbourg 1998

Search in Google Scholar
10 Wirtz M, Nachtigall C. Deskriptive Statistik. Weinheim; Juventa 2002

Search in Google Scholar
11 Müller J M. Umgang mit fehlenden Werten. In: Reusch A, Zwingmann C, Faller H (Hrsg) Empfehlungen zum Umgang mit Daten in der Rehabilitationsforschung. Regensburg; Roderer 2002: 109-125

Search in Google Scholar
12 Collins L M, Schafer J L, Kam C M. A comparison of inclusive and restrictive strategies in modern missing-data procedures. Psychological Methods. 2001; 6 330-350

Crossref Search in Google Scholar
Download RIS citation
13 Schafer J L, Olsen M K. Multiple imputation for multivariate missing-data problems: A data analyst's perspective. Multivariate Behavioral Research. 1998; 33 545-571

Search in Google Scholar
Download RIS citation
14 Arbuckle J L, Wothke W. AMOS 4.0 User's Guide. Chicago; Smallwaters 1995

Search in Google Scholar
15 Yuan Y C. Multiple imputation for missing data. In: Proceedings of the Twenty-Fifth Annual SAS Users Group International Conference (Paper No. 267). Cary, NC; SAS Institute 2000

Search in Google Scholar
16 Agresti A. An introduction to categorical data analysis. New York; Wiley 1996

Search in Google Scholar

1 Angenommen, eine Person lebt momentan nicht mit einem/r Partner/in zusammen, so würden fehlende Angaben zu der Zufriedenheit mit der Partnerschaft nicht als „fehlende Werte” in diesem Sinne gelten, da diese logisch nicht möglich sind.

2 Es muss natürlich zusätzlich u. a. vorausgesetzt werden, dass die Angaben in einer solchen Befragung wahrheitsgemäß erfolgen.

3 In Tab. [1] müsste nach diesem Kriterium Variable X2 wegen 36 % fehlender Werte ausgeschlossen werden. Da das sehr vereinfachende Beispiel zur Demonstration typischer Probleme bei der Missing-Data-Analyse dient, wird die Variable dennoch weiter analysiert.

4 In der Literatur wird MAR manchmal fälschlicherweise so definiert, dass die übrigen Variablen das Fehlen von Angaben kausal bedingen müssen. Diese Annahme ist nicht notwendig: Es wird nur gefordert, dass ein hinreichender korrelativer Zusammenhang besteht [5] [6].

5 Da hier im Allgemeinen die Nullhypothese präferiert wird und das Beta-Fehlerrisiko minimiert werden soll, sollte die Alpha-Fehlerwahrscheinlichkeit höher als üblich gewählt werden.

6 Eine Informationsmatrix, die eine solche nicht mögliche Gesamtstruktur enthält, bezeichnet man in der Mathematik als „nicht positiv definit”.

7 Eine Ausnahme stellt die Berechnung von Summenwerten aus mehreren Einzelvariablen dar. Fehlen die Werte von Einzelvariablen, so ist die Ersetzung durch den Variablenmittelwert im Allgemeinen zulässig [5].

8 Zwar berücksichtigt der Algorithmus auch die Information, dass X1 und X2 ursprünglich unkorreliert waren, diese Information wird aber allein deswegen geringer gewichtet, weil die Berechnung nur auf vier Fällen beruht.

9 „Üblicherweise” sollte der Stichprobenumfang so gewählt werden, dass die als empirisch relevant erachteten Effekte zuverlässig entdeckt werden können [9]. Um die Generalisierbarkeit von Effekten sicherzustellen, sollte beispielsweise in der multiplen linearen Regression das Verhältnis „Personen- zu Prädiktorenanzahl” mindestens 15 betragen, wenn keine fehlenden Werte vorliegen [3]. Da dem EM-Algorithmus eine Maximum-Likelihood-Schätzung zugrunde liegt, sollte das Verfahren grundsätzlich erst ab mindestens 100 Personen angewendet werden [5].

10 „Software for multiple imputation”, URL: www.stat.psu.edu/%7Ejls/misoftwa.html (zuletzt aufgerufen Februar 2004).

Dr. phil. Dipl.-Psych. Markus Wirtz

Methodenzentrum des RFV Freiburg/Bad Säckingen · Abt. für Rehabilitationspsychologie · Institut für Psychologie · Universität Freiburg

Engelbergerstraße 41

79085 Freiburg

Email: wirtz@psychologie.uni-freiburg.de

Related Journals

Related Books

Subscribe to RSS

Share / Bookmark

Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann

Publication History

Zusammenfassung

Abstract

Schlüsselwörter

Key words

Literatur