Warum Faktorenanalyse?
Warum Faktorenanalyse?
Die Erhebung von Patientendaten ist in der Rehabilitationspraxis tägliche Routine:
Blut- und Urinwerte, Körpergewicht und -größe, Herzfrequenz und Blutdruck oder die
Wattleistung im Belastungs-EKG können direkt von den Messgeräten abgelesen werden.
Auch die Frage nach dem Alter stellt in der Regel kein größeres Problem dar, da der
Patient dieses kennt oder es in der Akte vermerkt ist.
Im Gegensatz zu diesen direkten Messungen liegt im psychologisch-sozialwissenschaftlichen
Bereich eine indirekte Messung des gesuchten Messwertes durch die Patientenangabe
vor. Wird der Patient z. B. gefragt, ob oder in welchem Ausmaß er mit der Behandlung
in seiner Rehabilitationsklinik zufrieden war, erhält man keinen direkten Messwert,
sondern einen oder mehrere Indikatoren (= gemessener, manifester Indikator), von denen
auf die Patientenzufriedenheit (= latente, zu messende Variable) geschlossen werden
muss. Ob als Indikatoren eine Frage, zwei Fragen oder 50 Fragebogenitems verwendet
werden, ist Gegenstand des Messmodells, mit dem man von den manifesten Indikatoren
zu dem latenten Messwert gelangt. Die Indikatorantworten können unterschiedlich skaliert
gestaltet werden. In der Regel sind mindestens zwei Indikatoren notwendig, um die latente Variable zu messen [1 ].
Die Faktorenanalyse ist ein Messmodell (unter anderen), das es ermöglicht, in der
Menge der ausgewählten Indikatoren eine latente Struktur (= Faktor) aufzudecken, die
inhaltlich der zu messenden Variable, im gewählten Beispiel also der Patientenzufriedenheit,
entspricht. Der gedachte, theoretische Faktor „bedingt”[1 ] die Zusammenhänge (Korrelationen), die sich empirisch zwischen den ausgewählten
Items zeigen. Anders gesagt, „beeinflusst” das latente Merkmal das manifeste Antwortverhalten
im Test.
Als Ergebnis einer Faktorenanalyse können so Items, die nur wenig von dem latenten
Faktor beeinflusst sind, verworfen werden. Hierdurch wird die Komplexität der möglichen
Indikatoren reduziert, und damit dient die Faktorenanalyse dem Anliegen der Wissenschaft,
komplexe Zusammenhänge auf möglichst einfache Modelle zu reduzieren.
Die Items werden in der Regel anschließend im Rahmen einer Test- bzw. Fragebogenentwicklung
zu einer Skala zusammengestellt, die z. B. die Patientenzufriedenheit misst [2 ]. Bei der praktischen Testanwendung im Klinikalltag wird dann der Umkehrschluss vollzogen,
und es wird vom Antwortverhalten im Test auf das latente Merkmal geschlossen und dieses
quantifiziert. Durch die Testentwicklung wurde dieser Anwendungsschritt wissenschaftlich
begründbar und damit der Messwert der Patientenzufriedenheit erst glaubhaft und brauchbar.
In diesem Beitrag werden die Grundzüge zweier sich ergänzender Vorgehensweisen bei
einer Faktorenanalyse, der exploratorische und der konfirmatorische Ansatz, erläutert. Das Kapitel soll das Grundverständnis der jeweiligen Anwendung
ermöglichen sowie Gemeinsamkeiten und Unterschiede der Verfahren verdeutlichen. Für
die formal-statistische Darstellung, die praktische Umsetzung mittels gängiger Software
und Prüfung der Modellgüte muss auf die Literatur bzw. die aktuellen Internetquellen
verwiesen werden [3 ]
[4 ]
[5 ]
[6 ]
[7 ]
[8 ]
[9 ]
[10 ].
Exploratorische Faktorenanalyse (EFA)
Exploratorische Faktorenanalyse (EFA)
Bei der exploratorischen („erkundenden”) Faktorenanalyse handelt es sich im Grundsatz
um ein datenreduzierendes, strukturaufdeckendes Verfahren. Zur Durchführung der exploratorischen
Faktorenanalyse stehen verschiedene Strategien zur Auswahl, so dass im Prozess Entscheidungen
getroffen (und dokumentiert) werden müssen [11 ]: Erhebung der Ausgangsdaten (welche Items, Skalierung etc.), Erstellung der Datenmatrix
und Berechnung der Zusammenhänge, Faktorenextraktion und Bestimmung der Faktorzahl,
Rotationsweise und inhaltliche Interpretation.
Zunächst sollten vorab theoriegeleitete Vorstellungen bestehen, welche Indikatoren
überhaupt zusammenhängen könnten, wobei keine Vorannahmen über die Höhe oder Art der
Ladungsmuster bestehen müssen.
Als Analysegrundlage wird in der Regel die Pearson-Korrelationsmatrix oder Kovarianzmatrix
der intervallskalierten Indikatoren verwendet. Die Korrelationskoeffizienten zwischen
den Indikatoren lassen sich durch Dimensionen in einem Koordinatensystem beschreiben,
die in einem bestimmten Winkel zueinander stehen. Je mehr Indikatoren vorliegen, desto
mehr Dimensionen werden in der Regel benötigt, um die Verhältnisse zu beschreiben.
Diese Dimensionen werden nun mittels der Faktoren in einem möglichst gering dimensionierten
Raum reproduziert. Die Zahl der benötigten Dimensionen (entspricht den Achsen in einem
Koordinatensystem) gibt die Anzahl der hypothetischen Faktoren an. Die Korrelation
zwischen den Faktoren und den Indikatorvariablen wird als Faktorladung bezeichnet.
Jeder Indikator lässt sich somit mathematisch als lineare Kombination darstellen,
nämlich als Summe der Produkte von Faktorladungen und dem jeweiligen Faktor.
Die Auswahl der Faktoren wird als Faktorenextraktion bezeichnet. Hierzu existieren
verschiedene Rechentechniken. Die bekannteste und verbreitetste ist die Hauptkomponentenanalyse
(Principal Component Analysis, PCA), die von der klassischen Hauptachsenanalyse (Common
Factor Analysis oder Principal Axis Factoring, PAF) unterschieden werden muss. Bei
der Reproduktion der vielen Dimensionen zwischen den Indikatoren durch den geringer
dimensionierten Faktorraum wird die Ausgangsvarianz zwischen den Indikatoren nicht
allein durch die gefundenen Faktoren erklärt (Kommunalität = Varianz eines Indikators, die durch alle Faktoren erklärt wird), da ein Varianzanteil dem Indikator
bzw. Item zu Eigen ist (spezifische Itemvarianz) und auch ein Anteil auf Messfehler
zurückzuführen ist (Messfehlervarianz). Somit ist die ermittelte Kommunalität meist
kleiner als 100 %. Die Kommunalität wird mittels der PCA oder PAF geschätzt, wobei
bei der PCA der Anwender davon ausgeht, dass die gesamte Ausgangsvarianz durch die
Faktoren erklärt werden kann und keine spezifische Varianz und keine Messfehlervarianz
relevant ist.
Obwohl die PCA damit „grenzwertige” Annahmen macht, wird diese in der Mehrheit der
publizierten Faktorenanalyseuntersuchungen angewandt. Dies mag damit zusammenhängen,
dass Folgestudien die Analysetechnik von Vorgängerstudien benutzen, um eben Vergleichbarkeit
im methodischen Vorgehen zu erzielen. Beispielrechnungen von Velicer u. Jackson [12 ] zeigen aber, dass die Resultate auf Basis der PAF oder PCA kaum divergieren. Der
wichtigste Aspekt bei der PCA liegt nach den Autoren vor allem darin, dass ihr das
Prinzip der Einfachheit (parsimony) zum Vorteil gereicht.
Entscheidender als die Wahl zwischen PAF und PCA ist die Entscheidung, wie die Anzahl
der zu extrahierenden Faktoren bestimmt wird. Hier existieren eine Reihe von Verfahren,
die zu unterschiedlichen Ergebnissen führen. Das Kaiser-Kriterium, nach dem die Anzahl
der Faktoren der Zahl der Faktoren mit einem Eigenwert größer als 1 entspricht, führt
häufig zur Überschätzung von Faktoren und wird nicht mehr empfohlen. Der Eigenwert
ist dabei die Summe der quadrierten Faktorladungen eines Faktors hinsichtlich aller Indikatoren. Die beste empirische Evidenz genießen die
Parallelanalyse (z. B. [13 ]), Maximum-Likelihood-Methoden oder auch der Catell's Scree-Test, der sich an der
Abfolge der Eigenwerte orientiert und abgetragen in einem Koordinatensystem augenscheinlich
die Anzahl der Faktoren durch einen Knick in dem Abfall der Werte illustriert [14 ]. Abb. [1 ] zeigt ein Beispiel für einen Screeplot.
Abb. 1 Screeplot von Eigenwerten fiktiver Daten.
In Abb. [1 ] liegen von Faktor 8 bis 3 die Eigenwerte etwa auf einer Linie, bevor ein Knick oder
Ellbogen folgt. Die Eigenwerte der ersten beiden Faktoren liegen deutlich über der
Linie, sodass in diesem fiktiven Beispiel eine Lösung mit zwei Faktoren impliziert
ist.
In einem letzten Schritt werden die gefundenen Faktoren psychometrisch bewertet und
inhaltlich interpretiert. Hierzu werden die Faktorladungen herangezogen, d. h. die
Ladung auf einem oder mehreren Faktoren und ihre Höhe. Um die Interpretation zu erleichtern,
wird dazu eine Rotation des Faktorsystems vorgenommen, wobei zwischen einer orthogonalen
(rechtwinkligen, Varimax) und obliquen (schiefwinkligen) Rotation unterschieden werden
muss. Wird die orthogonale Form gewählt, geht der Anwender implizit von der inhaltlichen
Unabhängigkeit der Faktoren aus. Dies wird oft aus praktischen Erwägungen gewünscht,
da „reine” Faktoren, die sich nicht gegenseitig bedingen, die Daten optimal reduzieren.
Sie ermöglichen eine leichtere Interpretation der latenten Faktoren [15 ]. In diesem Fall kann die durch einen Faktor erklärte Varianz einfach als Summe der
quadrierten Faktorladungen über alle Indikatoren hinweg bestimmt werden. Im obliquen
Fall wird die Unabhängigkeitsprämisse aufgegeben und die Faktoren beinhalten redundante
Informationen, welche damit an faktorieller Validität und Diskriminanz einbüßen.
Auch die Stichprobengröße beeinflusst das Ergebnis der Faktorenanalyse. Eine zu kleine
Stichprobe führt zu größeren Standardfehlern und zu einer Fehlschätzung der inferenzstatistischen
Parameter. Eine allgemein gültige Richtlinie zur Festlegung der Größe gibt es allerdings
nicht. Daumenregeln für die EFA reichen von 100 bis 400 Personen, der 3- bis 10fachen
Menge der Indikatoritems oder aij > 0,40 (aij = Ladung des Items i auf Faktor j) bei mindestens 10 Variablen [4 ]
[11 ]. Andere Empfehlungen beziehen die Anzahl von Indikatoren je Faktor und die Höhe
der Ladungen detaillierter ein [16 ], die jedoch bei EFA a priori eben nicht bekannt sind.
Im Rahmen der abschließenden inhaltlichen Interpretation wird analysiert, ob der jeweilige
Indikator gemeinsam mit gleichsinnigen Indikatoritems hoch auf demselben latenten
Faktor lädt. Tab. [1 ] zeigt nun ein fiktives Beispiel einer 2-Faktoren-Lösung (Varimax-Rotation, PCA)
für 10 potenzielle Indikatoren der Patientenzufriedenheit, von denen die ersten fünf
auf dem ersten Faktor hoch laden, das sechste Item auf beiden Faktoren lädt und die
Items 7 bis 10 auf dem zweiten Faktor hoch laden.
Als Beispiel könnte das Item 1 also eine Frage nach der „Zufriedenheit mit dem Zimmer”
sein, das Item 2 die Frage nach der „Zufriedenheit mit dem Klinikessen”, Frage 3 die
„Zufriedenheit mit der Sauberkeit der Gemeinschaftsräume”, Frage vier die „Zufriedenheit
mit dem Freizeitangebot” und Frage fünf die „Zufriedenheit mit der Modernität der
Behandlungsräume”. Diese fünf Items würden dann jeweils auf einem gemeinsamen latenten
Faktor laden, der als „Zufriedenheit mit der Unterbringung” bezeichnet werden könnte.
Dieser Faktor wäre entsprechend eine Unterdimension des mehrdimensionalen (hier zweidimensionalen)
Konstrukts der Patientenzufriedenheit. Der zweite latente Faktor könnte z. B. als
Unterdimension „Zufriedenheit mit der Behandlung” interpretiert werden, auf dem Item
7 „Zufriedenheit mit der ärztlichen Betreuung”, Item 8 „Zufriedenheit mit der psychologischen
Beratung”, Item 9 „Zufriedenheit mit der pflegerischen Versorgung” und Item 10 „Zufriedenheit
mit der Bewegungstherapie” laden.
Nach dem hier illustrierten Ergebnis müsste der Untersucher sich entscheiden, ob Item
6 („Zufriedenheit mit der Station”) aufgrund der etwa gleich hohen Ladungen auf beiden
latenten Faktoren (auch Mischladung, engl. Crossloading) aus dem Itempool ausgeschlossen
werden sollte, da es keiner Unterdimension eindeutig zuzuordnen ist. Neben dem statistischen
Argument sind hierzu aber auch inhaltliche Überlegungen notwendig.
Konfirmatorische Faktorenanalyse (CFA[2 ])
Konfirmatorische Faktorenanalyse (CFA[2 ])
Ein Hauptkritikpunkt bei der exploratorischen Faktorenanalyse besteht darin, dass
das Ergebnis stichprobenabhängig ist. Das bedeutet, dass sich z. B. in einer anderen
klinischen Stichprobe andere Zusammenhänge zwischen den Indikatoren ergeben und die
Anzahl der Faktoren und die Ladungen nicht identisch sein müssen. So könnte das Item
6 im Beispiel aus Tab. [1 ] in einer anderen Stichprobe durchaus keine Mischladung aufweisen. Psychometrische
Wiederholungsstudien mit neuen Probanden führen so in der Regel zu mehr oder weniger
stark abweichenden Ergebnissen. Die Frage, die sich hieraus zwangsläufig ergibt, ist,
ob die Abweichung eine Verwerfung des bekannten Faktormodells, also auch der zuvor
gefundenen zwei Unterdimensionen der Patientenzufriedenheit, rechtfertigt oder ob
das Modell auch in anderen Gruppen als stabil und invariant zu bezeichnen ist.
Tab. 1 Rotierte Ladungsmatrix einer Lösung mit zwei Faktoren bei 10 Indikatoritems
Item
Faktor 1
Faktor 2
1 - Zimmer
0,71
0,22
2 - Essen
0,73
0,18
3 - Sauberkeit
0,69
0,21
4 - Freizeit
0,84
0,09
5 - Modernität
0,66
0,24
6 - Station
0,49
0,44
7 - Arzt
0,17
0,73
8 - Psychologe
0,25
0,62
9 - Pflege
0,11
0,79
10 - Bewegung
0,13
0,77
Anm.: Faktor 1: Zufriedenheit mit der Unterbringung, Faktor 2: Zufriedenheit mit der Behandlung
Die konfirmatorische („bestätigende”) Faktorenanalyse kann im Gegensatz zur exploratorischen
Faktorenanalyse nicht nur zur Hypothesengenerierung, sondern vor allem auch zur statistischen
Prüfung von a priori definierten Vorstellungen über die hinter den Indikatoren stehenden
Faktoren und ihre Beziehungen untereinander herangezogen werden. Das Wissen um eine
bekannte Fragebogenstruktur, das so genannte Messmodell, ergibt sich im Alltag nicht
nur aus eigenen Voruntersuchungen, sondern auch aus publizierten Daten wie z. B. ausländischen
Verfahren, die auf deutsche Verhältnisse übertragen werden sollen. Neben der Prüfung
der Modellpassung im interkulturellen Kontext ist in der medizinischen Rehabilitation
z. B. auch die Analyse der Modellgüte in unterschiedlichen Indikationsbereichen relevant.
So stellt sich häufig die Situation, dass generische (krankheitsübergreifende) Messinstrumente
ihrem Ansatz entsprechend bei vielen Erkrankungen eingesetzt werden sollen, obwohl
nicht nachgewiesen ist, dass die Modellstruktur des Instrumentes z. B. bei Diabetespatienten
genauso gültig ist wie bei neurologisch erkrankten Menschen [17 ]. Dies wäre ein möglicher Anwendungsfall für eine konfirmatorische Faktorenanalyse.
Eine CFA kann mit den Methoden der Strukturgleichungsmodellierung (Structural Equation
Modelling, SEM) und der verfügbaren Software und den Anleitungen heutzutage anwenderfreundlich
durchgeführt werden [6 ]
[7 ]
[8 ]
[9 ]
[10 ]. Die konfirmatorische Faktorenanalyse basiert auf dem Modell der klassischen Faktorenanalyse
(PAF), obwohl auch der Hauptkomponentenansatz (PCA) als Ausgangsmodell denkbar wäre.
Die PCA stellt bei der SEM also vielmehr einen Spezialfall der SEM-Anwendungsmöglichkeiten
dar, während sie bei der EFA die Regel ist.
Abb. [2 ] zeigt ein potenzielles Modell einer CFA mit zehn Indikatoren und zwei latenten Faktoren,
dass das Ergebnis des Patientenzufriedenheitsmodells aus Tab. [1 ] wiedergeben soll.
Abb. 2 Schematische Modellvorstellung einer konfirmatorischen Faktorenanalyse mit zwei unkorrelierten
Faktoren, unkorrelierten Messfehlern (e = Messfehler) und einer Mischladung des Items
6.
Die Faktoren werden hier ohne Interkorrelation dargestellt (grafisch ohne verbindenden
Doppelpfeil zwischen Faktor 1 und Faktor 2), welches dem Unabhängigkeitsprinzip der
Varimax-Rotation (s. EFA) entspricht.
Der erste Schritt, die genaue Modellspezifikation, ist das Herzstück der konfirmatorischen
Faktorenanalyse. Dabei werden die meisten Beziehungen auf Null festgesetzt (grafisch
kein Pfeil gezeichnet), wie in Abb. [2 ] zwischen den fünf Indikatoren des ersten Faktors und dem ihnen nicht zugehörigen
latenten zweiten Faktor. Item 6 erhält nach dem Ergebnis in Tab. [1 ] eine Mischladung auf Faktor 1 und Faktor 2, die Items 7 bis 10 indizieren den zweiten
Faktor.
Wäre der Untersucher zu der Entscheidung gelangt, das Item 6 aus dem Modell zu entfernen,
wäre das Alternativmodell ohne Item 6 „sparsamer” (nur noch neun Indikatoritems) und
würde damit die Realität einfacher abbilden als das Modell mit 10 Indikatoren und
Mischladung. Die mögliche Hinzunahme weiterer Beziehungen, deren Parameter zusätzlich
geschätzt werden müssten, bedeutet sinngemäß die Erstellung eines komplexeren Modells.
In Hinblick auf die Interpretation und spätere praktische Anwendung ist es grundsätzlich
sinnvoller, möglichst „einfache” Modelle zu bilden und entsprechend gegenüber komplexeren
Modellen zu bevorzugen. Die Gestaltungsspielräume und Modellierungsmöglichkeiten der
CFA sind bei der EFA in dieser Form nicht möglich, bei der alle Indikatoren (wenn
auch teilweise gering) auf allen Faktoren laden. Zur statistischen Testung (Parameterschätzung)
des aufgrund der Ergebnisse einer EFA spezifizierten Modells ist eine neue, unabhängige
Stichprobe erforderlich. Die Überprüfung mittels der Stichprobe, die zu den Ergebnissen
der EFA geführt hat, ist tautologisch.
Zur Schätzung der im Modell spezifizierten Parameter, wie z. B. der (standardisierten)
Regressionskoeffizienten (bei der EFA wären dies die Faktorladungen), existieren verschiedene
Verfahren, die in der Mehrzahl intervallskalierte, multivariat normalverteilte Daten
voraussetzen [18 ]. In Abhängigkeit der Skalenniveaus der Indikatoren (und damit der Art ihrer statistischen
Assoziation) und ihrer Verteilung kann aus verschiedenen Schätzverfahren gewählt werden,
um die Modellparameter zu quantifizieren. Da die Vielfältigkeit der Möglichkeiten
den Rahmen dieses Beitrages übersteigen würde, wird hier zur Illustration eine Reihe
von Koeffizienten aufgelistet. Für ein vertieftes Interesse muss auf die Literatur
verwiesen werden.
Die gängigsten Methoden bei intervallskalierten, multivariat normalverteilten Daten
sind die Maximum-Likelihood-Schätzung (ML), aber auch das GLS(Generalized Least Squares)-Verfahren.
Andere Verfahren, die keine multivariate Normalverteilungsannahme voraussetzen, sind
z. B. ADF (Asymptotically Distribution Free) oder WLS (Weighted Least Squares) [19 ]. Liegen keine intervallskalierten Skalen vor bzw. Likert-Skala mit weniger als fünf
Stufen [10 ], besteht bei der konfirmatorischen Modelltestung zudem die Möglichkeit, vor der eigentlichen Parameterschätzung eine neue Analysegrundlage (z. B. mit PRELIS,
[7 ]) aus polychorischen Koeffizienten oder auch gemischte Korrelationsmatrizen (biseriale
Korrelationen, polychorische Korrelationen) zu erstellen und mit dieser neuen Korrelationsmatrix
die eigentliche SEM-Berechnung durchzuführen. Muthén und Kaplan [20 ] diskutieren die Verwendung von nicht normalverteilten Likert-Skalen bei der konfirmatorischen
Faktorenanalyse und geben Empfehlungen für die beste Auswahl von Schätzmethoden in
Abhängigkeit von Variablenzahl und Verteilung.
Anders als bei der exploratorischen Faktorenanalyse, bei der die Eigenwerte als Richtmaße
für Dimensionalität herangezogen werden, existieren bei der konfirmatorischen Analyse
sog. Güteindizes, die zur Beurteilung der gesamten dimensionalen Struktur genutzt
werden können: das Verhältnis der Chi2 -Statistik zu den Freiheitsgraden, der GFI (Goodness of Fit Index) sowie der AGFI
(Adjusted Goodness of Fit Index). Inkrementelle Indizes sind der NFI (Normed Fit Index)
oder der CFI (Comparative Fit Index). Als Maße der Sparsamkeit (Einfachheit des Modells)
können der PGFI (Parsimony Goodness of Fit Index) oder der PNFI (Parsimony Normed
Fit Index) ermittelt werden. Als Maß der nicht erklärten Streuung sind der SRMR (Standardized
Root Mean Square Residual) und der RMSEA (Root Mean Square Error of Approximation)
anzugeben. Die Auswahl (und Berechenbarkeit) der richtigen Maße hängt wiederum vom
gewählten Verfahren (also ML-Schätzung, WLS oder ADF) zur Schätzung der Modellparameter
ab. Insofern muss das Ausmaß der Güte in Abhängigkeit von der Schätzmethode interpretiert werden. Empfehlungen hierzu, wie Grenzwerte bzw. Bereiche der Akzeptanz,
finden sich zahlreich in der Literatur, z. B. bei Hu u. Bentler [21 ]. Tab. [2 ] verdeutlicht eine mögliche Ergebnisdarstellung mittels ausgewählter Güteindizes.
Tab. 2 Schematische Ergebnisdarstellung einer KFS mittels ausgewählter Güteindizes
Güteindizes
Werte für das Messmodell
χ2 /df
4,31
AGFI
0,92
NFI
0,91
TLI
0,91
PGFI
0,61
SRMR
0,058
RMSEA (95 %-KI)
0,07 (0,05 - 0,09)
Anm.: Fiktive Werte auf Basis einer Maximum-Likelihood-Schätzung. Das Verhältnis von Chi2 -Wert zu den Freiheitsgraden (χ2 /df ) sollte kleiner als fünf sein. Der AGFI sollte > 0,89 liegen, ebenso der NFI
(Normed Fit Index) und der TLI (Tucker-Lewis-Index). Als Maße der Sparsamkeit sind
Werte > 0,39 z. B. für den PGFI (Parsimony Goodness of Fit Index) zu erzielen. Als
Maß der nicht erklärten Streuung sollte der SRMR (Standardized Root Mean Square Residual)
und der RMSEA (Root Mean Square Error of Approximation) kleiner < 0,11 sein, besser
jedoch < 0,06. KI = Konfidenzintervall
Bei der konfirmatorischen Faktorenanalyse bzw. den SEM-Ansätzen spielen mehrere Aspekte
eine Rolle, nach denen sich die Stichprobengröße richten sollte. Wie bei der exploratorischen
Faktorenanalyse sind dies Anzahl der Indikatoren und latenten Faktoren (in SEM in
Form der zu schätzenden Modellparameter operationalisiert). Bei CFA spielt vor allem
auch das gewählte Schätzverfahren eine wichtige Rolle [3 ]. So können bei einer ML-Schätzung über den RMSEA z. B. die Stichprobengröße und
die Power approximiert werden [22 ]. Die ADL-Methode erfordert hingegen weit über 1000 bis 5000 Personen und ist damit
praktisch nur selten umzusetzen. Andererseits zeigen Simulationsstudien unter variierenden
Stichprobengrößen und Stichprobenverteilungen, dass die Verletzung der Intervalldatenqualität
und der multivariaten Normalverteilungsvoraussetzung bei der gängigen ML-Schätzung
allein wenig Einfluss auf die Höhe der Fit-Maße hat, wenn die Modelle korrekt spezifiziert
sind [23 ].
Neben der Güte der Gesamtmodellpassung mittels der Fitmaße können bei der konfirmatorischen
Faktorenanalyse auch einzelne Modellparameter beurteilt werden. So ist die Prüfung, ob sich ein einzelner Parameter
signifikant von Null unterscheidet, über das sog. „Critical Ratio” (CR) möglich. In
weiteren Schritten der Modellierung können dann konkurrierende Modelle erstellt und
mit dem Ausgangsmodell mittels eines Chi2 -Differenztests verglichen werden. Dabei muss sich der Anwender im Klaren sein, dass
mit diesen weiterführenden Schritten sukzessiv die konfirmatorische Ebene der Testung
eines a priori bekannten Modells verlassen und ein exploratorischer Weg in Hinblick
auf die Entwicklung eines neuen Modells beschritten wird. Zur Bestätigung und sog.
Kreuzvalidierung des so weiterentwickelten Modells wäre dann eine neue, unabhängige
Stichprobe vonnöten. Ein Faktorenmodell so lange zu modifizieren, bis es passt, ist
ohne Frage keine adäquate Testung der ursprünglichen Annahmen.
Was folgt?
Was folgt?
In Rückblick auf die Eingangsfrage geben also sowohl die exploratorische als auch
die konfirmatorische Faktorenanalyse Auskunft über die dimensionale Struktur latenter
Faktoren. Beide Verfahren sollten sich nicht gegenseitig ausschließen, sondern ergänzen,
indem z. B. die EFA vornehmlich zur Skalenentwicklung und Itemreduktion und die CFA
eher zum Modelltest anhand einer neuen unabhängigen Stichprobe und zur Modellweiterentwicklung
eingesetzt wird. Dies ist allerdings nur eine Richtlinie. Im Studienkontext (z. B.
Erstellung einer revidierten Version eines Messinstruments) muss stets entschieden
werden, ob EFA und/oder CFA angebracht und umsetzbar sind [24 ].
Da die im Beispiel angeführte Patientenzufriedenheit aus zwei Dimensionen besteht,
folgt konsequenterweise, dass eine angemessene Statistik nicht mehr aus einer einzigen
Zahl bestehen kann, sondern dass zwei Testwerte, d. h. ein Wert je latenter Dimension,
gebildet werden müssen. Diese zusammenfassende Statistik wird in der Regel der Summenwert
der einzelnen Items der jeweiligen Dimension sein. Die Faktorenanalysen belegen allerdings
auch, dass das latente Konstrukt nicht einen gleich hohen Einfluss auf die manifesten
Indikatoren ausübt, was durch verschieden hohe Faktorladungen bzw. standardisierte
Regressionskoeffizienten ersichtlich ist. Insofern wäre die Berücksichtigung von Gewichten
je Antwort und die Bildung eines gewichteten Summenwerts näher am latenten Modell.
Allerdings ist dabei nicht gesichert, dass die Verwendung von Gewichten, die z. B.
im Kontext der orthopädischen Rehabilitation gewonnen wurden, auch für die Anwendung
in anderen klinischen Bereichen Gültigkeit hat, sodass in der Testentwicklung meistens
dem robusten, einfachen Summenscore der Vorzug gegeben wird [11 ]. Eine Alternative bilden Gewichte, die auf der Basis von repräsentativen Daten der
Durchschnittsbevölkerung gewonnen wurden. Dies ist z. B. beim Short Form-36 Health
Survey (SF-36) der Fall [25 ], wobei bei diesem Verfahren amerikanische Normgewichte verwendet wurden. Diese ermöglichen
einerseits internationale Vergleiche, die Frage nach ihrer Validität in Deutschland
muss andererseits geprüft werden. Die konfirmatorische Faktorenanalyse bietet gerade
hier sehr gute Möglichkeiten, einzelne Parameter aus unterschiedlichen Normpopulationen
in ihrer Höhe zu vergleichen oder eine Summenskalenbildung kritisch zu hinterfragen
[26 ] oder Alternativen zu entwickeln, die „näher” am Messmodell liegen [27 ].
Ein psychologisches bzw. rehabilitationswissenschaftliches Modell soll die Realität
vereinfachen, ohne sie zu simplifizieren. Die dargestellten Faktorenanalysetechniken
beruhen auf dem Modell der klassischen Testtheorie, die jedoch selbst auf vielfach
kritisierten theoretischen Grundannahmen basiert. Alternative Skalierungstechniken
wie z. B. die probabilistischen Modelle beschreiben einen anderen theoretischen Zugang
vom Indikator zum Messwert, indem postuliert wird, dass jede Person durch einen Fähigkeitsgrad
und jedes Item durch einen Schwierigkeitsgrad beschreibbar ist [28 ]. Erste richtungsweisende Arbeiten zeigen, dass gerade auch in der Rehabilitationsforschung
Fragebogen auf Grundlage dieses Ansatzes erfolgreich (weiter)entwickelt werden können
[29 ].