Hintergrund
Hintergrund
In verschiedenen medizinischen Gebieten gibt es eine große Zahl von Studien, die ein
und derselben oder zumindest sehr ähnlichen Fragestellungen zu einer spezifischen
Therapie nachgehen. Doch wie kann der klinisch tätige Arzt der immer schneller wachsenden
Flut von Publikationen Herr werden? So sind allein im vergangenen Jahr mehr als 10
000 Einträge unter dem Schlagwort „randomized clinical trial” in Medline [16] zu finden.
Darüber hinaus sind die Ergebnisse kontrollierter klinischer Studien häufig durch
inkonsistente Ergebnisse geprägt. Das bedeutet, dass einige Studien den Nutzen einer
Therapie zeigen können, während in anderen deren Unwirksamkeit oder gar eine schädliche
Wirkung berichtet wird. Alternativ könnte es sein, dass die Fallzahlen der einzelnen
Studien zu gering sind, um einen Effekt, der vielleicht gering ist, auch nachweisen
zu können.
In den oben beschriebenen Fällen kann die Entscheidungsfindung über den Einsatz bzw.
Nicht-Einsatz einer Therapie nur durch die gemeinsame Betrachtung und Analyse der
gesamten Evidenz zu einer Fragestellung sowie deren qualifizierte Bewertung unterstützt
werden. Diese Aufgabe übernehmen dabei systematische Übersichten (engl.: systematic
reviews) und Meta-Analysen. Dieses Thema hat in den vergangenen Jahren erheblich an
Bedeutung gewonnen, auch wenn die Idee schon 100 Jahre alt ist [21]. Die erste Meta-Analyse zur Untersuchung einer Intervention wurde bereits 1955 durchgeführt
[2]; der Begriff selbst wurde allerdings erst im Jahr 1976 von Glass erstmalig verwendet
[15]. Einen sehr schönen historischen Abriss zu diesem Themenkreis findet der interessierte
Leser bei Egger und Smith [12]. Besondere Aspekte bei der Bewertung von Meta-Analysen aus Beobachtungsstudien beschreiben
Blettner und Sauerbrei [4]. Richtlinien für das Berichten von Meta-Analysen wurden von einer Reihe von Autoren
und Zeitschriften gegeben [19]; für eine Übersetzung des QUOROM-Statements: www.cochrane.de/de/quorom.htm [23]
[25]. Empfehlenswert für einen tieferen Einstieg ist das Buch von Egger und Kollegen
[13].
In systematischen Übersichten wird versucht, die Nachteile des klassischen Reviews
zu vermeiden, indem methodische Standards sowohl auf die Identifikation und Selektion
der in die Übersicht einzuschließenden Originalstudien als auch auf die Synthese deren
Ergebnisse angewendet werden. Der Ablauf einer solchen Studie ähnelt dabei sehr dem
üblichen Vorgehen bei einer klinischen Studie. So ist auch bei systematischen Übersichten
das Erstellen eines Studienprotokolls erforderlich (s. z. B. Cochrane Reviewer Handbuch
auf http://www.cochrane.org/resources/handbook/). Der gesamte Ablauf der Studie von
der Formulierung der Fragestellung bis hin zur Interpretation bzw. Publikation des
Endergebnisses wird als systematische Übersicht bezeichnet. Die statistische Zusammenfassung
der Resultate der Einzelstudien wird Meta-Analyse genannt. Allerdings verwenden manche
Autoren den Begriff Meta-Analyse und systematische Übersicht synonym (so z. B. in
Ref. [9]).
Der Ablauf einer systematischen Übersicht
Der Ablauf einer systematischen Übersicht
Im Folgenden werden die wesentlichen Komponenten einer systematischen Übersicht ausführlicher
beschrieben. Zunächst sind, wie in kontrollierten klinischen Studien auch, die Ziele
der Studie, die Hypothesen und eventuelle Subgruppenanalysen zu formulieren. Zur Sammlung
und Auswertung von Daten im Rahmen einer systematischen Übersicht kann Software, wie
z. B. der Review-Manager verwendet werden. Letzterer wird von der Cochrane Collaboration
kostenlos im Internet zur Verfügung gestellt (http://www.cc-ims.net/RevMan).
Literaturrecherche
Literaturrecherche
Ein wesentlicher Teil der Arbeit bei einem systematischen Review besteht darin, alle
vorhandene Evidenz zusammenzutragen - unabhängig davon, ob die Ergebnisse der einzelnen
Studien publiziert wurden oder nicht. Denn die Resultate nicht veröffentlichter Studien
können systematisch von denen publizierter abweichen. Dieses wird sehr schön in der
Arbeit von Egger und Smith illustriert [11]. Das dahinter stehende Problem besteht darin, dass Arbeiten mit einem Ergebnis,
die die positive Wirkung einer Therapieform statistisch signifikant nachweisen, leichter
und eher publiziert werden, als solche mit nicht signifikanten Resultaten [11]. Auf diese Weise kommt es sehr einfach zu einer systematischen Verzerrung in Richtung
des positiven Effekts, der sog. „Publikationsverzerrung” (engl.: publication bias)
(für eine detaillierte Darstellung siehe z. B. Ref. [11]).
Eine wesentliche Quelle für die Literaturrecherche ist die Literaturdatenbank Medline
[16]. Doch reicht diese Datenbank bei weitem nicht aus, da sie einen großen Anteil von
Studien, primär aus dem europäischen Sprachraum, nicht enthält. Zur Identifikation
von wichtigen Arbeiten, die nicht in Medline gelistet sind, kann die Suche mit der
Excerpta Medica DataBASE, kurz: EMBASE, erforderlich sein [26]. Für Therapiestudien empfiehlt sich die Datenbank der Cochrane Collaboration, das
Cochrane Controlled Trial Register (CCTR), die die vermutlich vollständigste Sammlung
kontrollierter klinischer Studien enthält [24].
Neben der Suche nach Studien in Literaturdatenbanken ist es häufig erforderlich, die
Referenzen bereits gefundener Publikationen oder von Übersichtsarbeiten nach weiteren
Studien zu untersuchen, eine Handsuche in relevanten Zeitschriften und Kongressbänden
vorzunehmen und auch auf dem jeweiligen Gebiet forschende Wissenschaftler und Institutionen
nach nicht veröffentlichten Studien und deren Ergebnissen zu befragen. Wesentliches
Qualitätskriterium einer systematischen Übersicht ist die transparente Darstellung
sowohl der Literaturrecherche, z. B. anhand von klar vorgegebenen Schlagwörtern (engl.
key words) in den Datenbanken, als auch der in die Meta-Analyse einfließenden Einzelstudien
anhand von vorab definierten Ein- und Ausschlusskriterien.
Datenextraktion und Beurteilung der Qualität der Studien
Datenextraktion und Beurteilung der Qualität der Studien
Bevor die Qualität der Studien beurteilt werden kann, müssen zunächst die relevanten
Informationen aus den Artikeln extrahiert werden. Dieser Arbeit kommt später eine
große Bedeutung zu, da die Ergebnisse durch die ausgewählten Informationen und den
später zur Meta-Analyse verwendeten Studien beeinflusst werden können [12]. Auch aus diesem Grund sollte ein standardisierter Dokumentationsbogen zur Extrahierung
der Daten verwendet werden. Empfehlenswert ist darüber hinaus zur Reduktion von Fehlern,
dass zwei Personen unabhängig voneinander die Daten extrahieren [14]. Diese Arbeit wird durch das einheitliche Berichten über die Ergebnisse randomisierter
(Therapie-) Studien bzw. diagnostischer Studien ganz erheblich vereinfacht (s. z.
B. Empfehlungen in Ref. [1]
[5]).
Trotz dieser Bemühungen zur Standardisierung lässt sich die Auswahl der Arbeiten vermutlich
nicht vollständig objektivieren, da die in den Publikationen dargestellten Informationen
häufig nicht alle Aspekte hinreichend abbilden. Daher empfehlen manche Autoren, die
Einschlusskriterien für Studien so elementar wie möglich zu gestalten [14], um anschließend Sensitivitätsanalysen (siehe unten) durchzuführen. Dennoch erscheint
es m. E. korrekter, dass bei systematischen Übersichten grundsätzlich nur solche Studien
berücksichtigt werden sollten, die hohe Qualitätskriterien erfüllen, wie sie z. B.
in den Anforderungen an eine patientenorientierte klinische Forschung beschrieben
wurden [22].
Zielkriterium und statistische Analyse
Zielkriterium und statistische Analyse
Wie in kontrollierten klinischen Studien müssen auch bei Meta-Analysen das Zielkriterium
sowie das statistische Verfahren zur zusammenfassenden Analyse vorab ausgewählt und
im Studienprotokoll niedergelegt werden. Üblicherweise wählt man für stetige Zielkriterien,
wie z. B. Körpergewicht oder Blutdruck, den Mittelwertsunterschied zwischen Prüf-
und Kontrollgruppe. Dabei wird der tatsächliche Unterschied zwischen den Gruppen durch
den Grad der Erkrankung der eingeschlossenen Patienten beeinflusst. So könnte der
Effekt einer Therapieform zur Gewichtsreduktion bei Personen mit extremer Adipositas
zu einer größeren durchschnittlichen Gewichtsabnahme führen als bei Personen mit einer
leichten Adipositas.
Bei binären Zielkriterien ohne Zensierung, wie z. B. Adipositas ja/nein oder Therapieerfolg
ja/nein, können das Odds Ratio [3] aufgrund seiner guten statistischen Eigenschaften [7] [14] oder das relative Risiko gewählt werden: Mit beiden lassen sich die Ergebnisse der
einzelnen Studien miteinander zu einem Gesamtergebnis kombinieren. Absolute Maße wie
die absolute Risikoreduktion [3] oder das Effektmaß „number needed to treat” (NNT) [3] haben den Vorteil der unmittelbaren klinischen Relevanz [14] und werden daher häufig bevorzugt. Allerdings sollte die Wahl des Effektmaßes von
den grundsätzlichen Annahmen über den Therapieeffekt in Abhängigkeit von unterschiedlichen
Baseline-Risiken geleitet werden [8].
Der nächste Schritt besteht in der statistischen Zusammenfassung der Ergebnisse der
einzelnen Studien zu einem einzigen Resultat. Die einfache Mittelung der Effekte über
die Studien wird dabei in der Regel nicht zu dem Ergebnis führen, das der Wahrheit
am nächsten ist. Daher werden üblicherweise gewichtete Effektschätzer verwendet, um
größeren Studien oder solchen mit einer geringeren Variabilität einen stärkeren Einfluss
als kleineren Studien oder Studien mit größerer Variabilität zu geben. Die Analysetechniken
selbst können im Wesentlichen in zwei Kategorien eingeordnet werden, den so genannten
Modellen mit festen Effekten und den Modellen mit zufälligen Effekten [20]. Beim Modell mit festen Effekten geht man davon aus, dass sämtliche Studien ein
und dieselben Ergebnisse lieferten, wenn sie denn nur unendlich groß wären. Diese
Annahme ist sicherlich in der Regel unrealistisch, da schon kleine Unterschiede im
Studiendesign, z. B. bei den Ein- und Ausschlusskriterien, zu verschiedenen Ergebnissen
in dem Grad des Wirksamkeitsunterschieds zwischen zwei Therapieverfahren führen können.
Bei Studien mit zufälligen Effekten wird hingegen diese zusätzliche Variabilität berücksichtigt,
so dass hier die Konfidenzintervalle in der Regel etwas breiter sind als bei Modellen
mit festen Effekten. Aufgrund der restriktiven Annahmen der Modelle mit festen Effekten
wird häufig die Verwendung von Modellen mit zufälligen Effekten empfohlen (siehe dazu
auch [6]
[20]). Innerhalb der Modellklasse mit zufälligen Effekten gibt es wiederum verschiedene
Ansätze, die zu einer unterschiedlichen Gewichtung der Einzelstudien führen. Bekannte
Methoden sind der Ansatz nach DerSimonian und Laird (DSL), die so genannte restricted
maximum likelihood (REML) und Bayesianische Ansätze [6]
[20]. Es ist hierbei zu berücksichtigen, dass sich für dieselben Daten in Abhängigkeit
vom gewählten statistischen Modell unterschiedliche (zusammengefasste) Effektschätzer
ergeben können.
Sensitivitätsanalysen
Sensitivitätsanalysen
Welches statistische Verfahren zur Durchführung einer spezifischen Meta-Analyse am
ehesten geeignet ist, wird kontrovers diskutiert. Daher ist die Durchführung von Sensitivitätsanalysen
zur Überprüfung der Robustheit der Ergebnisse bei Verwendung verschiedener statistischer
Verfahren dringend angeraten.
Die Ergebnisse der Meta-Analyse können sich auch bei Verwendung verschiedener sinnvoller
Ein- bzw. Ausschlusskriterien der Studien (z. B. nur Einschluss von qualitativ hochwertigen
Studien) voneinander unterscheiden, d. h., auch hierbei ist zu prüfen, ob die Ergebnisse
robust gegenüber der Wahl der Studien sind. Dieses gilt insbesondere für Therapiestudien,
die aufgrund signifikanter Ergebnisse vor Erreichen der ursprünglich geplanten Fallzahl
abgebrochen werden, sowie für solche, bei denen keine Aussicht mehr existiert, noch
einen Unterschied zu entdecken, und deshalb vorzeitig beendet werden.
Auch das Problem der Publikationsverzerrung lässt sich mit Sensitivitätsanalysen untersuchen.
So können die Studien nach Studiengröße geschichtet werden. Wenn tatsächlich eine
Publikationsverzerrung vorliegt, werden sich die Ergebnisse kleiner und großer Studien
voneinander unterscheiden. Eine grafische Möglichkeit, eine eventuelle Publikationsverzerrung
zu entdecken, bietet der so genannte „funnel plot”, bei dem die in den Einzelstudien
beobachteten Effektschätzer (auf der x-Achse) gegen die jeweilige Fallzahl bzw. die
in den Studien beobachtete Variabilität (auf der y-Achse) aufgetragen werden [10]. Liegt keine Publikationsverzerrung vor, werden sich die Einzelergebnisse aufgrund
der zufälligen Variabilität zwischen den Studien symmetrisch und trichterförmig („funnel”)
um den zusammengefassten Effektschätzer aus der Meta-Analyse verteilen.
Heterogenität zwischen Studienergebnissen
Heterogenität zwischen Studienergebnissen
Wenn die Resultate verschiedener Studien stark variieren, kann es sinnvoll sein, diese
nicht zu einem einzelnen Ergebnis zusammenzufassen. Allerdings gibt es keine klaren
Richtlinien, wann es noch sinnvoll ist bzw. wann nicht, die Studien zu kombinieren.
Ein Ansatz ist, den Grad der Heterogenität der Studien zu untersuchen. So kann man
z. B. testen, ob signifikante Unterschiede zwischen den Studien existieren. Der Nachteil
dieser statistischen Tests ist, dass sie in der Regel nur eine geringe Macht besitzen,
tatsächlich vorhandene Unterschiede zu entdecken. Daher ist eher die Anwendung von
Heterogenitätsmaßen empfehlenswert, um den Grad der Heterogenität quantitativ zu beschreiben.
Methoden hierzu wurden von Higgins und Thompson [17] entwickelt. Möglicherweise lassen sich Unterschiede auch schon mit einem forest
plot (Abb.
[1]) erkennen und inhaltlich erklären. In der Mitte sind die Punktschätzer der einzelnen
Studien dargestellt, wobei die Fläche der Rechtecke das Gewicht der Einzelstudien
symbolisiert. Für den zusammenfassenden Schätzer der Meta-Analyse wird ein Diamant
benutzt. Die Schnurrbärte geben die Konfidenzintervalle an.
Abb. 1 Wirksamkeit von Lidocain zur Reduktion von Mortalität im akuten Myokardinfarkt: x-Achse
stellt die einzelnen Studien sowie die Meta-Analysen dar; y-Achse absolute Risikoreduktion
(ARR). Für jede einzelne Studie und die Meta-Analysen sind das geschätzte ARR (Punkt)
mit dem dazugehörigen 95 % Konfidenzintervall (Schnurrbärte) dargestellt.
Bis vor wenigen Jahren wurden anstelle der forest plots Blobbogramme verwendet (s.
z. B. [9]). Der Name Blobbogramm ist darauf zurückzuführen, dass dort ein Klümpchen in dieser
Abbildung in der Mitte zu sehen ist (Abb. [2]), wobei diese für alle Stichproben gleich groß sind, also auf die Darstellung der
Gewichtsinformation verzichtet wird.
Abb. 2 Betreuung von Schlaganfallpatienten durch Team von Spezialisten mehrerer Disziplinen
im Vergleich zum Routinemanagement: x-Achse stellt die einzelnen Studien sowie die
Meta-Analysen dar; y-Achse Dauer des Krankenhausaufenthalts in Tagen (LOS). Für jede
einzelne Studie und die Meta-Analysen sind die geschätzte LOS (Punkt) mit dem dazugehörigen
95 % Konfidenzintervall (Schnurrbärte) dargestellt.
Beispiele
Beispiele
Zum Abschluss der Arbeit werden die unterschiedlichen Ergebnisse, die Meta-Analysen
ergeben können, anhand zweier Beispiele aus der Literatur illustriert ([18], siehe auch [20]
[24]).
Beispiel 1: Lidocain und Myokardinfarkt
Beispiel 1: Lidocain und Myokardinfarkt
Im ersten Beispiel wird untersucht, ob die Mortalität durch die Gabe von Lidocain
beim akuten Myokardinfarkt gesenkt werden kann. Die Ergebnisse der Einzelstudien sind
in Tab. [1] dargestellt. Der forest plot (Abb.
[1]; mit Gewichten entsprechend dem Modell mit festen Effekten) zeigt die Risikounterschiede
der sechs verschiedenen Studien. Das Rechteck in der Mitte gibt die beobachtete absolute
Risikoreduktion (ARR) an. Die Schnurrbärte stehen für 95 % Konfidenzintervalle.
Tab. 1 Untersuchung der Mortalität durch Prophylaxe mit Lidocain im akuten Myokardinfarkt
(Quelle: Referenz [18], siehe auch [20]).
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Quelle
</TD><TD VALIGN="TOP" COLSPAN="2">
Anzahl randomisierter Patienten
</TD><TD VALIGN="TOP" COLSPAN="2">
Anzahl verstorbener Patienten
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Lidocain
</TD><TD VALIGN="TOP">
Kontrolle
</TD><TD VALIGN="TOP">
Lidocain
</TD><TD VALIGN="TOP">
Kontrolle
</TD>
<TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
Chopra et al.
</TD><TD VALIGN="TOP">
39
</TD><TD VALIGN="TOP">
43
</TD><TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
1
</TD>
<TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
Mogensen
</TD><TD VALIGN="TOP">
44
</TD><TD VALIGN="TOP">
44
</TD><TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
4
</TD>
<TD VALIGN="TOP">
3
</TD><TD VALIGN="TOP">
Pitt et al.
</TD><TD VALIGN="TOP">
107
</TD><TD VALIGN="TOP">
110
</TD><TD VALIGN="TOP">
6
</TD><TD VALIGN="TOP">
4
</TD>
<TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
Darby et al.
</TD><TD VALIGN="TOP">
103
</TD><TD VALIGN="TOP">
100
</TD><TD VALIGN="TOP">
7
</TD><TD VALIGN="TOP">
5
</TD>
<TD VALIGN="TOP">
5
</TD><TD VALIGN="TOP">
Bennett et al.
</TD><TD VALIGN="TOP">
110
</TD><TD VALIGN="TOP">
106
</TD><TD VALIGN="TOP">
7
</TD><TD VALIGN="TOP">
3
</TD>
<TD VALIGN="TOP">
6
</TD><TD VALIGN="TOP">
O’Brian et al.
</TD><TD VALIGN="TOP">
154
</TD><TD VALIGN="TOP">
146
</TD><TD VALIGN="TOP">
11
</TD><TD VALIGN="TOP">
4
</TD>
<TD VALIGN="TOP">
Gesamt
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
557
</TD><TD VALIGN="TOP">
549
</TD><TD VALIGN="TOP">
37
</TD><TD VALIGN="TOP">
21
</TD>
Da alle Konfidenzintervalle die Nulllinie schneiden, ist keine einzelne der Studien
in der Lage, einen positiven Behandlungseffekt von Lidocain statistisch signifikant
nachzuweisen. Die Ergebnisse der sechs Studien sind insgesamt sehr homogen. Bis auf
die zweite Studie, die keinen Unterschied zwischen Lidocain und der Kontrollbehandlung
zeigt, deuten die fünf anderen Studien auf einen positiven Effekt von Lidocain. Mit
der Meta-Analyse gelingt es jetzt, einen Vorteil von Lidocain gegenüber der Kontrollbehandlung
nachzuweisen. Die absolute Reduktion der Mortalitätsrate liegt in der Größenordnung
von 3 % (95 % Konfidenzintervall: 0,4 % - 5,5 %). Abb.
[1] zeigt, dass das verwendete statistische Modell mit festen Effekten und das Zufallseffektmodell
zu identischen Ergebnissen und Schlussfolgerungen führen. In der Tat, die Ergebnisse
und damit die Schlussfolgerungen sind auch für verschiedene spezifische Zufallseffektmodelle
(DSL und REML) identisch.
Beispiel 2: Betreuung von Patienten und Schlaganfall
Beispiel 2: Betreuung von Patienten und Schlaganfall
In diesem Beispiel wird der Effekt einer Betreuung von Schlaganfallpatienten durch
ein Behandlungsteam aus verschiedenen Disziplinen im Vergleich mit dem Routinemanagement
von Schlaganfallpatienten untersucht [24]. Fallzahlen, Mittelwerte und Standardabweichungen der einzelnen Studiengruppen aus
den neun betrachteten Studien sind in Tab. [2] zusammengefasst. Abb.
[2] zeigt die Unterschiede der durchschnittlichen Liegedauer, d. h. Aufenthaltsdauer
im Krankenhaus plus 95 % Konfidenzintervall der verschiedenen Studien. Die zentrale
Frage ist, ob durch den Einsatz eines multidisziplinären Behandlungsteams im Vergleich
zum Routinemanagement die Aufenthaltsdauer reduziert werden kann. Vier Studien (1,
3, 4 und 8) zeigen einen Vorteil für die Spezialbetreuung. Anders als im ersten Beispiel
sind hier die Ergebnisse der einzelnen Studien sehr heterogen (Abb.
[2]). Dieses Ergebnis wird auch durch einen statistischen Test auf Homogenität deutlich
(p < 0,001). Das Heterogenitätsmaß I2 [17] beträgt für diese Studien 96,65 %. Das bedeutet, dass knapp 97 % der Variabilität
der Schätzer für den Behandlungseffekt auf die Heterogenität zwischen den Studien
zurückzuführen ist. Daher haben wir bewusst in diesem Beispiel das Blobbogramm verwendet,
um keine optische Verzerrung bei der Illustration der verschiedenen zusammenfassenden
statistischen Verfahren zu erzeugen.
Tab. 2 Vergleich der Betreuungsmodi von Schlaganfallpatienten in neun Studien: Team bestehend
aus Spezialisten verschiedener Disziplinen im Vergleich mit Routinemanagement (Quelle:
Referenz [18], siehe auch [20]).
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
Quelle
</TD><TD VALIGN="TOP" COLSPAN="3">
Betreuung durch Spezialisten
</TD><TD VALIGN="TOP" COLSPAN="3">
Routinemanagement
</TD>
<TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
N
</TD><TD VALIGN="TOP">
Mittelwert LOS
</TD><TD VALIGN="TOP">
StdAbw
</TD><TD VALIGN="TOP">
N
</TD><TD VALIGN="TOP">
Mittelwert LOS
</TD><TD VALIGN="TOP">
StdAbw
</TD>
<TD VALIGN="TOP">
1
</TD><TD VALIGN="TOP">
Edinburgh
</TD><TD VALIGN="TOP">
155
</TD><TD VALIGN="TOP">
55,0
</TD><TD VALIGN="TOP">
47,0
</TD><TD VALIGN="TOP">
156
</TD><TD VALIGN="TOP">
75,0
</TD><TD VALIGN="TOP">
64,0
</TD>
<TD VALIGN="TOP">
2
</TD><TD VALIGN="TOP">
Orpingtom-Mild
</TD><TD VALIGN="TOP">
31
</TD><TD VALIGN="TOP">
27,0
</TD><TD VALIGN="TOP">
7,0
</TD><TD VALIGN="TOP">
32
</TD><TD VALIGN="TOP">
29,0
</TD><TD VALIGN="TOP">
4,0
</TD>
<TD VALIGN="TOP">
3
</TD><TD VALIGN="TOP">
Orpington-Moderate
</TD><TD VALIGN="TOP">
75
</TD><TD VALIGN="TOP">
64,0
</TD><TD VALIGN="TOP">
17,0
</TD><TD VALIGN="TOP">
71
</TD><TD VALIGN="TOP">
119,0
</TD><TD VALIGN="TOP">
29,0
</TD>
<TD VALIGN="TOP">
4
</TD><TD VALIGN="TOP">
Orpington-Severe
</TD><TD VALIGN="TOP">
18
</TD><TD VALIGN="TOP">
66.0
</TD><TD VALIGN="TOP">
20,0
</TD><TD VALIGN="TOP">
18
</TD><TD VALIGN="TOP">
137,0
</TD><TD VALIGN="TOP">
48,0
</TD>
<TD VALIGN="TOP">
5
</TD><TD VALIGN="TOP">
Montreal-Home
</TD><TD VALIGN="TOP">
8
</TD><TD VALIGN="TOP">
14.0
</TD><TD VALIGN="TOP">
8,0
</TD><TD VALIGN="TOP">
13
</TD><TD VALIGN="TOP">
18,0
</TD><TD VALIGN="TOP">
11,0
</TD>
<TD VALIGN="TOP">
6
</TD><TD VALIGN="TOP">
Montreal-Transfer
</TD><TD VALIGN="TOP">
57
</TD><TD VALIGN="TOP">
19.0
</TD><TD VALIGN="TOP">
7,0
</TD><TD VALIGN="TOP">
52
</TD><TD VALIGN="TOP">
18,0
</TD><TD VALIGN="TOP">
4,0
</TD>
<TD VALIGN="TOP">
7
</TD><TD VALIGN="TOP">
Newcastle 1993
</TD><TD VALIGN="TOP">
34
</TD><TD VALIGN="TOP">
52.0
</TD><TD VALIGN="TOP">
45,0
</TD><TD VALIGN="TOP">
33
</TD><TD VALIGN="TOP">
41,0
</TD><TD VALIGN="TOP">
34,0
</TD>
<TD VALIGN="TOP">
8
</TD><TD VALIGN="TOP">
Umea 1985
</TD><TD VALIGN="TOP">
110
</TD><TD VALIGN="TOP">
21.0
</TD><TD VALIGN="TOP">
16,0
</TD><TD VALIGN="TOP">
183
</TD><TD VALIGN="TOP">
31,0
</TD><TD VALIGN="TOP">
27,0
</TD>
<TD VALIGN="TOP">
9
</TD><TD VALIGN="TOP">
Uppsala 1982
</TD><TD VALIGN="TOP">
60
</TD><TD VALIGN="TOP">
30.0
</TD><TD VALIGN="TOP">
27,0
</TD><TD VALIGN="TOP">
52
</TD><TD VALIGN="TOP">
23,0
</TD><TD VALIGN="TOP">
20,0
</TD>
<TD VALIGN="TOP">
Gesamt
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
548
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
610
</TD><TD VALIGN="TOP">
</TD><TD VALIGN="TOP">
</TD>
<TD VALIGN="TOP" COLSPAN="8">
LOS: Dauer des Krankenhausaufenthalts (in Tagen)
StdAbw: Standardabweichung
</TD>
Der Leser möge beachten, dass durch die Verwendung einer stetigen Größe, d. h. der
Aufenthaltsdauer in Tagen, die Studie mit der größten Fallzahl nicht automatisch die
kleinsten Konfidenzintervalle aufweist. So liefern die Studien 2 und 6 die präzisesten
Einzelergebnisse, obwohl die Studien 1 und 8 deutlich höhere Fallzahlen aufweisen.
Diese unterschiedliche Variabilität der Ergebnisse zwischen den Studien ist in der
Regel ein Zeichen für Heterogenität in der Patientenzusammensetzung der einzelnen
Studien.
Sowohl das Blobbogramm (Abb.
[2]) als auch das Heterogenitätsmaß I 2 und der statistische Test zeigen deutlich die Heterogenität der Studienergebnisse.
Entsprechend ist die Anwendung eines Modells mit festen Effekten inadäquat. Diese
Methode führt auch zu einem marginalen Effekt zugunsten der multidisziplinären Behandlung
der Schlaganfallpatienten. Dabei ist zu beachten, dass dieses Ergebnis primär dadurch
beeinflusst wird, dass die Studien 2 und 6, die beide keinen Effekt zugunsten der
zu testenden Betreuung zeigen, einen großen Einfluss auf die Studienergebnisse erhalten:
Ihnen wird in der Meta-Analyse mit festen Effekten das größte Gewicht beigemessen.
Anders fallen die Ergebnisse der Meta-Analysen mit zufälligen Effekten aus. Hier erhalten
alle Studien tendenziell ähnliche Gewichte bei der Schätzung des gemeinsamen Behandlungseffekts.
Entsprechend werden die Ergebnisse der Studien 1, 3 und 4 stärker berücksichtigt,
was sich auch in dem Effekt über alle Studien hinweg zeigt. Die beiden dargestellten
Meta-Analysen, die auf Modellen mit zufälligen Effekten basieren, gewichten die Studien
selbst noch einmal unterschiedlich, so dass sich dadurch auch der Unterschied der
Ergebnisse erklären lässt: Bei der sog. DSL-Methode werden hier die Studien weniger
gleich gewichtet als bei dem REML-Verfahren. Das hat hier zur Folge, dass die DSL-Methode
Signifikanz bei einer durchschnittlichen Verkürzung der Aufenthaltsdauer um 14 Tage
(95 % Konfidenzintervall -24 Tage bis -4 Tage) zeigt. Hingegen führt das REML-Verfahren
zu einer durchschnittlichen Verkürzung der Aufenthaltsdauer um ca. 18 Tage (95 % Konfidenzintervall
-32 Tage bis + 3 Tage), allerdings ohne statistische Signifikanz.
Insgesamt lässt sich für dieses Beispiel festhalten, dass die Betreuung von Schlaganfallpatienten
im Durchschnitt zu einer verkürzten Aufenthaltsdauer im Krankenhaus führt. Jedoch
sollte die Frage diskutiert werden, inwieweit eine Zusammenfassung der Studien bei
den großen Unterschieden im Ergebnis in Abhängigkeit vom gewählten Modell sinnvoll
ist. Weitere Untersuchungen wären notwendig, um herauszufinden, welche Aspekte der
Spezialbetreuung zu der verkürzten Aufenthaltsdauer führen und sich auf andere Krankenhäuser
übertragen lassen.
kurzgefasst
Systematische Reviews vermeiden die Nachteile des klassischen Reviews, methodische
Standards, wie sie für kontrollierte klinische Studien existieren, sowohl auf die
Identifikation und Selektion der in die Übersicht einzuschließenden Originalstudien
als auch auf die Synthese deren Ergebnisse angewendet werden.
Dieser Beitrag ist eine überarbeitete Fassung aus dem Supplement Statistik aus dem
Jahr 2004.