RSS-Feed abonnieren
DOI: 10.1055/s-0029-1245723
© Georg Thieme Verlag KG Stuttgart · New York
Qualität diagnostischer Genauigkeitsstudien: QUADAS (Quality Assessment of Diagnostic Accuracy Studies included in Systematic Reviews)
Quality of Diagnostic Accuracy Studies: QUADAS (Quality Assessment of Diagnostic Accuracy Studies included in Systematic Reviews)Publikationsverlauf
eingereicht: 25.8.2010
angenommen: 30.8.2010
Publikationsdatum:
04. Oktober 2010 (online)

Die Prinzipien der evidenzbasierten Medizin (EbM) tragen nunmehr seit über 15 Jahren mit ihren Maximen der Zweckmäßigkeit und der Nützlichkeit zur Verbesserung der klinischen Patientenversorgung bei. Dies gilt zuallererst für die therapeutischen Fächer, aber auch zunehmend für den Bereich der Diagnostik und somit auch der Radiologie [1]. Aufgrund ihres hohen Evidenzgrads kommen dabei systematischen Übersichtsarbeiten (synonym: systematische Reviews) und Metaanalysen, die ergänzend eine statistische Zusammenfassung der Daten beinhalten, eine besondere Bedeutung zu. Durch spezielle metaanalytische Verfahren lassen sich die Ergebnisse (Schätzer der diagnostischen Genauigkeit) der verfügbaren Einzelstudien zu einem bestimmten diagnostischen Test statistisch zusammenfassen und somit der Test auf objektivere Art und Weise hinsichtlich seiner klinischen Wertigkeit einschätzen.
Grundlage für die Beurteilung neuer diagnostischer Testverfahren bilden hierbei diagnostische Studien, in denen die diagnostische Genauigkeit des zu prüfenden Testverfahrens (Indextest) im Vergleich mit einem Referenzstandard („Goldstandard”) ermittelt wird [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20]. In diesem Zusammenhang haben wir schon in einem vorangegangenen Editorial [21] die Bedeutung der Berichtsqualität diagnostischer Studien dargelegt und hierfür die STARD-Checkliste [22] als Richtlinie bei der Manuskripterstellung vorgestellt. Dieses Editorial widmet sich der Qualität des Designs und der Methodik diagnostischer Studien.
Die methodische Qualität diagnostischer Studien zeigt erhebliche Unterschiede – die Ergebnisse einer Einzelstudie können durch Verzerrungen (Bias) [23] [24] [25] beeinflusst sein, die sich wiederum beim metaanalytischen Zusammenfassen (Poolen) verfälschend niederschlagen können. Weiterhin stellen Unterschiede in der Qualität einen Hauptfaktor für die statistische Heterogenität zwischen den Primärstudien dar. Hierdurch kann die Analyse in ihrer Aussagekraft erheblich eingeschränkt oder sogar unmöglich werden. Die Beurteilung der Qualität jeder Einzelstudie ist somit ein obligater Bestandteil eines jeden systematischen Reviews. Sie ermöglicht, in einem weiteren Schritt, die statistische Untersuchung des Einflusses einzelner Qualitätsaspekte auf die gepoolten Schätzer der diagnostischen Genauigkeit sowie eventuell vorhandene Heterogenität zwischen den Studien [26] [27].
Um diese Qualitätsbeurteilung zu erleichtern, veröffentlichten Whiting und Kollegen 2003 das QUADAS-Werkzeug (Quality Assessment of Diagnostic Accuracy Studies included in Systematic Reviews) [28]. Es besteht aus einem Katalog mit 14 Fragen, anhand derer Autoren von systematischen Reviews wichtige qualitative Aspekte der einzelnen Studien bewerten können. Jede Frage sollte mit Ja, Nein oder Unklar beantwortet werden.
Entworfen wurde QUADAS von einer internationalen Gruppe von 9 Experten auf dem Gebiet der diagnostischen Forschung. Mithilfe mehrerer systematischer Reviews wurde eine ursprüngliche Liste mit 28 wichtigen Punkten zur Qualitätsbeurteilung erstellt. Nachfolgend wurde in einem Delphi-Verfahren (formelles Konsensusverfahren mit mehrrundiger Expertenbefragung) eine kürzere Liste von nur noch 14 Fragen gebildet, die in die finale Fassung von QUADAS eingeflossen ist [28]. Eine deutsche Übersetzung der 14 Fragen mit kurzen Erläuterungen findet sich in [Tab. 1]. Die meisten der 14 Fragen – insgesamt 9 (Fragen 3-7, 10 – 12 und 14) – beziehen sich auf Studienmerkmale mit möglicher systematischer Verzerrung (Bias) der Studienergebnisse und somit auf die methodische Qualität. Diese Merkmale bestimmen die interne Validität (Glaubwürdigkeit) der Studienergebnisse, die umso höher ist, je weniger Bias vorhanden ist. Ein Beispiel für eine solche Verzerrung ist der „disease progression bias” (Frage 4 des QUADAS-Werkzeuges, [Tab. 1]). Dieser liegt vor, wenn das Zeitintervall zwischen dem Indextest und dem Referenzstandard zu lang ist, sodass sich der Krankheitszustand der Patienten ändern kann. Idealerweise würden die Daten eines Studienteilnehmers durch beide Testverfahren gleichzeitig erhoben werden. Da dies in der Praxis meist unmöglich ist, sollte das Zeitintervall zwischen den Untersuchungen entweder so kurz wie möglich gewählt werden oder zumindest adäquat an den Krankheitszustand angepasst werden. So ist ein Zeitintervall von mehreren Tagen oder sogar Wochen zwischen den Tests bei chronischen Erkrankungen sicher akzeptabel, bei akuten Zuständen mit schnellerem klinischem Verlauf jedoch nicht. Fragen 1 und 2 des QUADAS-Werkzeugs beziehen sich auf die Anwendbarkeit der Ergebnisse auf Patienten im klinischen Alltag (externe Validität), Fragen 8, 9 und 13 beziehen sich auf die Berichterstattung ([Tab. 1]) und weisen somit eine gewisse Überlappung mit der STARD-Checkliste auf [21].
Tab. 1 QUADAS-Werkzeug zur Beurteilung der Qualität von diagnostischen Genauigkeitsstudien (jede Frage ist zu beantworten mit Ja, Nein oder Unklar). Frage Bemerkung 1 War das Patientenkollektiv repräsentativ für die Patienten, die den Test in der Praxis erhalten? Die Frage bezieht sich auf verschiedene Ausprägungen der Zielerkrankung, aber auch auf demografische Aspekte (z. B. Geschlecht und Alter) und Komorbiditäten.Ist das Patientenspektrum nicht repräsentativ, so ist die klinische Generalisierbarkeit der diagnostischen Genauigkeitswerte eingeschränkt.Stichwort: klinische Anwendbarkeit 2 Wurden die Ein-/Ausschlusskriterien ausreichend beschrieben? Eine adäquate Beschreibung und klare Definition, wie und welche Patienten für die Studie ausgewählt wurden, ist essenziell. Hier sollten vom Autor Minimalanforderungen an die Studien definiert werden.Stichwort: klinische Anwendbarkeit 3 Ist der Referenzstandard geeignet, um die Zielgröße zu bestimmen? Handelt es sich beim gewählten Referenzstandard um den „Goldstandard”? Ein nicht adäquat ausgewählter Referenzstandard macht die Studienergebnisse unbrauchbar.Stichwort: „reference standard bias” 4 Ist die Zeitspanne zwischen Referenztest und Indextest kurz genug, um sicher zu gehen, dass sich die Zielgröße nicht zwischen den beiden Tests verändert hat? Idealerweise ist dieser Zeitraum möglichst kurz, richtet sich aber auch nach dem zeitlichen Verlauf der jeweiligen Erkrankung (chronisch, akut).Stichwort: „disease progression bias” 5 Durchliefen die Patienten, alle oder eine zufällige Stichprobe, den Referenzstandard? Dieser Bias kann nur in Studien auftreten, bei denen der Indextest vor dem Referenzstandard durchgeführt werden muss und sein Ergebnis das weitere Procedere bestimmt (z. B. wenn nur als positiv beurteilte Patienten dem Referenzstandard zugeführt werden). Stichwort: „partial verification bias” ( = „work-up bias”) 6 Erhielten alle Patienten den gleichen Referenzstandard unabhängig vom Ergebnis des Indextests? Dieser Bias tritt vor allem auf, wenn Patienten mit positivem Testergebnis im Indextest einen genaueren, häufig invasiven (z. B. Probeentnahme mit histopathologischem Befund), Referenzstandard erhalten als Patienten mit einem negativen Indextestergebnis. Stichwort: „differential verification bias” 7 War der Referenzstandard unabhängig vom Indextest (d. h. der Indextest war nicht Teil des Referenzstandards)? Dieser Bias tritt auf, wenn die Ergebnisse des Indextests in die Diagnosefindung der Patienten miteinfließen – dies ist nur möglich, wenn sich der Referenzstandard aus mehreren Testverfahren zusammensetzt und keine eindeutige Trennung zwischen Referenzstandard und Indextest definiert wurde. Besteht der Referenzstandard nur aus einem Testverfahren, kann diese Frage aus dem Katalog entfernt werden. Stichwort: „incorporation bias” 8 Wurde die Durchführung des Indextests ausreichend genau beschrieben, um den Test wiederholen zu können? Eine ausreichende Beschreibung verhindert die Beeinflussung der diagnostischen Genauigkeit durch verschieden durchgeführte Tests und ermöglicht die Wiederholung unter anderen Rahmenbedingungen.Hier sollten wiederum Minimalanforderungen von den Autoren definiert werden.Stichwort: Berichterstattung 9 Wurde die Durchführung des Referenzstandards ausreichend genau beschrieben, um ihn wiederholen zu können? 10 Wurde der Indextest ohne Kenntnis des Ergebnisses des Referenzstandards ausgewertet? Wurde verblindet ausgewertet? Weiß ein Radiologe im Voraus z. B. von einem pathologischen Befund im Referenzstandard, so wird er bei der Befundung des Indextests davon beeinflusst werden und die errechneten diagnostischen Genauigkeitswerte sind hinfällig, da fälschlich stark erhöht.Stichworte: „test review bias” und „reference standard review bias” 11 Wurde der Referenzstandard ohne Kenntnis des Ergebnisses des Indextests ausgewertet? 12 Standen bei der Auswertung der Tests die gleichen klinischen Informationen zur Verfügung wie bei der Anwendung des Testes in der Praxis? Die Verfügbarkeit klinischer Daten bei der Interpretation von Testergebnissen kann einen Einfluss auf die Testgenauigkeit haben. Mit klinischen Daten sind in diesem Zusammenhang auch schon Informationen über den Patienten gemeint, die durch bloße Beobachtung gesammelt werden können, also z. B. Geschlecht, Alter und Symptome.Werden klinische Daten in der Praxis zur Verfügung stehen, so sollten sie dies auch bei der Evaluierung des Testes tun (es sei denn, man möchte wirklich den reinen Effekt des diagnostischen Testes messen).Stichwort: „clinical review bias” 13 Wurden nicht auswertbare oder uneindeutige Ergebnisse berichtet? Häufig werden in diagnostischen Genauigkeitsstudien nicht beurteilbare Ergebnisse nicht angeführt und einfach aus der Analyse herausgenommen. Dies verhindert jedoch, dass der Einfluss dieser Ergebnisse auf die Testgenauigkeit abgeschätzt werden kann.Stichwort: Berichterstattung 14 Wurde das Ausscheiden von Patienten aus der Studie erklärt? Ist nachvollziehbar, was mit allen Patienten, die an der Studie teilgenommen haben, geschehen ist? (Dies sollte am besten anhand eines Flussdiagramms dargestellt werden.)Stichwort: „withdrawal bias”
In einer weiteren Publikation zeigten Whiting und Kollegen, dass anhand des QUADAS-Werkzeugs keine zusammenfassenden Qualitätsscores gebildet werden sollten [29], denn je nach Gewichtung der einzelnen Qualitätsaspekte erreichen dieselben diagnostischen Studien verschiedene Gesamtqualitätsniveaus. Vielmehr sollen individuelle prägnante Qualitätsmerkmale herausgegriffen, das Abschneiden der Studien hinsichtlich dieser differenziert diskutiert und eventuell ihr Einfluss statistisch untersucht werden. 2006 veröffentlichten Whiting und Kollegen eine Evaluation von QUADAS [30], die nachwies, das QUADAS gut umzusetzen und die Beurteilungsübereinstimmung zwischen verschiedenen Prüfern hoch ist. Jedoch betonen die Autoren in derselben Arbeit ebenfalls, dass die einzelnen Punkte des Werkzeugs an die Bedürfnisse einer jeden systematischen Übersichtsarbeit individuell angepasst werden und Autoren eindeutige Kriterien zur Beantwortung der einzelnen Fragen definieren müssen.
Das QUADAS-Werkzeug gibt den Autoren von systematischen Reviews und Metaanalysen somit ein evidenzbasiertes und validiertes Instrument an die Hand, dessen genormte Form der Qualitätsbeurteilung wiederum hilft, neue diagnostische Methoden und Tests für den klinischen Alltag auf eine evidenzbasierte Grundlage zu stellen. Sein Einsatz wird von der Arbeitsgruppe für diagnostische Testgenauigkeit der Cochrane-Organisation (www.cochrane.org), die seit 2008 ebenfalls systematische Reviews zur diagnostischen Genauigkeit aufnimmt, als alleiniges Werkzeug zur Qualitätsbeurteilung diagnostischer Studien empfohlen [31].
Literatur
- 1
Puig S, Felder-Puig R.
Evidenzbasierte Radiologie: Ein neuer Ansatz zur Bewertung von klinisch angewandter
radiologischer Diagnostik und Therapie.
Fortschr Röntgenstr.
2006;
178
671-679
MissingFormLabel
- 2
Moritz J D, Hoffmann B, Meuser S H et al.
Ist die Sonografie der Röntgendiagnostik in der pädiatrischen Frakturdiagnostik gleichwertig?.
Fortschr Röntgenstr.
2010;
182
706-714
MissingFormLabel
- 3
Lemburg S, Atta A, Peters S et al.
Lagebeurteilung transpedikulärer Schrauben nach dorsaler Spondylodese mittels konventioneller
Röntgenaufnahmen: ein Vergleich zur Mehrzeilen-Computertomografie.
Fortschr Röntgenstr.
2010;
182
327-333
MissingFormLabel
- 4
Hoffstetter P, Schreyer A G, Schreyer C I et al.
Mehrzeilen-CT zur Evaluation bei fraglich offenen Augenverletzungen.
Fortschr Röntgenstr.
2010;
182
151-154
MissingFormLabel
- 5
Heusner T A, Hamami M E, Ertle J et al.
Stellenwert der Rotationsangiographie für die Detektion extrahepatischer Shunts vor
Radioembolisation.
Fortschr Röntgenstr.
2010;
182
603-608
MissingFormLabel
- 6
Neumann-Silkow H, Gorg C.
Dignitätsbeurteilung von abdominellen Lymphadenopathien in der Powerdoppler-Sonografie.
Fortschr Röntgenstr.
2010;
182
229-234
MissingFormLabel
- 7
Zangos S, Muller C, Mayer F et al.
Retrospektive Analyse der 5-Jahres-Ergebnisse von MRT-gesteuerten Biopsien im Niederfeldsystem.
Fortschr Röntgenstr.
2009;
181
658-663
MissingFormLabel
- 8
Yamamura J, Wildberger J E, Nagel H D et al.
High-Resolution-MSCT-Thoraxuntersuchungen zur Infiltratsuche: Untersuchung einer Dosisreduktion
bei immunsupprimierten Patienten.
Fortschr Röntgenstr.
2009;
181
549-555
MissingFormLabel
- 9
Voit H, Krauss B, Heinrich M C et al.
Dual-Source-CT: In-vitro-Charakterisierung von Gallensteinen mittels Dual-Energy-Analyse.
Fortschr Röntgenstr.
2009;
181
367-373
MissingFormLabel
- 10
Baltzer P A, Dietzel M, Vag T et al.
Können farbkodierte parametrische Karten die Analyse dynamischer Anreicherungsmuster
in der MR-Mammografie verbessern?.
Fortschr Röntgenstr.
2009;
DOI: 10.1055 /s-0028-1109 843
MissingFormLabel
- 11
Hahn S, Heusner T, Zhou X et al.
Automatische Erkennung und Auswertung von malignen Leber- und Lungenläsionen in der
PET/CT: erste Ergebnisse.
Fortschr Röntgenstr.
2009;
182
243-247
MissingFormLabel
- 12
Juchems M S, Ernst A S, Sheafor D H et al.
CT-Kolografie: Vergleich zweier Visualisierungsalgorithmen an einem Screeningkollektiv.
Fortschr Röntgenstr.
2009;
181
573-578
MissingFormLabel
- 13
Renz D M, Baltzer P A, Kullnig P E et al.
Klinische Wertigkeit computergestützter Analysen in der MR-Mammografie. Ein Vergleich
zwischen zwei Systemen und drei Untersuchern mit unterschiedlicher Erfahrung.
Fortschr Röntgenstr.
2008;
180
968-976
MissingFormLabel
- 14
Honnef D, Behrendt F F, Bakai A et al.
Computerassistierte Detektion (CAD) von kleinen pulmonalen Rundherden in der Mehrdetektor-Spiral-Computertomografie
(MDCT) bei Kindern.
Fortschr Röntgenstr.
2008;
180
540-546
MissingFormLabel
- 15
Heilmaier C, Sutter R, Lutz A M et al.
Dynamische MRT der Leber mit paralleler Akquisitionstechnik: Charakterisierung fokaler
Leberläsionen und Analyse des Gefäßstatus in einem Untersuchungsgang.
Fortschr Röntgenstr.
2008;
180
440-448
MissingFormLabel
- 16
Vogt F M, Herborn C U, Parsons E C et al.
Diagnostische Wertigkeit der kontrastverstärkten Magnetresonanzangiografie der Beckenstrombahn
mit dem intravaskulären Kontrastmittel Vasovist: Erste klinische Erfahrungen im Vergleich
zur i. a. DSA.
Fortschr Röntgenstr.
2007;
179
412-420
MissingFormLabel
- 17
Seeger A, Doesch C, Klumpp B et al.
MR-Stressperfusion zur Vorhersage flusslimitierender Stenosen bei symptomatischen
Patienten mit bekannter KHK nach Stentimplantation.
Fortschr Röntgenstr.
2007;
179
1068-1073
MissingFormLabel
- 18
Fenchel M, Jost D, Kramer U et al.
Kardiovaskuläre MR-Ganzkörperbildgebung bei Patienten mit symptomatischer Atherosklerose
der peripheren Gefäße.
Fortschr Röntgenstr.
2006;
178
491-499
MissingFormLabel
- 19
Jung G, Poll L, Cohnen M et al.
Dignitätsbeurteilung fokaler Leberläsionen mit der kontrastverstärkten MRT mit SHU
555 A im Vergleich zur nativen MRT und zur Mehrzeilen-Detektor-Spiral-CT.
Fortschr Röntgenstr.
2005;
177
1571-1577
MissingFormLabel
- 20
Schroder R J, Boack D H, Nekwasil S J et al.
Diagnostische Wertigkeit der MR-tomographischen Knorpelläsionsdarstellung im Vergleich
mit der intraoperativen Arthroskopie bei Calcaneusfrakturen.
Fortschr Röntgenstr.
2005;
177
367-374
MissingFormLabel
- 21
Tackmann R, Schuetz G, Hamm B et al.
Berichtsqualität diagnostischer klinischer Studien: STARD (Standards for the Reporting
of Diagnostic accuracy studies).
Fortschr Röntgenstr.
2010;
182
655-659
MissingFormLabel
- 22
Bossuyt P M, Reitsma J B, Bruns D E et al.
Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD
initiative.
Am J Roentgenol.
2003;
181
51-55
MissingFormLabel
- 23
Lijmer J G, Mol B W, Heisterkamp S et al.
Empirical evidence of design-related bias in studies of diagnostic tests.
Jama.
1999;
282
1061-1066
MissingFormLabel
- 24
Whiting P, Rutjes A W, Reitsma J B et al.
Sources of variation and bias in studies of diagnostic accuracy: a systematic review.
Ann Intern Med.
2004;
140
189-202
MissingFormLabel
- 25
Rutjes A W, Reitsma J B, Di Nisio M et al.
Evidence of bias and variation in diagnostic accuracy studies.
Cmaj.
2006;
174
469-476
MissingFormLabel
- 26
Westwood M E, Whiting P F, Kleijnen J.
How does study quality affect the results of a diagnostic meta-analysis?.
BMC Med Res Methodol.
2005;
5
20
MissingFormLabel
- 27
Leeflang M, Reitsma J, Scholten R et al.
Impact of adjustment for quality on results of metaanalyses of diagnostic accuracy.
Clin Chem.
2007;
53
164-172
MissingFormLabel
- 28
Whiting P, Rutjes A W, Reitsma J B et al.
The development of QUADAS: a tool for the quality assessment of studies of diagnostic
accuracy included in systematic reviews.
BMC Med Res Methodol.
2003;
3
25
MissingFormLabel
- 29
Whiting P, Harbord R, Kleijnen J.
No role for quality scores in systematic reviews of diagnostic accuracy studies.
BMC Med Res Methodol.
2005;
5
19
MissingFormLabel
- 30
Whiting P F, Weswood M E, Rutjes A W et al.
Evaluation of QUADAS, a tool for the quality assessment of diagnostic accuracy studies.
BMC Med Res Methodol.
2006;
6
9
MissingFormLabel
- 31
Leeflang M M, Deeks J J, Gatsonis C et al.
Systematic reviews of diagnostic test accuracy.
Ann Intern Med.
2008;
149
889-897
MissingFormLabel
- 32
Bossuyt P M, Reitsma J B, Bruns D E et al.
The STARD statement for reporting studies of diagnostic accuracy: explanation and
elaboration. The Standards for Reporting of Diagnostic Accuracy Group.
Croat Med J.
2003;
44
639-650
MissingFormLabel
- 33
Schuetz G M, Zacharopoulou N M, Schlattmann P et al.
Meta-analysis: noninvasive coronary angiography using computed tomography versus magnetic
resonance imaging.
Ann Intern Med.
2010;
152
167-177
MissingFormLabel
- 34
Dewey M, Zimmermann E, Deissenrieder F et al.
Noninvasive coronary angiography by 320-row computed tomography with lower radiation
exposure and maintained diagnostic accuracy: comparison of results with cardiac catheterization
in a head-to-head pilot investigation.
Circulation.
2009;
120
867-875
MissingFormLabel
PD Dr. Marc Dewey
Institut für Radiologie, Charité Humboldt-Universität und Freie Universität zu Berlin
Charitéplatz 1
10117 Berlin
Telefon: ++ 49/3 04 05 52 72 96
Fax: ++ 49/30/4 05 52 79 96
eMail: dewey@charite.de