Die Vierfeldertafel

R. Bender; S. Lange

doi:10.1055/s-2007-959029

Subscribe to RSS

Please copy the URL and add it into your RSS Feed Reader.

https://www.thieme-connect.de/rss/thieme/en/10.1055-s-00000011.xml

Download PDF

Dtsch Med Wochenschr 2007; 132: e12-e14
DOI: 10.1055/s-2007-959029

Statistik | Statistics

Die Vierfeldertafel

- Artikel Nr. 6 der Statistik-Serie in der DMW -The 2 by 2 tableR. Bender¹ , S. Lange¹

¹Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen, Köln

Further Information

Privatdozent Dr. rer. biol. hum. Ralf Bender

Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

Dillenburger Straße 27

51105 Köln

Email: Ralf.Bender@iqwig.de

Publication History

Publication Date:
25 May 2007 (online)

Also available at

PDF Download Permissions and Reprints

Table of Contents

Schlüsselwörter

Vierfeldertafel - Relatives Risiko - Chancenverhältnis - Sensitivität und Spezifität

Key words

2 by 2 table - Risk ratio (RR) - Odds ratio (OR) - Sensitivity and specificity

Eine Vierfeldertafel ist eine (2 × 2)-Anordnung absoluter Häufigkeiten, die sich bei einer gleichzeitigen Betrachtung von zwei binären Merkmalen ergibt. Ein binäres Merkmal ist eine Variable mit nur zwei möglichen Ausprägungen (zum Beispiel Krankheit ja/nein, Behandlung ja/nein, Erfolg ja/nein, Diagnose positiv/negativ). Haben die betrachteten Merkmale mehr als zwei Ausprägungen ergibt sich der allgemeine Fall einer (r × c)-Kontingenztafel. Die wichtigsten Maße zur Beschreibung der Zusammenhänge zwischen qualitativen Daten lassen sich jedoch am besten anhand einer Vierfeldertafel darstellen. Häufige Anwendungen sind der Risikovergleich zweier Gruppen und die Evaluierung diagnostischer Tests. In Tab. [1] finden sich beispielhaft die Häufigkeiten von Diabetikern mit und ohne Entwicklung einer Neuropathie innerhalb von 5 Jahren der Interventions- und der Kontrollgruppe des Diabetes Control and Complications Trial (DCCT) [7]. Die Intervention bestand hierbei in der Anwendung einer intensivierten Insulintherapie im Vergleich zur gewöhnlichen Insulintherapie (Kontrolle).

*Tab. 1* Vierfeldertafel zur Untersuchung des Effekts einer intensivierten Insulintherapie auf die Entwicklung einer Neuropathie in 5 Jahren bei 622 Diabetikern [7].
		Neuropathie		Summe
		ja	nein
Gruppe	Kontrolle	52	255	307
	Intervention	21	294	315
Summe		73	549	622

Die Grundlage aller Maße zur Beschreibung qualitativer Daten bildet die Wahrscheinlichkeit. Eine Wahrscheinlichkeit quantifiziert die Eintrittshäufigkeit eines Ereignisses mit Hilfe von Werten aus dem Intervall [0,1]. Sehr wahrscheinliche Ereignisse besitzen eine Wahrscheinlichkeit nahe an 1, sehr unwahrscheinliche Ereignisse eine Wahrscheinlichkeit nahe an 0. Wahrscheinlichkeiten können durch relative Häufigkeiten geschätzt werden. So beträgt die (geschätzte) Wahrscheinlichkeit, in 5 Jahren eine Neuropathie zu entwickeln in der Kontrollgruppe 52/307 = 16,9 % und in der Interventionsgruppe 21/315 = 6,7 %. Ein Risiko ist die Wahrscheinlichkeit für ein unerwünschtes Ereignis (zum Beispiel Krankheit, Tod). In einem verallgemeinerten Sinn wird der Begriff „Risiko” aber auch als Synonym für andere Maße zur Quantifizierung der Eintrittshäufigkeit unerwünschter Ereignisse verwendet. Dies ist häufig verwirrend, da unterschiedliche Maße auch unterschiedliche Zahlen ergeben können.

Eine Chance ist das Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt, zur Wahrscheinlichkeit, dass das Ereignis nicht eintritt. Sei p eine Wahrscheinlichkeit, so ist die zugehörige Chance gegeben durch odds = p/(1-p). In Worten wird eine Chance meist nicht als Dezimalzahl sondern durch ein (gerundetes) Verhältnis angegeben. Sei zum Beispiel p = 2/3, so entspricht das einer Chance von 2 : 1. Zu einer gegebenen Chance kann man die zugehörige Wahrscheinlichkeit berechnen durch p = odds/(1+odds). Man kann damit die Eintrittshäufigkeit eines Ereignisses wahlweise als Wahrscheinlichkeit oder auch als Chance darstellen. Beide Darstellungsformen sind mathematisch äquivalent und ineinander umrechenbar. Nach Tab. [1] beträgt die (geschätzte) Chance, in 5 Jahren eine Neuropathie zu entwickeln, in der Kontrollgruppe 52/255 = 0,204 = 1 : 5 und in der Interventionsgruppe 21/294 = 0,071 = 1 : 14.

Um die Risiken zweier Gruppen zu vergleichen gibt es eine Reihe von Maßen, die im Folgenden kurz erläutert werden. Ein relatives Risiko (RR) ist das Verhältnis zweier Risiken. Ist zum Beispiel q das Risiko der Kontrollgruppe und p das Risiko der Interventionsgruppe, so ist das relative Risiko der Kontrolle im Vergleich zur Intervention gegeben durch RR = q/p.

Ein Chancenverhältnis (OR) ist das Verhältnis zweier Chancen. Mit den Risiko-Definitionen von oben ist das Chancenverhältnis gegeben durch OR = q (1-p)/[p (1-q)]. Das RR bei gewöhnlicher Insulintherapie in 5 Jahren eine Neuropathie zu entwickeln im Vergleich zur intensivierten Insulintherapie kann nach Tab. [1] durch RR = 0,169/0,067 = 2,5 geschätzt werden. Das entsprechende OR erhält man durch OR = (52 × 294)/(255 × 21) = 2,9.

Ein RR ist leichter interpretierbar als ein OR, kann aber bei retrospektiven Fall-Kontroll-Studien nicht sinnvoll berechnet werden, da die relative Häufigkeit der Krankheit durch das Verhältnis der Fälle und Kontrollen vom Untersucher bestimmt wird. Das OR kann jedoch auch in retrospektiven Studien sinnvoll geschätzt werden. Sind die betrachteten Risiken sehr klein (< 10 %), so liefern RR und OR nahezu identische Werte und das OR kann auch als Schätzung für das RR verwendet werden. In allen anderen Fällen liefert das OR jedoch extremere Werte als das entsprechende RR [6]. Sei zum Beispiel q = 0,9 und p = 0,5, so erhält man RR = 1,8 und OR = 9.

Neben dem Quotienten zum Vergleich zweier Risiken kann auch die Differenz betrachtet werden. Häufig wird diese Differenz auf das Risiko der Kontrollgruppe bezogen. Damit erhält man die relative Risikodifferenz, die durch (q-p)/q gegeben ist. Sie wird häufig in % ausgedrückt und stellt eine Prozentzahl von einer Prozentzahl dar. Im Falle eines präventiven Effekts spricht man von einer relativen Risikoreduktion (RRR), im Fall eines schädlichen Effekts von einem relativen Exzessrisiko. Die RRR einer intensivierten im Vergleich zur gewöhnlichen Insulintherapie kann durch (0,169 - 0,067/0,169 = 0,604 = 60,4 % geschätzt werden. Häufig werden in Studien, die einen Behandlungseffekt zeigen wollen, nur RR oder RRR angegeben. Mit diesen relativen Maßen, insbesondere der relativen Risikoreduktion bzw. dem relativen Exzessrisiko, lassen sich oft auch dann eindrucksvolle Zahlen erzeugen, wenn der absolute Effekt der Behandlung gering ist. Relative Maße können definitionsgemäß nicht zwischen absolut hohen und geringen Effekten unterscheiden.

Um den absoluten Effekt einer Behandlung zu beschreiben, benötigt man also auch absolute Maße. Das einfachste Maß ist die absolute Risikodifferenz q-p, die im Falle eines präventiven Effekts als absolute Risikoreduktion (ARR) bezeichnet wird. Bei der Untersuchung von schädlichen Einflussfaktoren wird diese Differenz auch als (absolutes) Exzessrisiko bezeichnet. Die geschätzte ARR einer intensivierten im Vergleich zu einer gewöhnlichen Insulintherapie errechnet sich durch 0,169 - 0,067 = 0,102).

Ein weiteres absolutes Maß ist die Zahl „Number Needed to Treat” (NNT) [5], die definiert ist als Kehrwert von ARR, das heißt NNT = 1/ARR. Das Maß „Number Needed to Treat” beinhaltet im Prinzip die gleiche Information wie ARR, ist aber besser interpretierbar. NNT ist gerade die Zahl von Patienten, die der Intervention unterzogen werden müssen, um ein (unerwünschtes) Ereignis zu verhindern. Hierbei wird die Höhe des Basis-Risikos mitberücksichtigt. Je geringer die Wahrscheinlichkeit, dass ein Ereignis eintritt, desto höher ist die Zahl der Patienten, die behandelt werden müssen, um ein Ereignis zu verhindern. Es müssen etwa NNT = 1/0,102 = 9,8 ≈ 10 Patienten 5 Jahre mit intensivierter anstelle von gewöhnlicher Insulintherapie behandelt werden, um einen Fall von Neuropathie zu verhindern.

Ausführlichere Beschreibungen der Maße zur Darstellung eines Behandlungseffekts, die aus Vierfeldertafeln abgeleitet werden, findet man in der Literatur [4] [9] [10].

Ein weiteres wichtiges Anwendungsgebiet der Vierfeldertafel stellen diagnostische und Screening-Tests dar. Es werden die positiven und negativen Resultate des zu untersuchenden Tests den entsprechenden tatsächlichen Resultaten gegenübergestellt. Ist der tatsächliche Gesundheitszustand unbekannt, so werden als Ersatz die Resultate eines entsprechenden Goldstandards verwendet. In Tab. [2] findet man beispielhaft die Daten einer Studie aus den USA, in der die Effizienz des Hämoccult-Tests zum Screening auf ein kolorektales Karzinom untersucht wurde [1].

*Tab. 2* Vierfeldertafel zur Untersuchung des Hämoccult-Test zum Screening auf ein kolorektales Karzinom bei 7493 Personen [1].
		kolorektales Karzinom
		ja	nein	Summe
Hämoccult-Test	+	22	418	440
	-	10	7043	7053
Summe		32	7 461	7493

Die grundlegenden Effizienzmaße eines diagnostischen Tests sind Sensitivität und Spezifität [2]. Die Sensitivität ist definiert als Anteil der positiven Tests unter den Kranken und die Spezifität als Anteil der negativen Tests unter den Gesunden. Der Hämoccult-Test (HemeSelect) hat nach Tab. [2] eine Sensitivität von 22/32 = 69 % und eine Spezifität von 7043/7461 = 94 %.

Sensitivität und Spezifität beschreiben die allgemeine Güte eines diagnostischen Tests. In der klinischen Anwendung beantworten diese Maße aber nicht die Frage nach der Wahrscheinlichkeit für das Vorliegen der Krankheit nach Durchführung des Tests. Für die diagnostische Situation in der klinischen Praxis sind daher die prädiktiven Werte wichtiger [3]. Der positive prädiktive Wert (PPV) ist definiert als Anteil der Kranken unter allen Test-Positiven und der negative prädiktive Wert (NPV) als Anteil der Gesunden unter den Test-Negativen. Zu beachten ist, dass in Studien zur Evaluierung diagnostischer Tests in der Regel die untersuchten Individuen keine Zufallsstichprobe aus der interessierenden Population darstellen, sondern dass häufig zwei Stichproben vorliegen, eine aus der Population der Gesunden und eine aus der Population der Kranken. Die Stichprobenumfänge werden hierbei vom Untersucher vorgegeben, so dass die Krankheitsprävalenz, das heißt die Wahrscheinlichkeit für das Vorliegen der Erkrankung vor Testdurchführung (A-priori-Wahrscheinlichkeit), nicht schätzbar ist und aus anderen Quellen abgeleitet werden muss. In Abhängigkeit von Sensitivität, Spezifität und Prävalenz lassen sich dann die prädiktiven Werte berechnen durch [3]:

PPV= Sensitivität × Prävalenz /

[Sensitivität × Prävalenz + (1-Spezifität) × (1-Prävalenz)]

NPV = Spezifität × (1- Prävalenz) /

[Spezifität × (1- Prävalenz) + (1-Sensitivität) × Prävalenz]

Im Beispiel des Hämoccult-Tests ist die Prävalenz des kolorektalen Karzinoms (Diagnose innerhalb von 2 Jahren) aus den vorhandenen Häufigkeiten sinnvoll schätzbar durch 32/7493 = 0,4 %. Daher lassen sich hier die prädiktiven Werte direkt einfacher schätzen durch PPV = 22/440 = 5 % und NPV = 7043/7053 = 99,9 %. Das bedeutet, dass nur 5 % der Screening-Positiven tatsächlich ein kolorektales Karzinom haben. Trotz hoher Werte für Sensitivität und Spezifität ist der positive prädiktive Wert gering, wenn die Prävalenz der betrachteten Krankheit niedrig ist.

Ausführliche Übersichten über Methoden der Diagnose-Evaluierung findet man in der Literatur [4] [8] [11]. Die englischen Übersetzungen der diskutierten Begriffe zeigt Tab. [3].

*Tab. 3* Übersetzungen (deutsch - englisch)
Vierfeldertafel	2 by 2 table
Kontingenztafel	contingency table
Kreuzklassifikation	cross tabulation
binär	binary
Wahrscheinlichkeit	probability
Risiko	risk
Chance	odds
relatives Risiko	relative risk (oder: risk ratio)
Chancenverhältnis	odds ratio
Fall-Kontroll-Studie	case-control study
Exzessrisiko	excess risk
Sensitivität	sensitivity
Spezifität	specificity
positiver (negativer) prädiktiver Wert	positive (negative) predictive value
Prävalenz	prevalence

kurzgefasst

In einer Vierfeldertafel lassen sich absolute Häufigkeiten, die sich bei der Betrachtung zweier binärer Merkmale ergeben, darstellen. Mit diesen Zahlen lassen sich ableiten:

Wahrscheinlichkeit (Eintrittshäufigkeit eines Ereignisses),
Chance (Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt zur Wahrscheinlichkeit, dass das Ereignis nicht eintritt),
relatives Risiko (Verhältnis zweier Risiken)
Chancenverhältnis
Relative Risikoreduktion bzw. relatives Exzessrisiko
Absolute Risikoreduktion bzw. absolutes Exzessrisiko
Number Needed to Treat

Speziell im Rahmen einer diagnostischen Studie:

Sensitivität
Spezifität
prädiktive Werte (falls „echte” Prävalenzen vorliegen).

Dieser Beitrag ist eine überarbeitete Fassung aus dem Supplement Statistik aus dem Jahr 2001.

Literatur

1 Allison J E, Tekawa I S, Ransom L J, Adrain A L. A comparison of fecal occult-blood tests for colorectal-cancer screening. New Engl J Med. 1996; 334 155-159

Search in Google Scholar
2 Altman D G, Bland J M. Diagnostic tests 1: Sensitivity and specificity. BMJ. 1994; 308 1552

Search in Google Scholar
3 Altman D G, Bland J M. Diagnostic tests 2: Predicitive values. BMJ. 1994; 309 102

Search in Google Scholar
4 Bender R. Interpretation von Effizienzmaßen der Vierfeldertafel für Diagnostik und Behandlung. Med Klin. 2001; 96 116-121

Search in Google Scholar
5 Cook R J, Sackett D L. The number needed to treat: A clinically useful measure of treatment effect. BMJ. 1995; 310 452-454 , Correction: BMJ 1995; 310: 1056

Search in Google Scholar
6 Davies H TO, Crombie I K, Tavakoli M. When can odds ratios mislead?. BMJ. 1998; 316 989-991

Search in Google Scholar
7 DCCT Research Group . The effect of intensive diabetes therapy on the development and progression of neuropathy. Ann Intern Med. 122; 1995 561-568

Search in Google Scholar
8 Jaeschke R, Guyatt G, Sackett D L. for the Evidence-Based Medicine Working Group . Users guides to the medical literature III. How to use an article about a diagnostic test. A. Are the results of the study valid?. JAMA. 1994; 271 389-391

Search in Google Scholar
9 Levine M, Walter S, Lee H, Haines T, Holbrook A, Moyer V. for the Evidence-Based Medicine Working Group . Users guides to the medical literature. IV. How to use an article about harm. JAMA. 1994; 271 1615-1619

Search in Google Scholar
10 Oxman A D, Cook D J, Guyatt G H. for the Evidence-Based Medicine Working Group . Users guides to the medical literature. VI. How to use an overview. JAMA. 1994; 272 1367-1371

Search in Google Scholar
11 Richter K, Lange S. Methoden der Diagnoseevaluierung. Internist. 1997; 38 325-336

Search in Google Scholar

Privatdozent Dr. rer. biol. hum. Ralf Bender

Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

Dillenburger Straße 27

51105 Köln

Email: Ralf.Bender@iqwig.de

Literatur

1 Allison J E, Tekawa I S, Ransom L J, Adrain A L. A comparison of fecal occult-blood tests for colorectal-cancer screening. New Engl J Med. 1996; 334 155-159

Search in Google Scholar
2 Altman D G, Bland J M. Diagnostic tests 1: Sensitivity and specificity. BMJ. 1994; 308 1552

Search in Google Scholar
3 Altman D G, Bland J M. Diagnostic tests 2: Predicitive values. BMJ. 1994; 309 102

Search in Google Scholar
4 Bender R. Interpretation von Effizienzmaßen der Vierfeldertafel für Diagnostik und Behandlung. Med Klin. 2001; 96 116-121

Search in Google Scholar
5 Cook R J, Sackett D L. The number needed to treat: A clinically useful measure of treatment effect. BMJ. 1995; 310 452-454 , Correction: BMJ 1995; 310: 1056

Search in Google Scholar
6 Davies H TO, Crombie I K, Tavakoli M. When can odds ratios mislead?. BMJ. 1998; 316 989-991

Search in Google Scholar
7 DCCT Research Group . The effect of intensive diabetes therapy on the development and progression of neuropathy. Ann Intern Med. 122; 1995 561-568

Search in Google Scholar
8 Jaeschke R, Guyatt G, Sackett D L. for the Evidence-Based Medicine Working Group . Users guides to the medical literature III. How to use an article about a diagnostic test. A. Are the results of the study valid?. JAMA. 1994; 271 389-391

Search in Google Scholar
9 Levine M, Walter S, Lee H, Haines T, Holbrook A, Moyer V. for the Evidence-Based Medicine Working Group . Users guides to the medical literature. IV. How to use an article about harm. JAMA. 1994; 271 1615-1619

Search in Google Scholar
10 Oxman A D, Cook D J, Guyatt G H. for the Evidence-Based Medicine Working Group . Users guides to the medical literature. VI. How to use an overview. JAMA. 1994; 272 1367-1371

Search in Google Scholar
11 Richter K, Lange S. Methoden der Diagnoseevaluierung. Internist. 1997; 38 325-336

Search in Google Scholar

Privatdozent Dr. rer. biol. hum. Ralf Bender

Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

Dillenburger Straße 27

51105 Köln

Email: Ralf.Bender@iqwig.de

Permissions and Reprints

DMW Walter Siegenthaler Award

Subscribe to RSS

Share / Bookmark

Die Vierfeldertafel

Publication History

Schlüsselwörter

Key words

Literatur

Literatur

DMW Walter Siegenthaler Award

Related Journals

Related Books

Subscribe to RSS

Share / Bookmark

Die Vierfeldertafel

Publication History

Schlüsselwörter

Key words

Literatur

Literatur