Subscribe to RSS
DOI: 10.1055/s-2008-1052794
Zur Frage des Stichprobenumfangs bei ROC-Analysen
Size of random sampling in relation to accurate diagnostic image evaluation in ROC analysisPublication History
Publication Date:
20 March 2008 (online)
Zusammenfassung
Umfangreiche Röntgenbildserien des Thorax, die zur Erkennung von Herz-Kreislauf-Erkrankungen klassifiziert worden waren, dienten als Ausgangsmaterial, um den Zusammenhang zwischen Erkennungsleistung und Stichprobenumfang zu untersuchen. An Proben mit gleichen Anzahlen von Röntgenaufnahmen zweier Befundklassen, die zu unterscheiden waren, ist hinreichende Konvergenz des als Leistungsmaß benutzten Flächenindex für Stichprobendimensionen etwa ab 200 je Befundklasse zu erkennen. Bei kleineren Proben streut die Erkennungsleistung mit abnehmendem Umfang stärker, und zwar bei einem leistungsschwachen Auswerter wesentlich mehr als bei einem leistungsstarken. In einer weiteren Untersuchungsserie wurde die Erkennungsleistung erfahrener Radiologen und eines teilautomatischen Klassifikators verglichen. Dieser erreichte fast den gleichen Leistungsindex wie der leistungsschwache Auswerter. Der unterschiedliche Kurvenverlauf und die Anordnung der Kurvenpunkte werden diskutiert.
Summary
ROC analysis has proved useful in assessing diagnostic efficiency. Large x-ray film series of thoracic images intended for cardiovascular diagnosis were used for studying diagnostic efficiency in relation to random sample size. Exploration of random samples from two classes of findings requiring diagnostic differentiation, with the same number of x-ray films in each class, showed satisfactory convergence between the radiologists' rating and the ROC curve if the size of the random sample groups was about 200 images each or larger. The smaller the random sample size (less than 200 images), the greater the scatter of the rating performance. In another series the rating ability of experienced radiologists was compared with that of a semi-automatic dassificator. The semi-automatic classificator attained almost the same performance index as the low-performance evaluator.