Methods Inf Med 1978; 17(01): 47-54
DOI: 10.1055/s-0038-1636610
BAYES’ THEOREM
Schattauer GmbH

Zur Problematik des angemessenen Klassifikationsverfahrens[*)]

THE PROBLEM OF THE SUITABLE ALLOCATION RULE
H. E. Wiohmann
1   Aus der Medizinischen Universitätsklinik Köln, Direktor: Prof. Dr. R. Gross
,
L. Köppen
1   Aus der Medizinischen Universitätsklinik Köln, Direktor: Prof. Dr. R. Gross
,
H. Spechtmeyer
1   Aus der Medizinischen Universitätsklinik Köln, Direktor: Prof. Dr. R. Gross
,
R. Gross
1   Aus der Medizinischen Universitätsklinik Köln, Direktor: Prof. Dr. R. Gross
› Author Affiliations
Further Information

Publication History

Publication Date:
15 February 2018 (online)

Bei 5 Zuordnungsregeln wird anhand eines speziellen Datensatzes der Einfluß der Anzahl betrachteter Variablen, Patienten und Krankheiten auf die Klassifikationsergebnisse untersucht. Für die /verwendeten Daten aus der Hämatologie liefern die einfacheren Verfahren (Bayes-Verfahren für quantitative und qualitative Variablen, lineare Diskriminanzanalyse) bessere Resultate als die mathematisch anspruchsvolleren Methoden (Diskriminanzanalyse für qualitative Daten bei Berücksichtigung von Wechselwirkungen 1. Ordnung, nichtlineare Diskriminanzanalyse), und der modellbedingte Fehler erweist sich bei der vorliegenden Datenstruktur als weniger schwerwiegend als der Fehler bei der Parameterschätzung. Während bei qualitativen Daten die Berücksichtigung von mehr als 30 Variablen vorteilhaft sein kann, verbessern bei quantitativen Daten Variablenzahlen über 10 die Ergebnisse nicht nennenswert, verschlechtern jedoch die Stabilität der Schätzungen. In einer Tabelle werden für 3 Verfahren Mindestpatientenzahlen angegeben, die bei den vorliegenden Daten zu stabilen Ergebnissen führen. Die Untersuchungen zeigen, daß die Kreuzvalidisierung eine weitgehend verzerrungsfreie Bewertung von Klassifikationsergebnissen erlaubt. Demgegenüber ist die Reklassifizierung in den meisten Fällen hierfür nicht geeignet.

For 5 allocation rules it is investigated by means of a special set of data how the numbers of variables, patients and classes influence the classification results. For the data used from hematology, the simpler methods (Bayes method for qualitative and quantitative variables, linear discriminant analysis) perform better than the more discriminating allocation rules (discriminant analysis for qualitative variables considering interactions of first order, non-linear discriminant analysis) and for the data structure considered the errors deriving from simplified model assumptions turn out to be less important than the estimation errors of the parameters. Whereas for qualitative data the use of more than 30 variables may lead to better results, for quantitative data more than 10 variables do not improve the scores but rather affect the stability of the estimations. In a table the minimal patient numbers are presented for which the data used yield stable results. Furthermore, it turns out that the cross validation leads to a rather unbiased assessment of classification results. On the other hand, in most cases resubstitution is unsuited for this purpose.

*) Gefördert unter DVM 301 yom Bundesministerinm für Forschung und Technologie.


 
  • Literaturverzeichnis

  • 1 Blomer R. J, Drechsler K. H. Hold-One-Out Probabilities for Multivariate Normal Classification. GSF, München; 1975
  • 2 Christl H. L, Stock S. Simulationsuntersuchungen über das Verhalten verschiedener automatischer Diagnoseverfahren. In Lange H. J, Wagner G. (Hrsg.): Computerunterstützte ärztliche Diagnostik, S. 269-288. Schattauer: Stuttgart; 1973
  • 3 DIANA-Programmbeschreibung. GSF München. 1977
  • 4 Hermans J, Habbema J. D. F. Comparison of Five Methods to Estimate Posterior Probabilities. EDV Med. Biol 06 1975; 14-19.
  • 5 Jaglom A. M, Jaglom I. M. Wahrscheinlichkeit und Information. Verlag d. Wissensch; Berlin; 1965
  • 6 Lachenbruch P. A. On Expected Probabilities of Misclassification in Discriminant Analysis, Necessary Sample Size, and a Relation with the Multiple Correlation Coefficient. Biometrics 24 1968; 823-834.
  • 7 Nakache J. P, Ditsserre L. Practical Problems in Linear Discriminant Analysis. EDV Med. Biol 06 1975; 30-35.
  • 8 Spechtmeyer H, Harnisch K. H, Koeckbitz M, Koeppen L, Novak G, Wichmann H. E, Gross B. Iilinischhämatologische Diagnostik mit Hilfe der EDV. BPT-Bericht 2/77, GSF, München. 1977
  • 9 Toussaint G. T. Bibliography on Estimation of Misclassification. IEEE Transact. Inform. Theory IT 20 1974; 472-479.
  • 10 Trampisch H. J. Trennprobleme bei unvollständiger Information — Eine Übersicht. EDV Med. Biol 06 1975; 2-8.
  • 11 Trampisch H. J. A Discriminant Analysis for Qualitative Data with Interactions. Comp. Prog. Biomed 06 1976; 50-60.
  • 12 Victor N. A Nonlinear Discriminant Analysis. Comp. Progr. Biomed 02 1971; 36-50.
  • 13 Victor N, Hoermann A, Eder L. STATSYS—Beschreibung und Benutzeranleitung. GSF-Berieht MD 24, München. 1973
  • 14 Victor N, Trampisch H. J, Zentgraf R. Diagnostic Rules for Qualitative Variables with Interactions. Meth. Inform. Med 13 1074; 184-186.
  • 15 Victor N. Probleme der Auswahl geeigneter Zuordnimgsregeln bei unvollständiger Information, insbesondere für kategoriale Daten. Biometrics 32 1976; 571-585.
  • 16 Wichmann H. E, Koeppen L, Spechtmeter H. Ein diagnostisches Simulationsmodell. Förderungsbericht zum Forschungsvorhaben DVM 301. Universität Köln. 1975
  • 17 Wichmann H. E, Koeckritz M, Spechtmeter H, Gross R. Erfahrungen mit einem logistischen und einem statistischen System zur Diagnostikunterstützung. Vortrag 21. GMDSTagung: Hannover; 1976