Methods Inf Med 1974; 13(03): 179-183
DOI: 10.1055/s-0038-1636142
Original Article
Schattauer GmbH

Indexed Text-Analysis[*]

Indizierte Klartextanalyse
K. Kayser
*   From the Department of Documentation, Historic and Social Pathology (Prof. Dr. W. Jacob) of the Institute of Pathology (Prof. Dr. W. Doerr), The University of Heidelberg
,
W. W. Höpker
*   From the Department of Documentation, Historic and Social Pathology (Prof. Dr. W. Jacob) of the Institute of Pathology (Prof. Dr. W. Doerr), The University of Heidelberg
,
U. Müller
*   From the Department of Documentation, Historic and Social Pathology (Prof. Dr. W. Jacob) of the Institute of Pathology (Prof. Dr. W. Doerr), The University of Heidelberg
› Author Affiliations
Further Information

Publication History

Publication Date:
10 February 2018 (online)

Preview

General conditions for medical text analysis are discussed. By means of formal description the errors which occur during manual codification with the over-cross method are analysed by distribution in different classes of diagnoses. It is pointed out that the largest error arises through incorrect correlation of the diagnoses in the summary of findings with those of the thesaurus and that, furthermore, a thesaurus of 4,500 medical terms is not sufficient for documentation in pathology. The entropy losses were only slightly larger than the losses of diagnoses calculated by percentage. The distribution of the classes of diagnoses follows a general statistical theory. In the over-cross method a loss of information Iμ = 1.532 in a total entropy of HD = 5.789 must be reckoned with as shown in an example.

Es werden allgemeine Bedingungen für die Klartextanalyse aufgestellt. Anhand einer formalen Darstellung werden durch Einteilung in verschiedene Diagnosengruppen die Fehler analysiert, die bei der manuellen Codierung durch das Over-cross-Yerfahren auftreten. Es zeigt sich, daß der größte Fehler durch falsches Zuordnen der Diagnosen des Arztbriefes zu denen des Thesaurus entsteht und daß ferner ein Thesaurus von 4500 medizinischen Begriffen für die Dokumentation in der Pathologie nicht ausreichend ist. Die Entropieverluste waren nur geringgradig größer als die prozentualen Diagnosenverluste. Die Diagnosengruppen verteilen sieh entsprechend einer allgemeinen statistischen Theorie. Wie ein Beispiel zeigt, muß beim Over-cross-Verfahren mit einem Informationsverlust Iμ = 1,532 bei einer Gesamtentropie HD = 5,789 gerechnet werden.

* This study was partly supported by funds from the Deutsche Forschungsgemeinschaft (Special Research Project No. 90).