Zusammenfassung
Hintergrund Für eine wissenschaftliche Auswertung von Arztbriefen bedarf es aufgrund unterschiedlicher
Terminologien und dem häufigen Gebrauch von Synonymen der Transformation in ein normiertes
Codesystem wie bspw. ICD-10 oder Alpha-ID. Das sog. „Word Vector Embedding“ erscheint
für die Generierung des dafür erforderlichen Thesaurus geeignet, da hierüber – nach
geeignetem Training des zugrunde liegenden neuronalen Netzwerkes – synonyme Diagnosen
unabhängig von der Schreibweise automatisch identifiziert werden können.
Methoden Es wurden alle Arztbriefe von insgesamt 50 000 Patienten anonymisiert extrahiert.
Diagnosen, die aus mehreren Wörtern bestehen, wurden mittels Phrasenerkennung in Einzelwörter
verschmolzen und das „word2vec“-Modell auf dem Textkorpus von 352 Megabytes trainiert.
Insgesamt 3742 Diagnosen bzw. ophthalmologische Interventionen wurden aus den Arztbriefen
halbautomatisch extrahiert. Die ophthalmologischen ICD- und Alpha-ID-Codes wurden
zusammen mit den offiziellen Beschreibungen von der Website des DIMDI heruntergeladen
und die ophthalmologischen Diagnosen/Interventionen aus den Arztbriefen mit den jeweils
im „word2vec“-Modell nächstgelegenen ICD- und Alpha-ID-Codes automatisiert verknüpft.
Ergebnisse Es wurden von „word2vec“-Modell 90% der Arztbriefdiagnosen den korrekten ICD-10-Codes
zugeordnet. Auf Ebene der viel feiner aufgelösten Alpha-ID-Codes betrug die Quote
korrekter Zuordnungen nur 76%. Die Interventionen wurden in 92% der korrekten Indikation
zugewiesen. Als Fehlerquellen für inkorrekte oder fehlende Zuordnungen wurden seltene
Erkrankungen, ungewöhnliche Bezeichnungen und Codedegeneration in der offiziellen
DIMDI-Datei identifiziert.
Diskussion Aus „Real-World“-Arztbriefen und der offiziellen Alpha-ID-Datei und lässt sich mit
der „word2vec“-Methode ein Diagnosenthesaurus generieren. Dieser könnte, eine geringfügige
manuelle Überarbeitung vorausgesetzt, zukünftig für eine automatische Extraktion von
Diagnosen aus Arztbriefen verwendet werden.
Abstract
Background Transformation into a standardised code system such as ICD-10 or Alpha-ID is required
before medical reports can be scientifically analysed. This is due to the use of different
terminologies and the frequent use of synonyms. The so-called “word vector embedding”
seems to be suitable for the generation of the required thesaurus, because synonymous
diagnoses can be identified independently of the spelling – after suitable training
of the underlying neural network.
Methods All letters from a total of 50,000 patients were extracted anonymously. Diagnoses
consisting of several words were merged into single words by means of phrase recognition
and the “word2vec” model was trained on the text corpus of 352 megabytes. A total
of 3742 diagnoses and ophthalmological interventions were extracted semi-automatically.
The ophthalmological ICD and Alpha-ID codes were downloaded together with the official
descriptions from the DIMDI website and the ophthalmological diagnoses/interventions
were automatically linked with the nearest ICD- and Alpha-ID codes in the “word2vec”
model.
Results The “word2vec” model assigned 90% of the doctorʼs letter diagnoses correctly to appropriate
ICD-10 codes. At the finer level of Alpha-ID, the rate of correct assignments was
only 76%. The interventions were assigned to the correct indication in 92% of cases.
Rare diseases, unusual designations and code degeneration in the official DIMDI file
were identified as sources of error for incorrect or missing allocations.
Discussion A diagnostic thesaurus can be generated with the “word2vec” method from a corpus
of anonymised medical reports and the official Alpha-ID file from the DIMDI website.
This thesaurus could be used for automatic extraction of diagnoses from doctorʼs letters
in the future, given appropriate manual revision.
Schlüsselwörter
Diagnosen - word2vec - Arztbrief
Key words
diagnosis - word2vec - medical report