Fragestellung:
Machine Learning (ML) ist eine Ergänzung oder Alternative zu konventionellen statistischen
Methoden, insbesondere bei „Big Data“. Hier soll die Anwendbarkeit des ML-Algorithmus
„Random Forest“ auf Routinedaten aus der Diabetesversorgung untersucht werden.
Methodik:
Für 65.000 Patienten mit Typ-1-Diabetes (T1D) und 46.000 mit Typ-2-Diabetes (T2D)
aus der Diabetes-Patienten-Verlaufsdokumentation (DPV) wurden HbA1c-Veränderung und
Gewichtszunahme (basierend auf alters- und geschlechtsstandardisierten BMI-Werten)
im Vergleich zum Vorjahr bestimmt. Mittels Trainings- und Validierungsdatensatz (70/30%)
wurde eine Klassifikation durch logistische Regression (konventionell) und Random
Forest (ML; Entscheidungsbäume für Bootstrap-Stichproben und anschließende Aggregation;
RevoScaleR-Paket 9.3.0 für R, Version 3.4.3) durchgeführt. Einflussgrößen waren demographische
und klinisch relevante Variablen.
Ergebnisse:
Insgesamt hatten 53/46% der Patienten mit T1D/T2D im Vorjahresvergleich einen HbA1c-Anstieg
und 56/54% eine Gewichtszunahme. Beim Random-Forest-Verfahren ergaben sich für den
HbA1c-Anstieg bei T1D Alter und Diabetesdauer als wichtigste Prädiktoren, gefolgt
von Insulindosis, Blutzuckerselbstmessungen/Tag und BMI. In der logistischen Regression
waren Alter, Diabetesdauer, BMI, Insulindosis, ADHS und Hypoglykämien signifikante
Prädiktoren. Bei T2D waren in der logistischen Regression Alter und Therapie (Insulin
+ OAD) signifikant, Random Forest lieferte zusätzlich Diabetesdauer und BMI. Für die
Gewichtszunahme stellte das Alter bei beiden Analysemethoden und Diabetestypen den
wichtigsten Prädiktor dar. Weitere Einflussgrößen waren Diabetesdauer, Insulindosis,
Verhältnis Prandial-/Gesamtinsulin und Geschlecht (T1D) bzw. Therapie und Diabetesdauer
(T2D).
Schlussfolgerungen:
ML-Algorithmen wie Random Forest ermöglichen die Analyse einer Vielzahl von Prädiktoren
sowohl für binäre als auch für stetige Zielgrößen, ohne dabei anfällig für Overfitting
zu sein. Während ML-Verfahren im medizinischen Bereich bisher häufig in der Bildverarbeitung
genutzt wurden, bieten sie auch in der Qualitätssicherung und bei Registerdaten Potential.