Machine Learning versus konventionelle Statistik zur Analyse von Registerdaten: HbA1c-Anstieg und Gewichtszunahme bei Typ-1- und Typ-2-Diabetes

J Hermann; M Hrabe de Angelis; T Pieber; C Boettcher; M Witsch; M Pavel; RW Holl

doi:10.1055/s-0039-1688175

Diabetologie und Stoffwechsel, Table of Contents

Diabetologie und Stoffwechsel 2019; 14(S 01): S24
DOI: 10.1055/s-0039-1688175

Freie Vorträge

Epidemiologie und Versorgungsforschung

Georg Thieme Verlag KG Stuttgart · New York

Machine Learning versus konventionelle Statistik zur Analyse von Registerdaten: HbA1c-Anstieg und Gewichtszunahme bei Typ-1- und Typ-2-Diabetes

Authors

J Hermann

¹Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie; Deutsches Zentrum für Diabetesforschung (DZD), ZIBMT, Ulm, Germany
M Hrabe de Angelis

²HelmholtzZentrum München; Deutsches Zentrum für Diabetesforschung (DZD), Institute of Experimental Genetics, Neuherberg, Germany
T Pieber

³Medizinische Universität Graz, Klinische Abteilung für Endokrinologie und Diabetologie, Graz, Austria
C Boettcher

⁴Universitätsspital Bern, Universitätsklinik für Kinderheilkunde, Team Endokrinologie, Diabetologie & Stoffwechsel, Bern, Switzerland
M Witsch

⁵Centre Hospitalier de Luxembourg, DECCP, Luxemburg, Luxembourg
M Pavel

⁶Universitätsklinikum Erlangen, Medizin 1, Schwerpunkt Endokrinologie und Diabetologie, Erlangen, Germany
RW Holl

¹Universität Ulm, Institut für Epidemiologie und Medizinische Biometrie; Deutsches Zentrum für Diabetesforschung (DZD), ZIBMT, Ulm, Germany

Abstract

Full Text

Fragestellung:

Machine Learning (ML) ist eine Ergänzung oder Alternative zu konventionellen statistischen Methoden, insbesondere bei „Big Data“. Hier soll die Anwendbarkeit des ML-Algorithmus „Random Forest“ auf Routinedaten aus der Diabetesversorgung untersucht werden.

Methodik:

Für 65.000 Patienten mit Typ-1-Diabetes (T1D) und 46.000 mit Typ-2-Diabetes (T2D) aus der Diabetes-Patienten-Verlaufsdokumentation (DPV) wurden HbA1c-Veränderung und Gewichtszunahme (basierend auf alters- und geschlechtsstandardisierten BMI-Werten) im Vergleich zum Vorjahr bestimmt. Mittels Trainings- und Validierungsdatensatz (70/30%) wurde eine Klassifikation durch logistische Regression (konventionell) und Random Forest (ML; Entscheidungsbäume für Bootstrap-Stichproben und anschließende Aggregation; RevoScaleR-Paket 9.3.0 für R, Version 3.4.3) durchgeführt. Einflussgrößen waren demographische und klinisch relevante Variablen.

Ergebnisse:

Insgesamt hatten 53/46% der Patienten mit T1D/T2D im Vorjahresvergleich einen HbA1c-Anstieg und 56/54% eine Gewichtszunahme. Beim Random-Forest-Verfahren ergaben sich für den HbA1c-Anstieg bei T1D Alter und Diabetesdauer als wichtigste Prädiktoren, gefolgt von Insulindosis, Blutzuckerselbstmessungen/Tag und BMI. In der logistischen Regression waren Alter, Diabetesdauer, BMI, Insulindosis, ADHS und Hypoglykämien signifikante Prädiktoren. Bei T2D waren in der logistischen Regression Alter und Therapie (Insulin + OAD) signifikant, Random Forest lieferte zusätzlich Diabetesdauer und BMI. Für die Gewichtszunahme stellte das Alter bei beiden Analysemethoden und Diabetestypen den wichtigsten Prädiktor dar. Weitere Einflussgrößen waren Diabetesdauer, Insulindosis, Verhältnis Prandial-/Gesamtinsulin und Geschlecht (T1D) bzw. Therapie und Diabetesdauer (T2D).

Schlussfolgerungen:

ML-Algorithmen wie Random Forest ermöglichen die Analyse einer Vielzahl von Prädiktoren sowohl für binäre als auch für stetige Zielgrößen, ohne dabei anfällig für Overfitting zu sein. Während ML-Verfahren im medizinischen Bereich bisher häufig in der Bildverarbeitung genutzt wurden, bieten sie auch in der Qualitätssicherung und bei Registerdaten Potential.