CC BY-NC-ND 4.0 · Gesundheitswesen 2020; 82(S 02): S108-S116
DOI: 10.1055/a-1082-0740
Original Article
Eigentümer und Copyright ©Georg Thieme Verlag KG 2020

Individual-Level Linkage of Primary and Secondary Data from Three Sources for Comprehensive Analyses of Low Birthweight Effects

Individuelles Datenlinkage von Primär- und Sekundärdaten aus drei Datenquellen zur umfassenden Analyse der Effekte eines geringen Geburtsgewichtes von Kindern
Diana Druschke
1   Zentrum für Evidenzbasierte Gesundheitsversorgung, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Katrin Arnold
1   Zentrum für Evidenzbasierte Gesundheitsversorgung, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Luise Heinrich
1   Zentrum für Evidenzbasierte Gesundheitsversorgung, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Jörg Reichert
2   Klinik und Poliklinik für Kinder- und Jugendmedizin, Fachbereich Neonatologie und Pädiatrische Intensivmedizin, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Mario Rüdiger
2   Klinik und Poliklinik für Kinder- und Jugendmedizin, Fachbereich Neonatologie und Pädiatrische Intensivmedizin, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Jochen Schmitt
3   Zentrum für Evidenzbasierte Gesundheitsversorgung, Universitätsklinikum Carl Gustav Carus an der Technischen Universität Dresden, Dresden, Germany
› Author Affiliations
Acknowledgements: This study was funded by the Federal Ministry of Education and Research (BMBF, 01GY1323).
Further Information

Publication History

Publication Date:
19 March 2020 (online)

Abstract

Aim of the study The linkage of primary and secondary data is becoming an increasingly popular approach in healthcare research, but involves some challenges for all involved parties, for example due to data protection requirements. The aim of this article is to systematically outline the methods used and experiences made during a cohort study in the field of pediatric health care research (EcoCare-PIn) that involved access to and linkage of three different data sources. Particular focus is placed on the necessary regulatory measures with regard to data access and data linkage as well as on data validation to ensure a correct linkage.

Methods While complying with all relevant data protection requirements, the study realized an individual-level linkage of a) pseudonymized administrative health insurance data from a statutory health insurance on Saxon children born between 2007 and 2013, b) primary data collected via postal questionnaires from parents/caregivers and c) medical data from kindergarten- and school-entry-examinations of Saxon health authorities. The fundamental principle of the concept of data linkage was to strictly separate the sites of data collection and data analysis, which was realized through the involvement of a trust center.

Results Challenges especially pertained to the extensive regulatory pre-requirements for data access as well as to data protection requirements while performing the study. Technical aspects and data validation also required a considerable share of attention and resources. A number of validation routines were applied to avoid incorrect data linkage and to ensure the high quality of the final dataset. Data validation included both plausibility checks within the primary data and consistency checks of information given in primary and secondary data.

Conclusion The linkage of primary and secondary data on the individual level offers great opportunities for using the strengths of different data sources synergistically and overcoming some of their limitations. Statutory health insurance data and medical data from kindergarten- and school-entry-examinations of Saxon health authorities are examples of already existing data sources that can complement cost-consuming primary data collections by valuable data sets and open up opportunities for longitudinal analysis.

Zusammenfassung

Ziel der Studie Das Datenlinkage von Primär- und Sekundärdaten erfreut sich in der Versorgungsforschung zunehmender Beliebtheit, birgt jedoch unter anderem in Bezug auf den Datenschutz einige Herausforderungen für die Beteiligten. Ziel der vorliegenden Arbeit ist es, das im Rahmen einer Kohortenstudie aus dem Bereich pädiatrischer Versorgungsforschung (EcoCare-PIn) angewandte methodische Vorgehen beim Linkage dreier Datenquellen darzulegen sowie praxisrelevante Erfahrungen zu berichten. Hierbei wird besonders auf notwendige regulatorische Maßnahmen bezüglich des Datenzuganges und -linkage sowie auf die Datenvalidierung zur Absicherung einer fehlerfreien Verlinkung eingegangen.

Methoden Unter Berücksichtigung aller datenschutzrelevanten Erfordernisse wurde auf individueller Ebene ein Linkage von a) pseudonymisierten Abrechnungsdaten einer gesetzlichen Krankenkasse zu in den Jahren 2007 bis 2013 geborenen Kindern aus Sachsen, b) Primärdaten einer postalischen Befragung von Eltern/Betreuern und c) medizinischen Daten der Kindergarten und Schuleingangsuntersuchungen sächsischer Gesundheitsämter durchgeführt. Das Grundprinzip des Datenlinkage-Konzeptes war die strikte Trennung der Stellen der Datenerhebung und Datenanalyse, was durch die Einrichtung einer Vertrauensstelle realisiert wurde.

Ergebnisse Herausforderungen betrafen insbesondere die umfangreichen regulatorischen Maßnahmen im Vorfeld des Datenzuganges sowie auch Datenschutzerfordernisse während der eigentlichen Studiendurchführung. Weiterhin erforderten technische Aspekte sowie die Datenvalidierung besondere Aufmerksamkeit und Ressourcen. Es wurden zahlreiche Validierungsschritte angewandt, um fehlerhaftes Datenlinkage zu vermeiden und die hohe Qualität des finalen Datensatzes zu sichern. Die Validierung beinhaltete sowohl Plausibilitätsprüfungen innerhalb der Primärdaten als auch Konsistenzprüfungen bezüglich Angaben, die sowohl in Primär- als auch Sekundärdaten vorhanden waren.

Schlussfolgerung Das individuelle Linkage von Primär- und Sekundärdaten eröffnet wertvolle Möglichkeiten, die Stärken verschiedener Datenquellen synergistisch zu nutzen und einige ihrer Schwächen zu kompensieren. Krankenkassendaten und Daten der Kindergarten- und Schuleingangsuntersuchungen sächsischer Gesundheitsämter stellen Beispiele für bereits vorhandene Datenkörper dar, die kostenintensive Primärdatenerhebungen um wertvolle Datenbestände ergänzen können und Möglichkeiten für längsschnittliche Analysen eröffnen.

Geteilte Erstautorenschaft (Arnold/Druschke)


 
  • References

  • 1 Hunger M, Schwarzkopf L, Heier M. et al. Official statistics and claims data records indicate non-response and recall bias within survey-based estimates of health care utilization in the older population. BMC Health Services Research 2013; 13: 1 doi:10.1186/1472-6963-13-1
  • 2 Janssen C, Swart E, von Lengerke T. , Eds. Health Care Utilization in Germany. Theory, Methodology and Results. New York: Springer; 2014
  • 3 Peersman W, Pasteels I, Cambier D. et al. Validity of self-reported utilization of physician services: A population study. European Journal of Public Health 2013; 24: 91-97 doi:10.1093/eurpub/ckt079
  • 4 Swart E, Stallmann C, Schimmelpfennig M. et al. Gutachten zum Einsatz von Sekundärdaten für die Forschung zu Arbeit und Gesundheit. 1. Auflage Dortmund: Bundesanstalt für Arbeitsschutz und Arbeitsmedi-zin; 2018. DOI: 10.21934/baua:bericht20180112
  • 5 Jürges H, Köberlein J. What explains DRG upcoding in neonatology? The roles of financial incentives and infant health. Journal of Health Economics 2015; 43: 13-26 doi:10.1016/j.jhealeco.2015.06.001
  • 6 Swart E, Thomas D, March S. et al. Erfahrungen mit der Datenverknüpfung von Primär- und Sekundärdaten in einer Interventionsstudie. [Experience with the linkage of primary and secondary claims data in an intervention trial]. Gesundheitswesen. 2011; 73: e126-e132 doi:10.1055/s-0031-1280754
  • 7 March S, Rauch A, Thomas D. et al. Datenschutzrechtliche Vorgehensweise bei der Verknüpfung von Primär- und Sekundärdaten in einer Kohortenstudie: Die lidA-Studie. Das. Gesundheitswesen 2012; 74: 834-835 doi:/10.1055/s-0031-1301276
  • 8 Schulte T, Pimperl A, Dittmann B. et al. Drei Dimensionen im internen Vergleich: Akzeptanz, Ergebnisqualität und Wirtschaftlichkeit der Integrierten Versorgung Gesundes Kinzigtal. 2012 Im Internet: http://deutsche-aerztenetze.de/uploads/live/aktuelles/dokumente/24/studie_kin-zigtal.pdf Stand: 22.11.2018
  • 9 Weyers S, Wahl S, Dragano N. et al. Ist der Datenschatz schon gehoben? Eine Übersichtsarbeit zur Nutzung der Schuleingangsuntersuchung für die Gesundheitswissenschaften. Prävention und Gesundheitsförderung 2018; DOI: 10.1007/s11553-018-0641-6.
  • 10 Schmitt J, Arnold K, Druschke D. et al. Early comprehensive care of preterm infants - effects on quality of life, childhood development, and healthcare utilization: study protocol for a cohort study linking administrative healthcare data with patient reported primary data. BMC Pediatrics. 2016; 16: 104 doi:10.1186/s12887-016-0640-8
  • 11 World Medical Association World Medical Association Declaration of Helsinki: Ethical Principles for Medical Research Involving Human Subjects. JAMA 2013; 310: 2191-2194 doi:10.1001/jama.2013.281053
  • 12 Deutsche Gesellschaft für Epidemiologie (DGEpi). Leitlinien und Empfehlungen zur Sicherung von Guter Epidemiologischer Praxis (GEP). 2008. Im Internet: https://dgepi.de/assets/Leitlinien-und-Empfehlungen/6074a4e7b8/Leitlinien-fuer-Gute-Empidemiologische-Praxis.pdf Stand: 13.11. 2018
  • 13 Swart E, Gothe H, Geyer S. et al. Good Practice of Secondary Data Analysis (GPS): Guidelines and recommendations. Gesundheitswesen 2015; 77: 120-126 doi:10.1055/s-0034-1396815
  • 14 Rüdiger M, Heinrich L, Arnold K. et al. Impact of birthweight on health-care utilization during early childhood – A birth cohort study. BMC Pediatrics 2019; 19: 69 doi:10.1186/s12887-019-1424-8
  • 15 Freistaat Sachsen. Gesetz über Kindertageseinrichtungen in der Fassung der Bekanntmachung vom 15 Mai 2009 (SächsGVBl. S. 225), das zuletzt durch Artikel 7 des Gesetzes vom 29. April 2015 (SächsGVBl. S. 349) geändert worden ist. Im Internet: www.revosax.sachsen.de Stand: 17.05.2018
  • 16 Arbeitsgruppe „Datenschutz und IT-Sicherheit im Gesundheitswesen“ der deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V. (GMDS). Arbeitshilfe zur Pseudonymisierung/Anonymisierung. 2018 http://ds-gvo.gesundheitsdatenschutz.org/download/Pseudonymisierung-Anonymisierung.pdf Stand: 13.11.2018
  • 17 March S, Andrich S, Drepper J. et al. Gute Praxis Datenlinkage (GPD). Gesundheitswesen. 2019 DOI: 10.1055/a-0962-9933
  • 18 Pommerening K, Drepper J, Helbing K. et al. Guideline for Data Protection in Medical Research Projects – TMF’s generic solutions 2.0. TMF-Book Series. Vol.11. Berlin: MWV; 2014