CC BY-NC-ND 4.0 · Gesundheitswesen 2020; 82(S 02): S108-S116
DOI: 10.1055/a-1082-0740
Original Article
Eigentümer und Copyright ©Georg Thieme Verlag KG 2020

Individual-Level Linkage of Primary and Secondary Data from Three Sources for Comprehensive Analyses of Low Birthweight Effects

Individuelles Datenlinkage von Primär- und Sekundärdaten aus drei Datenquellen zur umfassenden Analyse der Effekte eines geringen Geburtsgewichtes von Kindern
Diana Druschke
1  Zentrum für Evidenzbasierte Gesundheitsversorgung, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Katrin Arnold
1  Zentrum für Evidenzbasierte Gesundheitsversorgung, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Luise Heinrich
1  Zentrum für Evidenzbasierte Gesundheitsversorgung, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Jörg Reichert
2  Klinik und Poliklinik für Kinder- und Jugendmedizin, Fachbereich Neonatologie und Pädiatrische Intensivmedizin, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Mario Rüdiger
2  Klinik und Poliklinik für Kinder- und Jugendmedizin, Fachbereich Neonatologie und Pädiatrische Intensivmedizin, Universitätsklinikum Carl Gustav Carus, Dresden, Germany
,
Jochen Schmitt
3  Zentrum für Evidenzbasierte Gesundheitsversorgung, Universitätsklinikum Carl Gustav Carus an der Technischen Universität Dresden, Dresden, Germany
› Author Affiliations
Acknowledgements: This study was funded by the Federal Ministry of Education and Research (BMBF, 01GY1323).
Further Information

Publication History

Publication Date:
19 March 2020 (online)

Abstract

Aim of the study The linkage of primary and secondary data is becoming an increasingly popular approach in healthcare research, but involves some challenges for all involved parties, for example due to data protection requirements. The aim of this article is to systematically outline the methods used and experiences made during a cohort study in the field of pediatric health care research (EcoCare-PIn) that involved access to and linkage of three different data sources. Particular focus is placed on the necessary regulatory measures with regard to data access and data linkage as well as on data validation to ensure a correct linkage.

Methods While complying with all relevant data protection requirements, the study realized an individual-level linkage of a) pseudonymized administrative health insurance data from a statutory health insurance on Saxon children born between 2007 and 2013, b) primary data collected via postal questionnaires from parents/caregivers and c) medical data from kindergarten- and school-entry-examinations of Saxon health authorities. The fundamental principle of the concept of data linkage was to strictly separate the sites of data collection and data analysis, which was realized through the involvement of a trust center.

Results Challenges especially pertained to the extensive regulatory pre-requirements for data access as well as to data protection requirements while performing the study. Technical aspects and data validation also required a considerable share of attention and resources. A number of validation routines were applied to avoid incorrect data linkage and to ensure the high quality of the final dataset. Data validation included both plausibility checks within the primary data and consistency checks of information given in primary and secondary data.

Conclusion The linkage of primary and secondary data on the individual level offers great opportunities for using the strengths of different data sources synergistically and overcoming some of their limitations. Statutory health insurance data and medical data from kindergarten- and school-entry-examinations of Saxon health authorities are examples of already existing data sources that can complement cost-consuming primary data collections by valuable data sets and open up opportunities for longitudinal analysis.

Zusammenfassung

Ziel der Studie Das Datenlinkage von Primär- und Sekundärdaten erfreut sich in der Versorgungsforschung zunehmender Beliebtheit, birgt jedoch unter anderem in Bezug auf den Datenschutz einige Herausforderungen für die Beteiligten. Ziel der vorliegenden Arbeit ist es, das im Rahmen einer Kohortenstudie aus dem Bereich pädiatrischer Versorgungsforschung (EcoCare-PIn) angewandte methodische Vorgehen beim Linkage dreier Datenquellen darzulegen sowie praxisrelevante Erfahrungen zu berichten. Hierbei wird besonders auf notwendige regulatorische Maßnahmen bezüglich des Datenzuganges und -linkage sowie auf die Datenvalidierung zur Absicherung einer fehlerfreien Verlinkung eingegangen.

Methoden Unter Berücksichtigung aller datenschutzrelevanten Erfordernisse wurde auf individueller Ebene ein Linkage von a) pseudonymisierten Abrechnungsdaten einer gesetzlichen Krankenkasse zu in den Jahren 2007 bis 2013 geborenen Kindern aus Sachsen, b) Primärdaten einer postalischen Befragung von Eltern/Betreuern und c) medizinischen Daten der Kindergarten und Schuleingangsuntersuchungen sächsischer Gesundheitsämter durchgeführt. Das Grundprinzip des Datenlinkage-Konzeptes war die strikte Trennung der Stellen der Datenerhebung und Datenanalyse, was durch die Einrichtung einer Vertrauensstelle realisiert wurde.

Ergebnisse Herausforderungen betrafen insbesondere die umfangreichen regulatorischen Maßnahmen im Vorfeld des Datenzuganges sowie auch Datenschutzerfordernisse während der eigentlichen Studiendurchführung. Weiterhin erforderten technische Aspekte sowie die Datenvalidierung besondere Aufmerksamkeit und Ressourcen. Es wurden zahlreiche Validierungsschritte angewandt, um fehlerhaftes Datenlinkage zu vermeiden und die hohe Qualität des finalen Datensatzes zu sichern. Die Validierung beinhaltete sowohl Plausibilitätsprüfungen innerhalb der Primärdaten als auch Konsistenzprüfungen bezüglich Angaben, die sowohl in Primär- als auch Sekundärdaten vorhanden waren.

Schlussfolgerung Das individuelle Linkage von Primär- und Sekundärdaten eröffnet wertvolle Möglichkeiten, die Stärken verschiedener Datenquellen synergistisch zu nutzen und einige ihrer Schwächen zu kompensieren. Krankenkassendaten und Daten der Kindergarten- und Schuleingangsuntersuchungen sächsischer Gesundheitsämter stellen Beispiele für bereits vorhandene Datenkörper dar, die kostenintensive Primärdatenerhebungen um wertvolle Datenbestände ergänzen können und Möglichkeiten für längsschnittliche Analysen eröffnen.

Geteilte Erstautorenschaft (Arnold/Druschke)