Zusammenfassung
In den KORA- Surveys werden derzeit verschiedene Kandidatengene, die in Zusammenhang mit Typ 2
Diabetes, Herzinfarkt, Atherosklerose, Adipositas und anderen Erkrankungen stehen,
untersucht. Hierbei werden SNPs (Single Nucleotide Polymorphisms, Einzelbasenaustausche)
in verschiedenen Genen bei den Probanden der Querschnittstudie genotypisiert. Ferner
gewinnen Haplotypen an Bedeutung: Haplotypen sind Kombinationen von Allelen innerhalb
von bestimmten Abschnitten eines Chromosomenstrangs. Die Betrachtung solcher Haplotypen
in genetischen Assoziationsstudien ist oft effizienter als die Betrachtung der einzelnen
SNPs. Ein statistisches Problem ist hierbei die Rekonstruktion der Phaseninformation:
Bei der Genotypisierung werden nur die Allele (also die Ausprägungen) eines Individuums
an den SNPs bestimmt, jedoch nicht, welche Base auf welchem Chromosomenstrang angesiedelt
ist. Verschiedene statistische Haplotyp-Rekonstruktionsverfahren ermöglichen die Identifizierung
der wahrscheinlichsten Haplotypen. Dabei ist ein gewisser Prognosefehler unausweichlich.
Auch Genotypisierungsfehler können zur Unsicherheit in den Haplotypen beitragen. Dieser
Genotypfehler kann von Bedeutung werden, selbst wenn der Genotypfehler je SNP sehr
klein ist. Dies liegt daran, dass mehrere SNPs an den Haplotypen beteiligt sind. Ein
Ziel dieses Projekts ist die Quantifizierung der Haplotyp-Unsicherheiten bei Genen,
die in KORA untersucht wurden. Wir verwenden einerseits Computersimulationen basierend
auf den in den KORA- Probanden beobachteten Haplotypen und deren Häufigkeiten. Andererseits vergleichen
wir Ergebnisse mit Simulationen basierend auf mathematischen Modellen zur Evolution
(„coalecent models”). Diese Unsicherheiten in den Haplotypen können dazu führen, dass
vorhandene Assoziationen zwischen Gen und Erkrankung nicht gefunden werden, da die
Unsicherheit in den Haplotypen den Unterschied der Haplotyp-Häufigkeiten zwischen
Erkrankten und Nichterkrankten verwischt. Das Ausmaß dieses Problems und Lösungsmöglichkeiten
aufzuzeigen, ist das zweite Ziel dieses Projekts.
Abstract
In the KORA surveys, numerous candidate genes in the context of type 2 diabetes, myocardial
infarction, atherosclerosis or obesity are under investigation. Current focus is on
genotyping single nucleotide polymorphism (SNPs). Haplotypes are also of increasing
interest: haplotypes are combinations of alleles within a certain section of one chromosome.
Analysing haplotypes in genetic association studies is often more efficient than studying
the SNPs separately. A statistical problem in this context is the reconstruction of
the phase: genotyping the SNPs determines the alleles of an individual at one particular
locus of the DNA, but does not reveal which allele is located on which one of the
two chromosomes. This information is required when talking about haplotypes. There
are statistical approaches to identify the most likely two haplotypes of an individual
given the genotypes. However, a certain error in prognosis is unavoidable. There are
also errors in the genotypes. These errors are assumed to be small for one SNP but
can accumulate over the SNPs involved in one haplotype and thus can induce further
uncertainty in the haplotype. It is therefore the aim of our project to quantify the
uncertainties in the haplotypes particularly for genes investigated in the KORA surveys.
We conduct computer simulations based on the haplotypes and their frequencies observed
in the KORA individuals and compare the results with simulations based on mathematical
modelling of the evolutionary process (”coalescent models”). The uncertainties in
the haplotypes have an impact on the search for association between genes and disease:
an association may not be detected as the haplotype uncertainty obscures the haplotype
frequency differences between cases and controls. It is a further aim of our project
to elucidate the extent of this problem and to develop strategies for reducing it.
Schlüsselwörter
Haplotyp-Rekonstruktion
- Prognosefehler
- Assoziationsstudien
- populationsbasiert
Key words
Haplotype reconstruction
- prognosis error
- association studies
- population-based
Literatur
1
Excoffier L, Slatkin M.
Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population.
Mol Biol Evolution.
1995;
12
921-927
2
Stephens M, Smith N J, Donnelly P.
A new statistical method for haplotype reconstruction from population data.
Am J Hum Genet.
2001;
68
978-989
3
Stephens M, Donnelly P.
A comparison of bayesian methods for haplotype reconstructionfrom population genotype
data.
Am J Hum Genet.
2003;
73
1162-1169
4
Fallin D, Cohen A, Essioux L. et al .
Genetic analysis of case/control data using estimated haplotype frequencies: application
to APOE locus variation and Alzheimer’s disease.
Genome Res.
2001;
11 (1)
143-151
5
Hudson R R.
Generating samples under a Wright-Fisher neutral model of genetic variation.
Bioinformatics.
2002;
18 (2)
337-338
6
Akey J M, Zhang K, Xiong M. et al .
The effect that genotyping errors have on the robustness of common linkage-disequilibrium
measures.
Am J Hum Genet.
2001;
68
1447-1456
7
Gordon D. et al .
A transmission/disequilibrium test that allows for genotyping errors in the analysis
of single-nucleotide polymorphism data.
Am J Hum Genet.
2001;
69
371-380
8
Bross I.
Misclassifikation in 2 × 2 tables.
Biometrics.
1978;
10
478
9
Rubin T, Rosenbaus A B, Cobb S.
The use of interview data for the detection of associations in field studies.
J Chronic Diseases.
1956;
4
253-266
10
Wacholder S, Dosemeci M, Lubin J H.
Blind assignment of exposure does not always prevent differential misclassification.
Am J Epidemiol.
1991;
1134
433-437
11
Duffy S W, Rohan T E, Day N E.
Misclassification in more than one factor in a case-control study: a combination of
Mantel-Haenszel and maximum likelihood approaches.
Stat Med.
1989;
8
1529-1536
12
Kaldor J, Clayton D.
Latent class analysis in crhonic disease epidemiology.
Stat Med.
1985;
4
327-335
13
Ott J.
Linkage analysis with misclassifiication at one locus.
Clin Genet.
1977;
12
119-124 [erratum in Clin Genet 1977; 12: 254]
14
Göring H HH, Terwilliger J D.
Linkage analysis in the presence of errors I: complex-valued recombination fractions
and complex phenotypes.
Am J Hum Genet.
2000;
66
1095-1106
15
O’Connell J R, Weeks D E.
PedCheck: a program for identification of genotyping incompatibilities in linkage
analysis.
Am J Hum Genet.
1998;
63
259
16
Löwel H, Döring A, Schneider A. et al .
The MONICA Augsburg surveys - basis for prospective cohort studies.
Gesundheitswesen.
2005;
67 S1
S13-S18
17
Holle R, Happich M, Löwel H. et al .
KORA - A research platform for population based health research.
Gesundheitswesen.
2005;
67 S1
S19-S25
18
Wichmann H E, Gieger C, Illig T. et al .
KORA-gen - Resource for population genetics, controls and a broad spectrum of disease
phenotypes.
Gesundheitswesen.
2005;
67 S1
S26-S30
19
Löwel H, Meisinger C, Heier M. et al .
The population-based Acute Myocardial Infarction (AMI) Registry of the MONICA/KORA
study region of Augsburg.
Gesundheitswesen.
2005;
67 S1
S31-S37
20
Illig T, Bongardt F, Schöpfer-Wendels A. et al .
Genetics of type 2 diabetes: impact of Interleukin-6 gene variants.
Gesundheitswesen.
2005;
67 S1
S122-S126
21
Lamina C, Steffens M, Mueller J. et al .
Genetic diversity in German and European populations: looking for substructures and
genetic patterns.
Gesundheitswesen.
2005;
67 S1
S127-S131
Iris M. Heid
GSF - Forschungszentrum für Umwelt und Gesundheit, Institut für Epidemiologie
Ingolstädter Landstraße 1
85764 Neuherberg
Email: heid@gsf.de