Klinische Neurophysiologie 2001; 32(2): 89-99
DOI: 10.1055/s-2001-16167
ORIGINALIA
Originalia
© Georg Thieme Verlag Stuttgart · New York

Interrater-Reliabilität visueller Schlafstadienklassifikation nach Rechtschaffen- und Kales-Regeln: Review und methodische Erwägungen

Interrater Reliability of Sleep Stage Scoring According to Rechtschaffen and Kales Rules (RKR): A Review and Methodological ConsiderationsHeidi Danker-Hopfe, W.  M. Herrmann
  • Interdisziplinäres Schlaflabor, Psychiatrische Klinik des Klinikums Benjamin Franklin der Freien Universität Berlin
Further Information

Publication History

Publication Date:
31 December 2001 (online)

Interrater Reliability of Sleep Stage Scoring According to Rechtschaffen and Kales Rules (RKR): A Review and Methodological Considerations

A literature review has been done on interrater reliability of sleep stage scoring according to the Rechtschaffen and Kales rules both between two and more than two raters. These results have been compared with the interrater reliability between visual scorings and semiautomatic as well as fully automated scorings. For single night scorings the interrater reliability varies between 61 % and 96 % while at the group level the agreement between visual scorings varies between 85 % and 95 % with an average of approximately 89 %. The interrater reliability between visual and automatic scoring at a group level varies between 70 % and 95 % with an average of about 83 %. The interrater reliability of sleep stage scorings varies with the number and the experience of the scorers, the choice of the 100 % reference (if two or more human experts are involved), the number of stages that are distinguished, the sample (healthy subjects vs. patients with sleep disturbances), the age of the subjects and the choice of the statistical method to estimate the interrater reliability. Based on the review of interrater reliability data methodological considerations on the measurement of interrater reliability are presented and discussed. For variables measured on different scales (quantitative sleep parameters measured on a metric scale vs. sleep stages as qualitative variables measured on a nominal scale) different approaches to estimate interrater reliability are used. For sleep parameters measured on a metric scale the advantages and disadvantages of correlation statistics on one hand and approaches to test group differences on the other are discussed. Among the approaches of correlation analysis, intra-class correlation should be the method of choice and with regard to approaches that test group differences the paired nature of the data has to be considered. Only a combination of both statistical approaches yields a comprehensive impression on the interrater reliability of the scoring results. For sleep stages, which represent nominal scaled qualitative data, agreement is commonly expressed as a percentage. Although this is a simple measure which is readily understood, it is not an adequate index of agreement since it makes no allowance for agreement between scorers that might be attributed just to chance. This disadvantage is overcome by the kappa statistics (by Cohen for two scorers and by Fleiss for more than two scorers), which expresses the difference between observed and chance agreement in relation to maximum possible excess of observed over chance agreement. Kappa usually varies between 0 (agreement is equal to chance) and 1 (complete agreement between scorers). Values < 0, which are rarely observed, indicate that there is a systematic deviation in agreement.

Zusammenfassung

Anhand eines Reviews und eigener Untersuchungen zur Interrater-Reliabilität von Schlafstadienauswertungen werden sowohl die Übereinstimmung zwischen zwei und mehr als zwei Experten, die Somnopolygraphien nach den Regeln von Rechtschaffen und Kales ausgewertet haben, als auch die Übereinstimmung zwischen visueller Auswertung und semiautomatischer bzw. automatischer Auswertung verglichen. Die Übereinstimmung zwischen den visuellen Auswertungen von zwei Experten für einzelne Aufzeichnungen variiert von 61 bis 96 %, bei gruppenstatistischer Betrachtung ist die Variationsbreite 85 bis 95 %. Werden visuelle und automatische Auswertung verglichen, so variiert die gruppenstatistische Übereinstimmung zwischen 70 und 95 %. Die Übereinstimmung zwischen zwei Experten ist mit durchschnittlich ca. 89 % höher als die zwischen visueller und automatischer Auswertung, die durchschnittlich ca. 83 % beträgt. Das Ausmaß der Übereinstimmung variiert mit der Zahl und der Erfahrung der Auswerter, der Wahl der 100 %-Referenz (bei zwei oder mehr Experten), der Anzahl der unterschiedenen Stadien, der Stichprobe (Gesunde vs. schlafgestörte Patienten), dem Alter der Probanden/Patienten und der Wahl der statistischen Methode zur Bestimmung der Interrater-Reliabilität. Anhand der in der Literatur publizierten Daten werden grundsätzliche methodische Erwägungen zur Analyse der Interrater-Reliabilität vorgestellt. Für die unterschiedlichen Skalenniveaus der Zielvariablen (quantitative Schlafparameter mit metrischen Skalenniveau vs. Schlafstadien als qualitative Merkmale mit Nominalskalenniveau) werden verschiedene Ansätze zur Bestimmung der Interrater-Reliabilität beschrieben: Für quantitative Schlafparameter werden die Vor- und Nachteile verschiedener korrelationsstatistischer Ansätze einerseits und Verfahren zur Überprüfung von Gruppenunterschieden andererseits diskutiert. Für die Schlafstadien werden die mit der Bestimmung einer prozentualen Übereinstimmung verbundenen Probleme aufgezeigt. Als Alternative, die zufallsbedingte Übereinstimmungen berücksichtigt, werden die Kappa-Koeffizienten nach Cohen für zwei Auswerter und nach Fleiss für mehr als zwei Auswerter vorgestellt.

Literatur

  • 1 Berger H. Über das Elektrenkephalogramm des Menschen.  Arch Psychiat Nervenkrankh. 1929;  87 527-570
  • 2 Dement W, Kleitman N. Cyclic variations in EEG during sleep and their relation to eye movements, body motility and dreaming.  Electroenceph Clin Neurophysiol. 1957;  9 673-690
  • 3 Loomis A L, Harvey E N, Hobart G. Cerebral states during sleep as studied by human brain potential.  J Exp Psychol. 1937;  21 127-144
  • 4 Monroe L J. Inter-rater reliability of scoring EEG records. Paper read at the Association for Psychophysiological Study of Sleep Meeting, Santa Monica, California, April 1967.  Abstract in Psychophysiology. 1968;  4 370-371
  • 5 Monroe L J. Inter-rater reliability and the role of experience in scoring EEG sleep records: Phase 1.  Psychophysiology. 1969;  5 376-384
  • 6 Rechtschaffen A, Kales A. A manual of standardized terminology, techniques and scoring system for sleep stages of human subjects. Los Angeles; University of California, Brain Information Service/Brain Research Institute 1968
  • 7 Himanen S L. A New Visual Adaptive Scoring System for Sleep Recordings. Acta Universitatis Tamperensis 2000: 769
  • 8 Himanen S L, Hasan J. Limitations of Rechtschaffen and Kales.  Sleep Medicine Rev. 2000;  4 149-167
  • 9 Kubicki S, Herrmann W M. The future of computer-assisted investigation on the polysomnogram: sleep microstructure.  J Clin Neurophysiol. 1996;  13 285-294
  • 10 Kubicki S, Herrman W M, Höller L. Critical Comments on the rules by Rechtschaffen and Kales concerning the visual evaluation of EEG sleep records. In: Kubicki S, Hermann WM (eds) Methods of Sleep Research. Stuttgart, New York; Gustav Fischer Verlag 1985: 19-35
  • 11 Herrmann W M, Kubicki S. Various techniques of computer analysis in nocturnal sleep. In: Degen R, Niedermeyer E (eds) Epilepsy, Sleep and Deprivation,. Amsterdam; Elsevier Science Publishers 1984: 207-229
  • 12 Penzel T, Kubicki S, Herrmann W M. Integrated sleep analysis, emphasis on automatic methods. In: Degen R, Rodin EA (eds) Epilepsy, Sleep and Deprivation, 2. Aufl. Amsterdam; Elsevier Science Publishers 1991: 177-204
  • 13 Penzel T, Conradt R. Computer based sleep recording and analysis.  Sleep Medicine Rev. 2000;  4 131-148
  • 14 Ehlert I, Danker-Hopfe H, Höller L, von Rickenbach P, Baumgart-Schmitt R, Herrmann W M. A comparison between EEG-recording and scoring by QUISI Version 1.0 and standard PSG with visual scoring.  Somnologie. 1998;  2 104-116
  • 15 Biernacka H, Douglas N J. Evaluation of a computerized polysomnography system.  Thorax. 1993;  48 280-283
  • 16 Danker-Hopfe H, Schmidt A, Dorn H, Kraemer S, Hansen M L, Herrmann W M. Vergleich der Schlafstadienklassifikation mittels QUISI und des visuellen Experten-Scorings auf der Basis einer PSG.  Somnologie. 2000;  4, Suppl 1 30
  • 17 Duke J C, Orr W C. A comparison of hand versus computer aided sleep scoring.  Sleep Res. 1992;  21 336
  • 18 Harris C, Westbrook P, Greene K, Staats B. Computerized polysomnographic analysis in patients with obstructive sleep apnea.  Sleep Res. 1989;  18 392
  • 19 McDannold M D, Scharf M B, Fletcher M S, Rucosky G, Hux G, Winchester T. A comparison of a computer assisted scoring system to manual methods.  Sleep Res. 1990;  19 371
  • 20 Moser R, Armstrong J O, Savicki J L, Huller R F. Correlation of polysomnographic scoring with computer assistance to manual scoring using standard criteria.  Sleep Res. 1990;  19 374
  • 21 Sforza E, Vandi S. Automatic Oxford-Medilog 9200 sleep staging scoring: comparison with visual analysis.  J Clin Neurophysiol. 1996;  13 227-233
  • 22 White D P, Gibb T J. Evaluation of a computerized polysomnographic system.  Sleep. 1998;  21 188-196
  • 23 Wortelboer U, Cohrs S, Rodenbeck A, Rüther E, Hajak G. Erfassung eines Therapieeffekts durch eine ambulante Schlafableitung (QUISI).  Somnologie. 2000;  4, Suppl 1 30
  • 24 Sachs L. Angewandte Statistik. 9. Aufl. Berlin, Heidelberg; Springer 1999
  • 25 Drake C L, Rice M F, Roehrs T, Rosenthal L, Guido P, Roth T. Scoring reliability of the Multiple Sleep Latency Test in a clinical population.  Sleep. 2000;  23 911-913
  • 26 Norman R G, Pal I, Stewart C, Walsleben J A, Rapoport D M. Interobserver agreement among sleep scorers from different centers in a large dataset.  Sleep. 2000;  23 901-908
  • 27 Fern R, Ferri P, Colognola R M, Petrella M A, Musumeci S A, Bergozoni P. Comparison between the results of an automatic and a visual scoring of sleep EEG recordings.  Sleep. 1989;  12 354-348
  • 28 Kubicki S, Höller L, Berg I, Pastelak-Price C, Dorow P. A comparison of results obtained by visual scoring and automatic analysis with the Oxford Sleep stager.  Sleep. 1989;  12 140-149
  • 29 Schaltenbrand N, Lengelle R, Macher J P. Neural Network Model: Application to automatic analysis of human sleep.  Computers and Biomed Res. 1993;  26 157-171
  • 30 Kuhwahara H, Higashi H, Mizuki Y, Matsunari S, Tanaka M, Inanaga K. Automatic real-time analysis of human sleep stages by an interval histogramm method.  Electroencephgr Clin Neurophysiol. 1988;  70 220-229
  • 31 Martin W B, Johnson L C, Viglione S S, Naitoh P, Joseph R D, Moses J D. Pattern recognition of EEG-EOG as a technique for all-night sleep stage scoring.  Electroencephalogr Clin Neurophysiol. 1972;  32 417-427
  • 32 Fleiss J L. Measuring nominal scale agreement among many raters.  Psychol Bull. 1971;  76 378-382
  • 33 Stanus E, Locroix B, Kerkhofs M, Mendlewicz J. Automated sleep scoring: a comparative reliability study of two algorithms.  Electroencephalogr Clin Neurophysiol. 1987;  66 448-456
  • 34 Danker-Hopfe H, Kunz D, Gruber G, Klösch G, Lorenzo J L, Himanen S L, Kemp B, Penzel T, Röschke J, Dorffner G. Interrater reliability between scorer from eight European sleep labs in subjects with different sleep disorders.  Somnologie. 2001;  5, Suppl 1 16
  • 35 Gaillard J M, Tissot R. Principles of automatic analysis of sleep records with a hybrid system.  Computers Biomed Res. 1973;  6 1-13
  • 36 Schaltenbrand N, Lengelle R, Toussaint M, Luthringer R, Carelli G, Jacqmin A, Lainey E, Muzet A, Macher J P. Sleep stage scoring using the Neural Network Model: Comparison between visual and automatic analysis in normal subjects and patients.  Sleep. 1996;  19 26-35
  • 37 Hanson R R, Glazier J, Hicklin G A, Steffen D A, DeLanoit J. A comparison of CNS „CASS” and manual methods.  Sleep Res. 1989;  18 391
  • 38 Mahowald M M, Eiken T, Cashman D, Jokinen D, Cohen D, Fitzgerald R. Clinical validation of CASS, a computer-assisted sleep system.  Sleep Res. 1989;  18 394
  • 39 Orr W C, Hansotia P, Anderson M W, Cohen D. Computer-assisted sleep staging and visual scoring: a comparison between CNS „CASS” and manual methods.  Sleep Res. 1988;  17 344
  • 40 Campbell K, Kumar A, Hofman W. Human and automatic validation of a phase-locked loop spindle detection system.  Electroencephalogr Clin Neurophysiol. 1980;  48 602-605
  • 41 Bremer G, Smith J R, Karacan I. Automatic detection of the K-Complex in sleep electroencephalograms.  IEEE Trans Bio-Med Eng BME. 1970;  17 314-323
  • 42 Bortz J, Lienert G A. Kurzgefasste Statistik für die Klinische Forschung. Heidelberg, New York; Springer Verlag 1998
  • 43 Everitt B S. Making Sense of Statistics in Psychology. Oxford; Oxford University Press 1999
  • 44 Kunz D, Danker-Hopfe H, Gruber G, Klösch G, Lorenzo J L, Himanen S L, Kemp B, Penzel T, Röschke J, Dorffner G. Interrater reliability between eight European sleep-labs in healthy subjects of all age-groups.  J Sleep Res. 2000;  9, Suppl 1 106
  • 45 Danker-Hopfe H, Kunz D, Gruber G, Klösch G, Lorenzo J L, Himanen S L, Kemp B, Penzel T, Röschke J, Dorffner G. Interrater reliability between eight European sleep labs in subjects with different sleep disorders. Abstract Book of the 11th Biennial Congress on Pharmaco-EEG,. University of Vienna Sept. 1. - 3. 2000
  • 46 Cohen J. A coefficient of agreement for nominal scales.  Educational and Psychological Measurement. 1960;  20 37-46
  • 47 Fleiss J L. Measuring agreement between two judges on the presence or absence of a trait.  Biometrics. 1975;  31 651-659
  • 48 Hasan J. Differentiation of normal and disturbed sleep by automatic analysis.  Acta Physiol Scand. 1983;  526 1-103
  • 49 Becker P M, Forester M, Jamieson A O, DeLaCueva L, Manrodt C, Gardner C, Cotton J, Thompson C. Comparison of the CNS Sleep I/T (edited), CNS CASS and Human Scoring of sleep.  Sleep Res. 1993;  22 353
  • 50 Kim Y, Kurachi M, Horita M, Matsuura K, Kamikawa Y. Agreement of visual scoring of sleep stages among many laboratories in Japan: Effect of a supplementary definition of slow wave on scoring of slow wave sleep.  Jpn J Psychiatry Neurol. 1993;  47 91-97
  • 51 Smith J R, Karacan I. EEG sleep stage scoring by an automatic hybrid system.  Electroencephalogr Clin Neurophysiol. 1971;  31 231-237
  • 52 Smith J R, Karacan I, Yang M. Automated analysis of the human sleep EEG.  Waking and Sleeping. 1978;  2 75-82

PD Dr. Heidi Danker-Hopfe
Prof. Dr. W. M. Herrmann

Interdisziplinäres Schlaflabor der Psychiatrischen Klinik des Klinikums Benjamin Franklin/Freien Universität Berlin

Eschenallee 3

14050 Berlin

Email: heidi-danker-hopfe@medizin.fu-berlin.de

    >