Affective State and Voice: Reproducibility and Sensitivity of Speech Parameters

H. H. Stassen; G. Bomben

doi:10.1055/s-0038-1635518

Methods of Information in Medicine, Table of Contents

Methods Inf Med 1988; 27(02): 87-96
DOI: 10.1055/s-0038-1635518

Original Article

Schattauer GmbH

Affective State and Voice: Reproducibility and Sensitivity of Speech Parameters

Affektiver Zustand und Sprache: Reproduzierbarkeit und Sensitivität von Sprachparametern

H. H. Stassen

¹(From the Psychiatric University Hospital, Research Department, Zurich, Switzerland)

,

G. Bomben

¹(From the Psychiatric University Hospital, Research Department, Zurich, Switzerland)

› Author Affiliations

Abstract

PDF Download

Summary

In 1986, we started an extensive investigation into the nonverbal information transmitted in human speech. As part of this investigation, we had designed a study of healthy subjects -stratified according to sex, age and education - in order to gain valuable insights into the “typical” nonverbal activities of a speaker. The specific design of this study with 3 different types of texts and 2 repeated measurements at an interval of 14 days was used to test the stability of speech parameters over time as well as their sensitivity to form and content of text. In a first approach, we directed our efforts towards a set of major scalar quantities which earlier investigators had described as playing a key role in modelling affect in terms of directly measurable speech parameters.

Based on a sample of 97 persons and with the help of a fully computerized digital approach to speech processing, we found that the four major speech parameters “mean vocal pitch”, “time duration of pauses”, “time duration of utterances”, and “energy” are sufficiently reproducible under constant experimental conditions, whereas some significant differences showed up with regard to the sensitivity of these parameters to form and content of the spoken text. No substantial impact originated from the external factors sex, age and education, except for the tonal shift of one octave between males and females.

On the other hand, the overwhelming variety of individual voice patterns obviously excludes any simple model (which applies in general) of the nonverbal component of human speech. However, our analyses offered some important clues as to how appropriate models may be derived by means of adaptive procedures.

Wir begannen im Jahre 1986 eine umfangreiche Studie, die sich mit den nonverbalen Anteilen der menschlichen Sprache beschäftigt. Im Rahmen dieser Untersuchungen wurde auch eine Studie mit gesunden Versuchspersonen - stratifiziert nach Geschlecht, Alter und Ausbildung -durchgeführt, um einen Überblick über »typische« nonverbale Aktivitäten von Sprechern zu erhalten. Der spezifische Aufbau dieser Studie mit drei verschiedenen Texten und zwei im Abstand von 14 Tagen wiederholten Messungen ermöglichte zum einen die Überprüfung der Stabilität von Sprachparametern über die Zeit und zum andern die Untersuchung der Sensitivität dieser Parameter in bezug auf Unterschiede in Form und Inhalt der gewählten Texte. Das Hauptaugenmerk galt dabei einer Reihe skalarer Parameter, die in der Literatur als wesentliche Faktoren im Hinblick auf ein mögliches Affektmodell auf der Basis direkt meßbarer Sprachparameter beschrieben wurden.

Ausgehend von einer Stichprobe von 97 Personen und unter Benutzung eines vollcomputerisierten digitalen Verfahrens der Sprachanalyse fanden wir, daß die vier wichtigsten Sprachparameter »mittlere Sprechstimmlage«, »Pausendauer«, »Sprechabschnittsdauer« und »Energie« unter konstanten experimentellen Bedingungen ausreichend reproduzierbar sind. In bezug auf die Sensitivität der Parameter für Unterschiede in Form und Inhalt der Texte ergaben sich allerdings einige signifikante Unterschiede, während die Stratifizierungsvariablen Geschlecht, Alter und Ausbildung offensichtlich keinen substantiellen Einfluß haben, ausgenommen die Tatsache, daß Frauen sehr genau eine Oktave höher als Männer sprechen.

Darüber hinaus zeigte unsere Studie auch die ungeheure Vielfalt individueller Sprachmuster, die es sicherlich nicht erlaubt, die nonverbale Komponente der menschlichen Sprache durch ein einfaches, allgemein anwendbares Modell zu erfassen. Aufgrund der vorliegenden Ergebnisse unserer Untersuchungen und der dabei gewonnenen praktischen Erfahrungen ergeben sich aber wichtige Anhaltspunkte dafür, wie durch adaptives Vorgehen ein geeignetes, wahrscheinlich multivariables Modell konstruiert werden kann.

Key-Words:

Affective State - Speech Parameters - Reproducibility - Sensitivity

Schlüssel-Wörter:

Affektiver Zustand - Sprachparameter - Reproduzierbarkeit - Sensitivität

PDF (798 kb)

References

REFERENCES
1 Alpert M. Encoding of feelings in voice. In Clayton P. J, Barrett J. E. (Eds) Treatment of Depression: Old Controversies and New Approaches. New York: Raven Press; 1982: 217-228.
2 Clemmer E. J. Psycholinguistic aspects of pauses and temporal patterns in schizophrenic speech. J. Psycholinguist. Res 1980; 9: 161-185.
3 Darby J. K. Speech Evaluation in Psychiatry. New York: Grune & Stratton Inc; 1982
4 Ellgring H. Nonverbal expression of psychological states in psychiatric patients. Eur. Arch. Psychiatr. Neurol. Sci 1986; 236: 31-34.
5 Greden J. E, Caroll B. J. Decrease in speech pause times with treatment of en-dogeneous depression. Biol. Psychiat 1980; 15: 575-587.
6 Greden J. E, Albala A. A, Smokier I. A, Gardner R, Caroll B. J. Speech pause time: a marker of psychomotoric retardation in endogeneous depression. Biol. Psychiat 1981; 16: 851-859.
7 Hargreaves W. A, Starkweather J. A, Blaker K. H. Voice quality changes in depression. J. abnorm. Psychol 1965; 70: 218-220.
8 Klos K. T, Ellgring H. Sprechgeschwindigkeit und Sprechpausen von Depressiven. In Hautzinger M, Straub R. (Eds) Psychologische Aspekte depressiver Störungen. Regensburg: Roderer; 1984
9 Nilsonne À. Acoustic analysis of speech variables during depression and after improvement. Acta psychiat. scand 1987; 76: 235-245.
10 Priestley M. B. Spectral Analysis and Time Series, Vol. 2. London: Academic Press; 1981
11 Stassen H. H. The similarity approach to EEG analysis. Meth. Inform. Med 1985; 24: 200-212.
12 Stassen H. H, Kuny S, Woggon B, Angst J. Affective state and voice: Results of a pilot study with 6 depressive patients. Pharmacopsychiat. 1988. (in press)
13 Stassen H. H. Basic properties of human speech. A computerized approach to nonverbal communication. 1988. in preparation
14 Yannakoudakis E. J, Hutton P. J. Speech synthesis and recognition systems. Chichester: Ellis Horwood; 1987
15 Zerssen D. v, unter Mitarbeit von Koeller D. M. Die Befindlichkeits-Skala – Parallelformen Bf-S und Bf-S’ – Manual. Weinheim: Beltz; 1976
16 Zwicker E. Psychoakustik. Berlin: Springer; 1982