A. Gernemann: Akustische Phonetik ganz kurz 1

Die akustische Signalerfassung in der Phonetik ("visible speech")

Elektroakustische Wandlung

Akustische Signale in der Phonetik sind überwiegend zeitabhängige Schallfeldgrößen, erzeugt durch Sprachschall in Luft.

Schall ist eine lokale dynamische Volumenänderung elastischer Medien (hier der Luft), hervorgerufen durch einen Erreger (hier den Sprachapparat), der eine entsprechende Luftdruckänderung umgekehrt proportional ist. Diese Druckänderung bezeichnet man als Schalldruck, eine elementare Schallfeldgröße (neben Schallschnelle bzw. Druckgradient, Schalleistung etc.). Im Verhältnis zum umgebenden statischen Luftdruck sind die durch Schall erzeugten Druckänderungen sehr klein (ca. Faktor 10⁷ bei Sprache, gemessen in ca. 1m Entfernung).

Die in der Signalerfassung verwendeten Geräte sind elektroakustischer Natur, d.h. für eine Analyse müssen Schallfeldgrößen wie z.B. der Schalldruck in elektrische Signale, i.d.R. elekrische Spannungen umgewandelt werden.

Hierzu dienen Mikrophone, die überwiegend elektrostatisch oder elektrodynamisch arbeiten. Gemeinsam ist ihnen eine Membran, die sich proportional zu den dynamischen Schallfeldgrößen bewegt. Diese Bewegungen haben am Ausgang des Mikrophons je nach Wandlungsprinzip (Membran im E-Feld oder Membran an Tauchspule im Magnetfeld) dann eine entsprechende elektrische Spannung (Meßgröße) zur Folge.(Ausführliche Informationen zu Mikrophonen findet man als pdf-File auf den Umdruck-Seiten)

Digitalisierung

Die herkömmlichen analogen Geräte der akustischen Phonetik treten zunehmend in den Hintergrund. Heute erfolgen Analysen überwiegend mit digitalem Equipment unter Einsatz von Rechnern, die einerseits als Software-Implimentation die konventionellen Geräte simulieren und dabei wesentlich mehr Komfort und einfachere Bedienung beinhalten, andererseits aber auch bestimmte (meist rechenintensive) Verfahren erst ermöglichen (FFT, Statistik).

image2.gif (17700 Byte)

Vor jeder digitalen Signalverarbeitung steht die Digitalisierung der analogen Meßgröße selbst. Hierzu wird die analoge Meßgröße (elektrische Spannung) periodisch abgetastet. Die Abtastfrequenz muß dabei mindestens die doppelte Frequenz haben wie die Bandbreite des abzutastenden Signals. Um dieses Abtasttheorem einzuhalten, wird die Meßgröße zuvor tiefpaßgefiltert, beispielsweise mit einer Grenzfrequenz von ca. 20kHz. Die Auflösung im Wertebereich (Quantisierung) ergibt den maximal nutzbaren Dynamikbereich, so hat z.B eine Quantisierung mit 16 bit einen theoretischen Dynamikumfang von 96 dB. Ein digitales Signal ist also Zeit- und Wertediskret und kann in Form eines dualen Codes beschrieben werden (siehe Bild). (Ausführliche Informationen zur Digitalisierung findet man als pdf-File auf den Umdruck-Seiten)

Das Elektonenstrahloszilloskop / Untersuchungen im Zeitbereich

Mit Hilfe des Oszilloskops wird die Abhängigkeit zweier elektrischer Spannungen auf dem Bildschirm einer Elektronenstrahlröhre dargestellt. Die beiden Spannungen liegen an den Ablenkplatten der Vakuumröhre an und steuern die Auslenkung eines Elektronenstrahls, der im Auftreffpunkt die photoelektrische Schicht auf dem Schirm der Röhre zum Leuchten bringt. Für eine Betrachtung einer Eingangsspannung in Abhängigkeit der Zeit dient die Zeitbasis. Sie ist ein gesteuerter und in der Frequenz einstellbarer Sägezahngenerator, dessen Signal an den X-Platten der Röhre anliegt. Das zu untersuchende Signal wird dann auf die Y-Platten der Röhre geschaltet, so daß sich eine Darstellung der Amplitude dieses Signals als Funktion der Zeit ergibt.

Neben dem beschriebenen, einfachen analogen Elektronenstrahloszilloskopen gibt es auch digitale Speicheroszilloskope. Damit stehen die Oszillogramme unabhängig von der Messung jederzeit für eine Auswertung zur Verfügung. Außerdem können auch einmalige Vorgänge konstant dargestellt werden.

Die Interpretation von Oszillogrammen ist i.A. recht schwierig. Spektral differenzierte Aussagen sind kaum möglich. Dennoch lassen sich an den Oszillogrammen von Sprachschall folgende wichtige Analysen vornehmen:

Die Amplitude des Signals kann bei geringer zeitl. Auflösung eine "quasisegmentale" oder sogar "silbenähnliche" Struktur zeigen.
Sind periodizitätsähnliche Verläufe erkennbar, weist die Periodendauer auf die wahrnehmbare Tonhöhe stimmhafter Abschnitte und dessen Verläufe bei Unregelmäßigkeiten in der Tongebung hin. Laryngalisierungen (Knarrstimme) sind so z.B. erkennbar.

Anhand der Nulldurchgangsdichte kann einerseits der Sprachbeginn bzw. die -Pausen erkannt werden, andererseits zwischen stimmlosen, frikativischen Elementen (Rauschen® hohe Nulldurchgangsdichte) und stimmhaften Signalabschnitten (geringe Nulldurchgangsdichte, periodizitätsähnlich) unterschieden werden. Vokale haben eine geringe Nulldurchgangsdichte, wobei die stärkste Spektralkomponente (erster Formant) hier prägend wirkt. Eine statistische Erfassung der Nulldurchgangsrate ist prinzipiell einfach, da nur ein Komparator (Vorzeichenänderung) und ein Zähler benötigt werden. Ähnlich arbeitet das AMDF- Verfahren (Amplitude Mean Density Function), das die mittlere Nulldurchgangsdichte ermittelt und so bei Stimmhaftigkeit zusätzlich zur Grundtonbestimmung benutzt wird.
Die Extremwertdichte bei periodizitätsähnlichen Signalen mag ein Indiz für die Existenz mehrerer Spektralkomponenten sein. Sie ist um so dichter, je höher die zusätzlichen Spektralkomponenten sind, wie z.B. der zweite Formant bei Vokalen, (z.B. niedrige Extremwertdichte bei [u] und höhere bei [a]).

Weitere Analysemethoden im Zeitbereich, die sich nicht direkt aus einem Ozsillographenbild ergeben und erst mit der digitalen Signalverarbeitung möglich werden, sind die Ermittlung der Signalenergie und die Bestimmung der Autokorrelationsfunktion eines Sprachsignals in einem geeignet kurzen Zeitintervall. So ist die Signalenergie bei stimmhaften Lauten höher als bei stimmlosen, ebenso ist sie ein Indiz für die Unterscheidung von Sprache und Sprachpausen. Die Kurzeit-Autokorrelationfunktion (AKF) hingegen beschreibt hier die Ähnlichkeit zwischen einem Signal und dem zeitlich verschobenen gleichen Signal. Dabei spiegeln sich periodizitätsähnliche Eigenschaften des Sprachsignals in der AKF wieder, womit eine Grundtonbestimmung leicht möglich ist und sogar Formant-Eigenschaften erkennbar werden.

Bearbeitungen im Zeitbereich

Mit einem (digitalen) Schnittplatz lassen sich beliebig einzelne Signalanteile extrahieren. Dabei zeigt sich, daß Sprache nicht aus gleichartigen Einzellauten zusammengeführt werden kann, da regressive und progressive Koartikulation ständig im Spiel ist. Häufig können einzelne Phoneme nicht klar abgegrenzt werden, da eine eindeutige Grenze nicht besteht. Gehörmäßig entstehen durch das Extrahieren Stoßstellen, die plosivähnlich wirken. Mildern können dies künstliche Ein- und Ausblenden. Auch können durch den Schnitt andere Laute entstehen, z.B. wenn man vor dem im Kontext gesprochenen Frikativ [s] eine Pause einfügt, entsteht die Affrikate [ts] .

Das Sonagramm / Untersuchungen im Frequenzbereich

Bei Sonagrammen ist die Zeit als horizontale Koordinate eingetragen, die Frequenz als senkrechte Koordinate. Die Amplitude jeder Frequenzkomponente wird durch Schwärzung der Markierung angezeigt. Heutzutage benutzt man zur Bildung von Sonagrammen moderne rechnergestützte FFT-Systeme (Darstellung der gleitenden diskreten Fouriertransformierten). Bei dieser Darstellung ist darauf zu achten, daß neben der Beeinflussung durch die zeitliche Fensterung ein direkter Zusammenhang zwischen Frequenz und Zeit durch die Unschärfe besteht: bei abnehmender Intervallänge nimmt die Verschmierung über der Frequenz zu, umgekehrt hat eine schmale Bandbreite des Filters eine höhere Verschmierung über der Zeit zur Folge. Hat eine dieser Größen z.B. die Zeit eine gegebene Auflösung und ein gegebenes Intervall, so ist damit die maximale Auflösung der anderen Größe wie hier die Frequenz vorgegeben und kann nicht weiter erhöht werden.

In der Vergangenheit wurde der Schallspektograph nach R.K.Potter benutzt. Hier wird das Mikrophonsignal des zu analysierende Schalls zunächst auf einer Magnettrommel aufgezeichnet, die sich wie eine Endlosschleife eines analogen Tonbands verhält. Die Aufzeichnung wird dann viele Male durch ständiges Drehen der Trommel hintereinander abgespielt und durch ein frequenzveränderliches Filter geschickt. Nach jeder Drehung wird die Frequenz des Filters je nach dem interessierenden Frequenzbereich verändert. Das Ausgangssignal wird verstärkt und mit Hilfe eines Schreiberstichels auf ein Blatt eines elektrisch empfindliches Papier aufgezeichnet, das um eine zweite sich synchron drehende Trommel gewickelt ist. Der Abstand des Stichels ist dabei umgekehrt proportional zur Amplitude des Signals, so daß sich Linien verschiedener Schwärzungen auf dem Papier ergeben.

Ähnlich arbeitet der Sonagraph der Fa. Kay Electronic. Die Magnetschicht auf der Trommel und der Schreibzylinder sind zwar galvanisch getrennt, bilden aber aber eine mechanische Einheit. Das wiedergegene Signal moduliert die Hochpannung einer Elekrode, die sich vor dem elektrisch leitenden Schreibzylinder, der als Gegenelektrode fungiert, entsprechend dem zu untersuchenden Frequenzband bewegt. Der Bandpassdurchlauf des Signals ist automatisiert: nach jeder vollen Drehung wird die Mittenfrequenz des Filters um die Filterbandbreite nach oben verschoben und die Schreibelektrode mitgeführt. Die Aufzeichnung erfolgt auf einem mehrschichtigen Spezialpapier mit einer oberen weißen und einer unteren schwarzen Schicht. Je nach Amplitude der Hochspannung wird nun die weiße Schicht stärker oder schwächer elektrostatisch "weggebrannt".

Beim Spektograph bzw. Sonagraph wurden die höheren Frequenzbänder über 1kHz, die ja häufig eine geringere Amplitude aufweisen, i.d.R. zusätzlich mit 7 dB pro Oktave komprimiert, was bei heutigen FFT-Sonagrammen nicht mehr angewendet wird.

Das Sonagramm ist das wohl wichtigste Hilfsmittel zur Veranschaulichung der Segmentation und Eigenschaften des Sprachschalls, auch wenn die Interpretation einige Übung bedarf und natürlich hier auch Grenzen gesetzt sind. So lassen sich zwar unterschiedliche spektrale Muster im Sonagramm abgrenzen, diese stehen doch nicht in einem 1:1-Verhältnis mit den Lautsegmenten einer Transkription der Äußerung.

Grundsätzlich unterscheidet man Breitbandsonagramme (B) mit ca. 200-300Hz Bandbreite, bei denen Formanten eher sichtbar werden und Schmalbandsonagramme (S) mit ca. 20-50Hz Bandbreite, bei denen einzelne Harmonische mehr sichtbar werden.

Analysemerkmale für die optische Segmentation bei Sonagrammen:

Unterscheidung zwischen stimmlosen (B: vertikale Strichmuster; unregelmäßig strukturierte Schwärzung) und stimmhafte Abschnitten (B/S: horizontale Bandmuster).
Grundfrequenzen ist als voice bar erkennbar und bestimmbar durch den Abstand der vertikalen Striationen (B) bzw. durch die Lage der horizontalen Bänder (S) mit Obertönen bei S.
Formantfrequenzen als Schwärzungsbänder (B)

Sonagraphische Merkmale von Lautklassen:

Vokale sind durch die Lage ihrer Formanten (F1, F2) gekennzeichnet. Dauer: mit beginnender Transition (Nulldurchgang der ersten erkennbaren Quasiperiode entspricht erste Striation (B)) bis Wegfall der höheren Frequenzbereiche.

Frikative sind an der Lage des unregelmäßig strukturierten Rauschens (vertikalen Schwärzung) erkennbar mit hohen Amplituden über 5kHz, häufig auch über 10kHz. Die untere Grenzfrequenz des Rauschen ist um so tiefer, je weiter hinten der Frikativ gebildet wird. Bei stimmhaften Frikativen kann zusätzlich eine voice bar der Glottisschwingung erkennbar sein, die durch das Rauschen jedoch häufig verdeckt wird bzw. die Stimmhaftigkeit kann zu einer Modulation des Rauschsignals führen.

Plosive: bei genügend großer zeitlicher Auflösung erkennt man:

(sofern intervokalisch) die durch artikulatorische Verschlußbildung hervorgrufenen implosiven Transitionen, also ca. 40ms dauernde schnelle Formantbewegungen. F1 geht immer nach unten.
die Verschlußphase: bei stimmlosen Plosiven Signalpause (gänzlich fehlende Schwärzung im Sonagramm), bei Stimmhaften isolierte voice bar.
die Verschlußlösung: Verschlußlösungsgeräusch, transientes Geräusch hoher Amplitude (meißt höchste Amplitude der akustischen Plosivelemente) mit unterschiedlicher spektraler Zusammensetzung (vertikaler burst).
bei aspirierten Plosiven die Aspirationsphase (20ms-100ms) als geräuschhafte Anregung (höhere Spekralkomponenten) bzw. voice onset time (VOT) bis zum Einsatz des Stimmtons bei nachfolgenden Vokalen. Ab 20ms-30ms VOT wird im Deutschen ein Plosiv i.d.R. als aspiriert wahrgenommen.
Bei nachfolgenden Vokalen: Formantbewegungen, explosive Transitionen (40ms bis 50ms). F1 geht immer nach oben.

Approximanten: voice bar. Zeigen sich im Sonagramm bei nachfolgenden Vokalen gegenüber den Transitionen der Plosive mit langsameren Formantbewegungen.

Nasale: sind durch abrupte Änderungen der spektralen Struktur gekennzeichnet (Antiresonanzen). Wenig ausgeprägte Formantstruktur bei Konzentration der Spektralkomponenten im unteren Frequenzbereich.

Laterale: Haben spektral starke Bewegungen der Formanten ähnlich denen der Aproximanten (besonders 3. Formant). Abhängig vom Kontext. Formanten etwas weniger ausgeprägt als bei Vokalen, leicht geringere Gesamtamplitude.

Trill: niederfrequente Amplitudenmodulaton des Stimmtons, besonders bei [r].

Kurzzeitspektrum

Als Kurzzeitspektrum wird in der Phonetik das meist durch die FFT ermittelte Amplitudendichtespektrum für ein bestimmtes Intervall bezeichnet (Darstellung der Amplitude über der Frequenz). Es dient in erster Linie zur Bestimmung oder Erkennung von Formanten eines Phonems.

Cepstrum

Beim Cepstrum wird mittels FFT die inverse Fouriertransformierte eines zuvor logarithmierten Spektrums berechnet, um die Anregungsparameter der Rohschallerzeugung von den Übertragungseigenschaften des Ansatzrohres stärker hervorzuheben. Daraus lassen sich in Grenzen wiederum der Grundton von Sprachschall und die Filtereigenschaften des Ansatzrohres ermitteln.

A.Gernemann Juni 1999