Sprechpausenerkennung

Sprechpausenerkennung (englisch voice activity detection, VAD) ist eine in der Sprachverarbeitung genutzte Technik, bei der die An- oder Abwesenheit menschlicher Stimme erkannt wird.[1] Die Hauptverwendungszwecke für Sprechpausenerkennung liegen in den Bereichen der Sprachkodierung und Spracherkennung. Es kann die Sprachverarbeitung erleichtern und kann genutzt werden, um manche Vorgänge während einer Sprechpause zu deaktivieren: Es kann unnötige Kodierung und Übertragung von inhaltsleeren Datenpaketen in IP-Telephonieanwendungen vermeiden und so Rechenleistung und Übertragungskapazität einsparen.

Sprechpausenerkennung ist eine Schlüsseltechnik für eine Vielzahl Sprach-basierter Anwendungen. Daher wurden verschiedene Algorithmen entwickelt, die unterschiedliche Merkmale aufweisen und eine Abwägung zwischen Latenz, Empfindlichkeit, Präzision und Berechnungsaufwand darstellen. Manche Algorithmen liefern auch weitere Analysedaten, zum Beispiel ob die Sprache stimmhaft, stimmlos oder ausgehalten ist. Sprechpausenerkennung ist üblicherweise unabhängig von der Sprache.

Erstmals untersucht wurde sie zur Verwendung in Systemen für zeitzugeordnete Sprachinterpolation (ZSI).

Algorithmus

Der typische Entwurf eines VAD-Algorithmus ist folgendermaßen:[1]

  1. Das Erste kann ein Schritt zur Rauschreduktion sein, zum Beispiel durch spektrale Subtraktion.
  2. Dann werden manche Merkmale oder Größen für einen Abschnitt des Eingangssignales berechnet.
  3. Es wird eine Klassifikationsregel angewandt, um den Signalabschnitt als Sprache oder als Sprechpause einzuordnen – oft prüft das Klassifikationsverfahren, ob ein Wert einen Schwellwert überschreitet.

In dieser Abfolge kann es Rückkopplungen geben, in der die Entscheidung der Sprechpausenerkennung genutzt wird, um die Störgeräuscherkennung anzupassen oder die/den Schwellwert(e) dynamisch anzupassen. Diese Rückkopplungsmechanismen verbessern die Erkennungsleistung bei veränderlichen Störgeräuschen.[1]

Ein repräsentativer Satz kürzlich veröffentlichter Sprechpausenerkennungsmethoden bestimmt die Entscheidungsregel von Block zu Block unter Verwendung fortlaufend gemessener Abweichungsabstand zwischen Sprache und Störgeräusch. Die unterschiedlichen Messgrößen, die bei der Sprechpausenerkennung genutzt werden, umfassen Abfall der Spektralverteilungskurve, Korrelationskoeffizienten, logarithmischer Wahrscheinlichkeits-Quotient, Cepstrum-, gewichtete Cepstrum- und modifizierte Abstandsmaße.

Unabhängig von der Wahl des Pausenerkennungsalgorithmus muss abgewägt werden zwischen der Erkennung von Störgeräuschen als Sprache oder Sprache als Störgeräusch (zwischen falsch positiv und falsch negativ). Eine in einem Mobiltelefon betriebene Sprechpausenerkennung muss Sprachsignale unter Anwesenheit einer Palette sehr unterschiedlicher Arten akustischer Hintergrundgeräusche erkennen können. Unter diesen schwierigen Erkennungsbedingungen ist es oft wünschenswert, eine konservative Pausenerkennung zu haben, die im Zweifelsfall als Sprachsignal kategorisiert, um die Gefahr verlorener Sprachabschnitte zu mindern. Die größte Schwierigkeit bei der Erkennung der Sprachabschnitte in dieser Umgebung sind die geringen anzutreffenden Rauschabstände. Wenn Teile der Sprachäußerungen in Störgeräuschen untergehen, kann eine Unterscheidung zwischen Sprache und Störgeräuschen aufgrund einfacher Pegelbestimmung unmöglich sein.

Anwendungen

Bei einer breiten Palette von Anwendungen wie digitalem Sprechfunk, Digital Simultaneous Voice and Data (DSVD) oder Sprachaufzeichnungen ist es wünschenswert, eine unterbrochene Übertragung von Sprachkodierungsparametern. Vorteile können niedrigerer durchschnittlicher Energiebedarf in Mobilgeräten, höhere durchschnittliche Bitrate für gleichzeitige Dienste wie Datenübertragung oder höhere Kapazität auf Speicher-Chips sein. Allerdings sind die Vorteile abhängig vom Anteil von Pausen in Gesprächen und der Zuverlässigkeit der eingesetzten Sprechpausenerkennung. Einerseits ist es vorteilhaft, einen geringen Anteil von Sprachabschnitten zu haben. Andererseits sollten Einschnitte in Sprachabschnitte, also der Verlust von Sprachabschnitten, minimiert werden, um Qualität zu erhalten. Das ist das entscheidende Problem für einen Sprechpausenerkennungsalgorithmus unter der Bedingung starker Störgeräusche.

Nutzung im Telefonverkauf

Eine umstrittene Anwendung von Sprechpausenerkennung ist in Verbindung mit von Telefonverkaufsfirmen verwendeten Predictive Dialern. Um die Produktivität der Agenten zu maximieren richten Telefonverkaufsfirmen Predictive Dialer ein, um mehr Nummern anzurufen, als Agenten verfügbar sind, in dem Wissen, dass die meisten Anrufe unbeantwortet oder bei Anrufbeantwortern enden. Wenn eine Person annimmt, so sprechen sie meist kurz („Hallo“, „Guten Abend“ etc.) und dann folgt ein Zeitraum der Stille. Anrufbeantworteransagen enthalten üblicherweise 3 bis 15 Sekunden an kontinuierlichem Sprachfluss. Mit korrekt gewählten Sprechpausenerkennungsparametern können Dialer bestimmen, ob eine Person oder ein Anrufbeantworter den Ruf angenommen hat und wenn es eine Person ist, den Anruf an einen verfügbaren Agenten übergeben. Wenn ein Anrufbeantworter erkannt wurde, so hängt der Dialer auf. Oft erkennt das System korrektermaßen die Annahme durch eine Person, wobei kein Agent verfügbar ist.

Leistungsbewertung

Um eine Sprechpausenerkennungsmethode zu bewerten, wird seine Ausgabe anhand von Testaufnahmen mit den Ergebnissen einer „idealen“ Sprechpausenerkennung verglichen – erstellt durch manuelle Feststellung der An- und Abwesenheit von Sprache in den Aufnahmen. Die Leistung einer Sprechpausenerkennung wird üblicherweise anhand der folgenden vier Parameter untersucht:[2]

  • FEC (Front End Clipping): angeschnittener Sprachabschnitt beim Übergang von Störgeräusch zu Sprachinhalt;
  • MSC (Mid Speech Clipping): unterbrochener Sprachabschnitt durch Fehlklassifizierung von Sprachinhalt als Störgeräusch;
  • OVER: als Sprachinhalt interpretierte Störgeräusche durch andauernden Sprechpausen-Status nach dem Übergang von Sprache zu Störgeräuschen;
  • NDS (Noise Detected as Speech): Störgeräusche während einer Stilleperiode werden als Sprachsignal interpretiert.

Trotzdem die oben beschriebene Methode nützliche objektive Informationen zur Leistung einer Sprechpausenerkennung liefert, ist sie nur ein näherungsweises Maß für die subjektive Auswirkung. Beispielsweise können die Auswirkungen angeschnittener Sprachabschnitte abhängig von der Art des gewählten Komfortrauschgenerators manchmal durch die Anwesenheit von Hintergrundgeräuschen verdeckt sein, wodurch manche mit objektiven Tests gemessene Einschnitte in Sprachabschnitte eigentlich nicht wahrnehmbar sind. Daher ist es wichtig, Sprechpausenerkennungen subjektiven Tests zu unterziehen, hauptsächlich um die Annehmbarkeit der wahrgenommenen Einschnitte sicherzustellen. Diese Art von Tests erfordert von einer gewissen Anzahl von Hörern die Bewertung von Aufnahmen mit den Erkennungsergebnissen der zu testenden Verfahren. Die Hörer müssen die folgenden Merkmale bewerten:

  • Qualität;
  • Verständlichkeit;
  • Hörbarkeit von Einschnitten.

Diese durch das Anhören einiger Sprachsequenzen erhaltenen Bewertungen werden dann benutzt um Durchschnittsergebnisse für die einzelnen oben aufgezählten Merkmale zu berechnen und dadurch eine allgemeine Einschätzung des Verhaltens der getesteten Sprechpausenerkennung zu erhalten. Während also objektive Methoden in einem anfänglichen Entwicklungsstadium sehr nützlich sind um die Qualität einer Sprechpausenerkennung zu prüfen, sind subjektive Methoden aussagekräftiger. Da sie jedoch teurer sind (weil sie die Teilnahme einer gewissen Anzahl von Leuten über einige Tage erfordern), werden sie allgemein nur genutzt, wenn sich ein Vorschlag in der Standardisierung befindet.

Implementierungen

  • Eine frühe standardisierte Sprechpausenerkennung ist die 1991 von British Telecom für die Nutzung in dem europaweiten digitalen Mobilfunknetzwerk entwickelte Methode. Es benutzt anhand von Sprechpausenabschnitten trainiertes inverses Filtern, um Hintergrundgeräusche auszufiltern und danach zuverlässiger anhand eines einfachen Pegelschwellwertes zu entscheiden, ob eine Stimme anwesend ist.[3]
  • Der G.729-Standard berechnet die folgenden Merkmale für seine Sprechpausenerkennung: Line Spectral Frequencies, gesamte Bandenergie, unterer Teil der Bandenergie (<1 kHz) und Nulldurchgangsrate. Es setzt eine einfache Klassifizierung ein mit einer festen Entscheidungsschwelle in dem Raum, den diese Merkmale definieren, und nimmt anschließend Glättungen und dynamische Korrekturen an dieser Schätzung vor.[4]
  • Der GSM-Standard enthält zwei vom ETSI entwickelte Möglichkeiten zur Sprechpausenerkennung.[5] Die erste Möglichkeit berechnet den Störabstand in neun Frequenzbändern und wendet einen Schwellwert auf diese Werte an. Die zweite Möglichkeit berechnet unterschiedliche Parameter: Energiedichte des Kanals, Messparameter von der Stimme und Energiedichte der Störgeräusche. Es wendet dann einen Schwellwert auf die Sprachsignalparameter an, der mit dem geschätzten Störabstand verändert wird.
  • Die Speex-Audio-Kompressorbibliothek nutzt eine als Improved Minima Controlled Recursive Averaging benannte Prozedur, die eine geglättete Darstellung der spektralen Energieverteilung nutzt und dann nach den Minima eines geglätteten Periodogramm sucht.[6] Ab Version 1.2 wurde es nach Aussage des Autors durch eine Pfuschlösung (englisches Original: „kludge“) ersetzt.[7]

Siehe auch

Literatur

  • DMA minimum performance standards for discontinuous transmission operation of mobile stations TIA doc. and database IS-727. Juni 1998.
  • Xianglong Liu, Yuan Liang, Yihua Lou, He Li & Baosong Shan: Noise-Robust Voice Activity Detector Based on Hidden Semi-Markov Models. In: 2010 20th International Conference on Pattern Recognition (ICPR). IEEE, 2010, ISBN 978-1-4244-7542-1, S. 81–84, doi:10.1109/ICPR.2010.28 (edu.cn [PDF]).
  • M. Y. Appiah, M. Sasikath, R. Makrickaite & M. Gusaite: Robust Voice Activity Detection and Noise Reduction Mechanism Using Higher-Order Statistics. 2005, doi:10.1109/ICPR.2010.28 (auc.dk [PDF] Institute of Electronics Systems, Aalborg University).

Fußnoten

  1. a b c J. Ramírez, J. M. Górriz & J. C. Segura: Voice Activity Detection. Fundamentals and Speech Recognition System Robustness. In: M. Grimm & K. Kroschel (Hrsg.): Robust Speech Recognition and Understanding. 2007, ISBN 978-3-902613-08-0, S. 1–22 (i-techonline.com [PDF]).
  2. F. Beritelli, S. Casale, G. Ruggeri & S. Serrano: Performance evaluation and comparison of G.729/AMR/fuzzy voice activity detectors. In: IEEE Signal Processing Letters. Band 9, Nr. 3, März 2002, S. 85–88, doi:10.1109/97.995824.
  3. D. K. Freeman, G. Cosier, C. B. Southcott & I. Boyd: The voice activity detector for the Pan-European digital cellular mobile telephone service. In: 1989 International Conference on Acoustics, Speech, and Signal Processing (ICASSP-89). Band 1, Mai 1989, S. 369–372, doi:10.1109/ICASSP.1989.266442.
  4. A. Benyassine, E. Shlomot, H.-Y. Su, D. Massaloux, C. Lamblin & J.-P. Petit: ITU-T Recommendation G.729 Annex B: a silence compression schemefor use with G.729 optimized for V.70 digital simultaneous voice and data applications. In: IEEE Communications Magazine. Band 35, Nr. 9, September 1997, S. 64–73, doi:10.1109/35.620527.
  5. ETSI: Digital cellular telecommunications system (Phase 2+); Half rate speech; Voice Activity Detector (VAD) for half rate speech traffic channels (GSM 06.42 version = 8.0.1). 1999.
  6. I. Cohen: Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging. In: IEEE Transactions on Speech and Audio Processing. Band 11, Nr. 5, September 2003, S. 466–475, doi:10.1109/TSA.2003.811544.
  7. Jean-Marc Valin: preprocess.c. In: Quellcode von Speex, Version 1.2beta2. Xiph.org, abgerufen am 17. Januar 2012 (englisch): „FIXME: This VAD is a kludge“