Grundlagen der Automatischen Spracherkennung, WS16/17, Vorlesung
Karlsruher Institut für Technologie (KIT)
19 episodes
9 months ago
Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.
Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.
Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.
All content for Grundlagen der Automatischen Spracherkennung, WS16/17, Vorlesung is the property of Karlsruher Institut für Technologie (KIT) and is served directly from their servers
with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.
Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.
Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.
0:00:00 Starten
0:00:16 Minimierung des Wortfehlers
0:02:50 Approximierung mit N-besten Listen
0:04:06 WER Minimierung auf Wortgraphen
0:04:18 Multiple Alignment WER
0:07:03 Finden des globalen Alignment
0:08:21 Alignment als Äquivalenzrelation
0:09:44 Finden einer angemessenen Äquivalenzrelation
0:12:02 Intra-Wort-Clustern
0:14:58 Pruning
0:15:45 Confusionsnetzwerke
0:18:20 Confusionsnetzwer-Hypothese
0:19:20 Eyperimente
0:23:03 Systemkombination
0:25:00 Systemkombination mit ROVER
0:28:33 Alignierung vieler Hypothesen mittlels DP
0:29:30 Beispiel
0:30:46 Mehrheitsentscheidung
0:31:25 Experimente
0:34:28 Probleme mit EM Training
0:38:06 Korrektives Training
0:41:22 Diskriminatives Training
0:43:00 Maximierung der Posterioriw'keit
0:43:41 Transformation / Mutual Information
0:45:14 Maximum Mutual Information Estimation (MMIE)
0:47:52 MLE vs. MMIE
0:50:35 MMIE Implementierung
0:51:20 MMIE Optimierung
0:52:16 Erweiterte Baum-Welch Regeln
0:54:59 MMIE Trainingsprozedur
0:57:21 Ergebnisse
0:58:00 MWE/MCE Training
1:07:31 Neue-Worte-Problem
1:09:31 Ansätze
1:11:02 Häufigkeitsverteilung von Wörtern
1:12:46 Herausvorderungen bei der OOV Detektion
1:14:11 OOV Wörtermodelle im AM
1:15:37 AM
1:16:03 OOV Wörtermodelle LM
1:17:49 Automatisches Clustern
1:18:06 Beispiele
1:19:36 Genauigkeit OOV Detektion
1:21:01 Lernen der neuen Wörter
1:21:32 Beispiel Lerndialog
18 |
0:00:00 Starten
0:01:22 Vor- und Nachteile eines Stackdecoders
0:05:30 A* vs. Strahlsuche
0:07:22 Vermeidung von Redundanzen
0:09:23 Baumsuche
0:12:11 Baumsuche mit Sprachmodell
0:13:54 Delayed Bi-Grams
0:21:15 Einsparung durch Baum-Lexica
0:25:40 Kopien von Suchbäumen
0:29:50 Suche mit kontextabhängigen Modellen
0:32:24 Baumsuche mit kontextabhängigen Modellen
0:35:58 N-Besten Suche
0:43:27 Probleme mit n besten Listen
0:45:27 Wortgraphen
0:47:39 Zusammenfassung Beschleunigungstechniken
0:49:35 Mehrpass Suchen
0:50:53 Beispiel: IBIS Single Pass Decoder
0:53:48 Delayed Bi-Grams
1:00:17 Consensus Decoding
1:02:38 Bsp: MAP vs. Wort-Posteriori-W'keiten
1:08:34 Minimierung des Wortfehlers
1:12:50 Approximierung mit N-besten Listen
1:14:55 WER Minimierung auf Wortgraphen
1:17:16 Multiple Alignment WER
17 |
0:00:00 Starten
0:00:04 Suche
0:01:31 Erinnerung: Fundamentalformel
0:02:05 Suche in der Spracherkennung
0:05:08 Erinnerung DTW und One-Stage-DP
0:07:02 Suche im Allgemeinen
0:09:33 Suche mit DP und Heuristik
0:11:37 Kenngrößen für Suchprobleme
0:14:42 Forward-/Backward-/bi-direktionale Suche
0:16:34 Explizite vs. Implizite Implementierung
0:18:15 Blinde Suche
0:19:51 Suchstrategien
0:24:49 Tiefensuche vs. Breitensuche
0:25:58 Heuristische Graphsuche
0:28:42 Zeitasynchrone Suche mit A*
0:33:13 Zeitsynchrone Strahlsuche
0:38:16 Beams in ASR
0:40:15 Beam vs. WER
0:51:26 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell
0:54:51 Suchraum mit Uni-Gramm
0:58:16 Suchraum mit Bi-Grammen
1:00:59 Suchraum mit Tri-Grammen
1:05:58 Viterbi Decoding
1:12:51 A* mit Stack Decoder
1:14:40 Heuristik für A*
1:16:42 Fast Match
14 |
0:00:00 Starten
0:00:09 Wiederholung
0:03:29 Kontextfragen
0:09:30 Typische Kontextfragen
0:13:15 Abdeckung durch Polyphone
0:14:51 Gewinn durch längere Kontexte
0:16:21 Verwendung dynamischer Modalitäten
0:17:38 Dynamische Modalitäten
0:29:29 Fehler durch Falsche Aussprachen
0:31:19 Generierung von Aussprachewörterbüchern
0:39:42 Verwendung von existierenden Wörterbüchern
0:43:58 Lernen von Ausspracheregeln
0:51:00 Inkrementelles Lernen
0:53:28 Aussprachevarianten
0:56:08 Finden von Aussprachevarianten
0:57:32 Probleme mit Aussprachevarianten
1:02:59 Typische Aussprachevarianten
1:03:38 Regeln für Aussprachevarianten im Deutschen
1:04:40 Datengetriebenes Finden von Aussprachevarianten
1:07:48 Finden von Aussprachevarianten mit dem Silbenmodell
1:09:22 Flexibles Trainingsalignment
13 |
0:00:00 Starten
0:00:06 EM Algorithm
0:00:22 Literatur
0:01:46 Baum-Welch Regeln
0:03:41 Maximum-Likelihood Methode
0:42:38 Expectation Maximization (EM)
0:45:19 EM
0:49:06 EM – Expectation Schritt
0:54:25 EM für Mixtur-Gewichte
1:05:41 EM für Gaußmixturen
1:17:21 EM für HMMs
1:20:05 EM für HMMs Anfangsw´keiten
1:22:18 EM für HMMs Übergangsw´keiten
1:24:26 EM Algorithmus diskrete Emissionsw´keiten
12 |
0:00:00 Starten
0:00:11 EM Algorithmus Emissionsw'keiten GMM
0:06:13 HMM Training für multiple Trainigssequenzen
0:07:32 HMMs in ASR
0:10:16 Wortfolge zu HMM
0:13:56 HMM in ASR
0:26:49 HMM Trainingszyklus
0:36:21 Etikettierte Daten
0:38:19 Initalisierung mit K-Mittelwerte Algorithmus
0:47:19 Neural Gas Algorithmus
0:49:20 Initilisierung der HMM Parameter
0:51:25 Initialisierung ohne Etiketierte Daten
0:53:33 Viterbi Training
0:57:59 Label Training
1:00:00 Komponenten eines HMM Erkenners
1:01:41 Parameterkopplung
1:03:13 Semikontinuierliches HMM
1:10:21 Parameterkopplung
11 |
0:00:00 Starten
0:00:05 EM Algorithm
0:00:19 Literatur
0:01:55 Baum-Welch Regeln
0:03:38 Maximum-Likelihood Methode
0:42:31 Expectation Maximization EM)
0:45:17 EM
0:49:09 EM – Expectation Schritt
0:54:05 EM für Mixtur-Gewichte
1:00:55 EM für Mixturgewichte
1:05:43 EM für Gaußmixturen
1:17:48 EM für HMMs
1:20:37 EM für HMMs Anfangsw´keiten
1:22:50 EM für HMMs Übergangsw´keiten
1:24:30 EM Algorithmus diskrete Emissionsw´keiten
10 |
0:00:00 Starten
0:00:20 Stochastik in der Spracherkennung
0:05:24 Die Fundamentalformel
0:10:01 Stochastische ASR Akustisches Modell
0:11:49 Stochastischer Prozess
0:19:33 Makrow-Kette
0:20:42 Makrow-Kette n-ter Ordnung
0:23:22 Makrow-Ketten 1. Ordnung
0:27:37 Beispiele
0:32:10 Hidden Markov Models
0:40:48 Urne Ball Modell
0:42:27 HMM Definition
0:45:25 HMM Beobachtungsgenerierung
0:46:56 Die HMM Trellis
0:48:38 Die Drei Probleme des HMMs
0:52:21 Forward Algorithmus
0:57:17 Backward Algorithmus
1:04:29 Das Decoding Problem
1:07:30 Viterbi-Algorithmus
1:09:37 Das Lern-Problem
1:17:54 Baum-Welch Regeln
05 |
0:00:00 Starten
0:00:33 Grundlagen der Signalverarbeitung
0:00:50 Wozu Signal(vor)verarbeitung?
0:02:33 Systeme
0:06:21 Zeitinvariante System
0:09:58 Dirac Distribution
0:18:18 Faltung
0:20:35 Impulsantwort
0:26:59 Quelle Filter Modell der Sprache
0:30:42 Parametereigenschaften einer trigonometrischen Funktion
0:32:31 Darstellungen der Fourierreihe
0:38:34 Fouriertransformation
0:45:20 Komplexes Spektrum
0:52:36 Projektion der komplexen Exponentialfunktion auf die reelle trigonometrische Funktion
0:52:57 Zeitdiskrete Fouriertransformation
0:55:51 Diskrete Fouriertransformation
02 |
0:00:00 Starten
0:00:09 Einführung und Anwendungen
0:01:08 Ist Spracherkennung Schwierig?
0:02:00 Warum ist ASR schwierg?
0:02:51 Variabilität auf Signalebene
0:09:44 Variabilität auf phonetischer Ebene
0:12:57 Mehrdeutigkeit auf linguistischer Ebene
0:16:32 Segmentierung
0:18:24 Sprache aus Sicht der Maschine
0:19:15 Spracherkennung als Klassifikation
0:20:20 Große Datenmengen, viele Klassen
0:23:29 Menschen können ASR
0:26:09 Ein Experiment
0:34:09 McGurk Effekt
0:38:10 Die Vogelperspektive
0:41:36 Gebiete, die relevant sind
0:46:03 Sprachproduktion
0:47:16 Artikulationsapparat
0:49:12 Vokaltrakt
0:50:46 Stimmhafte Sprache
0:54:51 Grundfrequenz/-ton
0:58:35 Animation des Vokaltrakts / Stroboskopaufnahme
1:01:27 Sprachlaute – Vokale und Konsonanten
1:05:36 Vokale
1:09:11 Diphthonge
1:10:37 Konsonanten
1:14:37 Konsonantenbeispiel
1:15:37 Ort der Artikulation
1:16:50 Art der Artikulation
1:21:30 Internationales Phonetisches Alphabet
1:22:43 IPA Vokale
1:23:43 IPA Konsonanten
1:25:00 Nasale
1:26:13 Phonem
04 |
0:00:00 Starten
0:00:04 Inhalt: Mikrofone, Wortfehlerrate
0:00:40 Mikrofone
0:01:25 Wandlerprinzipien
0:02:21 Richtcharakterristik
0:05:56 Akustische Bauformen
0:20:12 Pop- und Windschutz
0:23:44 Geschichte der ASR
0:39:56 Euphonia – Speech Organ (1846)
0:41:03 Radio Rex (1922)
0:43:11 Vocoder (1939)
0:43:59 HARPY (1976)
0:48:19 Wortfehlerrate
0:50:19 Minimale Editierdistanz
0:51:08 Ein Beispiel
0:52:02 Eigenschaften der WER
0:57:44 Probleme mit der WER
1:02:55 WER in den DARPA Evaluationen
1:17:46 Grundlagen der Signalverarbeitung
1:19:39 Wozu Signal(vor)verarbeitung?
01 |
0:00:00 Starten
0:00:55 Was ist Automatische Spracherkennung?
0:05:14 Sprache vs. Sprache
0:11:29 Anwendung von ASR
0:32:10 Vorteile von ASR
0:40:11 Aktuelles Beispiel
0:42:51 Nachteile von ASR
0:49:51 Taxonomie von Sprache
1:05:32 Ist Spracherkennung schwierig?
1:08:01 Warum ist ASR schwierig?
Grundlagen der Automatischen Spracherkennung, WS16/17, Vorlesung
Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.
Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.
Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.