SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand...

17
SPEZIELLE MUSTERANALYSESYSTEME Schrift- und Spracherkennung mit Hidden-Markov-Modellen Vorlesung im Wintersemester 2017 Prof. E.G. Schukat-Talamazzini Stand: 15. Dezember 2017 Motivation DTW HMM/Definition FA/BA MAP/Viterbi N(x | μ, S) Baum-Welch Robustheit Σ Teil V Hidden Markov Modelle Motivation DTW HMM/Definition FA/BA MAP/Viterbi N(x | μ, S) Baum-Welch Robustheit Σ Motivation Dynamic Time Warping Hidden Markov Modell Produktionswahrscheinlichkeiten Aufdeckung der verborgenen Zustandsfolge Gaußsche Mischverteilungen Lernen der HMM-Parameter Robuste Schätzverfahren Beispielaufbau Motivation DTW HMM/Definition FA/BA MAP/Viterbi N(x | μ, S) Baum-Welch Robustheit Σ Erkennung isoliert gesprochener Wörter GEGEBEN: Erkennungswortschatz: V = {W 1 ,..., W L } Merkmalstrom X = x 1 ,..., x T des Eingabeschalls GESUCHT: das mutmaßlich gesprochene Wort W ∈V ZIELVORGABE: Minimierung der Wortfehlerrate Echtzeitverarbeitung

Transcript of SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand...

Page 1: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

SPEZIELLE MUSTERANALYSESYSTEMESchrift- und Spracherkennung mit

Hidden-Markov-Modellen

Vorlesung im Wintersemester 2017

Prof. E.G. Schukat-Talamazzini

Stand: 15. Dezember 2017

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Teil V

Hidden Markov Modelle

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time Warping

Hidden Markov Modell

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen Zustandsfolge

Gaußsche Mischverteilungen

Lernen der HMM-Parameter

Robuste Schätzverfahren

Beispielaufbau

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Erkennung isoliert gesprochener Wörter

GEGEBEN:• Erkennungswortschatz: V = W1, . . . ,WL• Merkmalstrom X = x1, . . . , xT des Eingabeschalls

GESUCHT:• das mutmaßlich gesprochene Wort W` ∈ V

ZIELVORGABE:• Minimierung der Wortfehlerrate• Echtzeitverarbeitung

Page 2: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time WarpingEinzelworterkenner · Minimum-Abstand-Klassifikation ·DTW-Algorithmus

Hidden Markov Modell

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen Zustandsfolge

Gaußsche Mischverteilungen

Lernen der HMM-Parameter

Robuste Schätzverfahren

Beispielaufbau

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Einzelworterkennung durch Referenzmustervergleich

Minimum-Abstand-Klassifikation:

`∗(X ) = argmin`=1..L

D(X ,Y `)

Multireferenz-Worterkenner:

`∗(X ) = argmin`=1..L

minm=1..M`

D(X ,Y `,m)

MIN

IMU

M

X

Referenzmuster

Abstands-

Y 1, . . . ,Y L

D(X ,Y l)

MerkmaleWl∗

Vektorquant.

berechnung

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Skalenausrichtung zwischen Sequenzdaten

Referenzmuster

Te

stm

uste

r

Referenzmuster

Te

stm

uste

r

Referenzmuster

Te

stm

uste

r

Referenzmuster

Te

stm

uste

r

links rechts mittig linear

Akkumulation lokaler Distanzenentlang einem Gitterpfad (Skalenverzerrungsfunktion):

Dφ(X ,Y ) =

Tφ∑τ=1

d(xφ1(τ), yφ2(τ)) , φ : [1,Tφ] → [1,TX ]× [1,TY ]

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Mustervergleich zwischen SequenzdatenTestmuster

Refe

renz

mus

ter

Skalenverzerrung φ

• Start in (1, 1)

• Stop in (TX ,TY )

• von links nach rechts

• von oben nach unten

• keine Sprünge

Dynamic Time WarpingKumulative Distanz bezüglich optimaler Zeitverzerrungsfunktion

D(X ,Y )def= min

φ∈ΦDφ(X ,Y )

Kombinatorische Suche — Aufwand O(3T )

Page 3: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Levenshtein-AbstandMustervergleich zwischen Zeichenketten

Elementaroperationen auf Zeichenketten• Ersetzung eines Zeichens durch ein anderes substitution

• Löschung eines Zeichens deletion

• Einfügung eines Zeichens insertion

T I G E R

T

R

I

E

BTRIEB

TRIER

TRIGER

Substitution

Insertion

Deletion

TIGER T I G E R

T R I E B

DefinitionIst A ein endliches Alphabet und sind v , w zwei Zeichenfolgen aus A?,so bezeichnet der Levenshtein-Abstand d lev(v ,w) die minimale Anzahlvon Elementaroperationen, mit denen v in w überführt werden kann.

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Dynamic Time Warping AbstandRekursives Berechnungsschema (Itakura 1975 und Sakoe 1978)

x1

x2

x3

y1 y2 y3 y4

x1

x2

x3

y1 y2 y3 y4

x1

x2

x3

x1

x2

x3

y1 y2 y3 y4 y1 y2 y3 y4

1 4 5 8

4 3 2 7

7 4 9 0

lokale Distanzen

1 5 10 18

5 4 6 13

12 8 13 6

kumulative Distanzen

lokale TransitionenRückwärtszeiger

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Lokale vs. kumulative Abstände & optimale Ausrichtung

lokale Distanzen:

dst = ‖x s − y t‖

kumulative Distanzen:

dst = D(X s1,Y

t1)

Beispielwort: „Edmund Stoiber“ (2×) / ’tmVnt’Mt=]b/

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Zulässige SkalenverzerrungsfunktionenVerbot unerwünschter Ausrichtungen — Einsparung von Zeit und Speicher

verboten!

verboten!

Referenzmuster

Testm

uste

r

ε

beschränkte Diagonalabweichung

Referenzmuster

Testm

uste

r

verboten!

verboten!

beschränktes Gitterpfadgefälle

Globale EinschränkungenWelche Gitterpunkte werden für denφ-Verlauf gesperrt?

Lokale EinschränkungenWelche Nachbarkonfigurationen einesPfadknotens φ(τ) sind erlaubt?

asymmetrischsymmetrisch

(0,1)

(1,1)

(1,0)

(1,2), (0,1)

(1,1)

(2,1), (1,0)

(0,1)

(1,1)

(2,1)

(1,2), (0,1)

(1,1)

(1,0)

Page 4: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Gewichtete Skalenverzerrungsfunktionen

1

11 2

1

12

2

2

1

1

1

1

1 1

1

22

ProblemDiagonalferneAusrichtungen φbesitzen größereLauflänge Tφ;ihreDistanzsummenimmt tendenziellhöhere Werte an.

LösungMinimiere Distanzmittel statt Distanzsumme

Optimalitätsprinzip ( DP)nicht gültig für Mittelwertbildung !

Lokal gewichtete kumulative DistanzDie Gewichtsumme aller Pfade ist konstant:

Dφ(X ,Y ) =

Tφ∑τ=1

wφ(τ),φ(τ−1) ·d(xφ1(τ), yφ2(τ))

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time Warping

Hidden Markov ModellEinzelworterkenner · Definition eines HMM · Topologien für dieASE

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen Zustandsfolge

Gaußsche Mischverteilungen

Lernen der HMM-Parameter

Robuste Schätzverfahren

Beispielaufbau

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Einzelworterkennung mit Wort-HMMs

Erkennung mit der Bayesregel:

`∗ = argmax`=1..L

P(W`|X ) = argmax`=1..L

P(W`) · P(X |λ`)P(X )

MA

XIM

UM

· · ·

schätzung

Parameter- Markovmodelle

Dichtewert-berechnung

λ1, . . . ,λL

P(X | λl)

Merkmale

Vektorquant.Wl∗

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Das HMM als Wortaussprachemodell

[=] 0.1

[a] 0.9[m] 0.3[n] 0.7[][b][h]

0.2

0.6 0.9 0.5 0.7 0.8

/h/ /b/ // /n//a/

· Modellzustände = Artikulationsgesten· Zustandswiederholung = längere Lautdauer· Zustand überspringen = Lautereignis elidieren· zufallsgesteuerte Ausgabe = Ausspracheverschleifung

Page 5: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Was ist eigentlich verborgen im Hidden Markov Modell ?

• ... die Folge q1, q2, . . . , qt , qt+1, . . .(die inneren „Systemzustände“)

Und was ist beobachtbar im Hidden Markov Modell ?• ... die Folge o1, o2, . . . , ot , ot+1, . . .

(die „Ausgabezeichen“ des Zufallsprozesses)

t=2 t=3t=1 t=...

Zus

tand

1Z

usta

nd 2

1 122 1

verborgen beobachtbar

FaktJeder Zustand kann grundsätzlich jedes Zeichen erzeugen !

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Markovkette = einfache stationäre Markovquelle

TRANSITIONENZUSTÄNDE

s1 s2

s3 s4

a12

a21

a11 a22

• Endliches Zustandsalphabet S = s1, . . . , sN• Diskreter stochastischer Prozess q1, q2, . . . , qt , . . . qt ∈ S• Erste Markoveigenschaft P(qt | q1, . . . , qt−1) = P(qt |qt−1)

• Stationäre Übergangswahrscheinlichkeiten aijdef= P(qt = sj | qt−1 = si )

• Anfangswahrscheinlichkeiten πidef= P(q1 = si )

Parameter (π,A) ∈ IRN × IRN×N

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Verbindungsstruktur einer Markovkette

Links−Rechts−Modell

Bakis−Modell

Lineares Modell

A

A

A

a44a33a22a11

a44a33a22a11

a44a33a22a11

a34a23a12 4321a24a13

a14

a24a13

a34a23a12 4321

a34a23a12 4321

aij 6= 0 ⇒ i ≤ j

aij 6= 0⇒ j− i ∈ 0, 1, 2

aij 6= 0 ⇒ j − i ∈ 0, 1

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Ausgabeverteilungen eines HMM

Modellierung

kontinuierliche

Modellierung

diskrete

Links−Rechts

HMM s1 s2 s3 s4

p(x)

xxx x

p(x) p(x) p(x)

p(zk) p(zk) p(zk)

k k k k

p(zk)

Page 6: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Diskrete Ausgabeverteilungen• Endliches Zeichenalphabet

K = v1, . . . , vK

• Folge beobachteter Ausgabezeichen

o1, o2, . . . , ot , . . . ot ∈ K

• Zweite Markoveigenschaft

P(ot | q1, . . . , qt , o1, . . . , ot−1) = P(ot |qt)

• Stationäre Ausgabewahrscheinlichkeiten

bjkdef= P(ot = vk | qt = sj)

Parameter (π,A,B) ∈ IRN × IRN×N × IRN×K

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Stetige (kontinuierliche) Ausgabeverteilungen

• Folge beobachteter Ausgabevektoren

x1, x2, . . . , x t , . . . x t ∈ IRD

• Zweite Markoveigenschaft

P(x t | q1, . . . , qt , x1, . . . , x t−1) = P(x t |qt)

• Stationäre Ausgabewahrscheinlichkeiten

bj(y)def= P(Xt = y | qt = sj)

Parameter (π,A, [bj ]) ∈ IRN × IRN×N × (IRD → IR)N

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Stochastische NormierungsbedingungenAnfangswahrscheinlichkeiten

N∑i=1

πi = 1

ÜbergangswahrscheinlichkeitenN∑

j=1

aij = 1 , i = 1, . . . ,N

Diskrete AusgabewahrscheinlichkeitenN∑

k=1

bjk = 1 , j = 1, . . . ,N

Kontinuierliche Ausgabedichtefunktionen∫IRD

bj (x)dx = 1 , j = 1, . . . ,N

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Drei offene Fragen zum Thema HMM

? Berechnung der Datenerzeugungswahrscheinlichkeit

P(o|λ) =∑q

P(q, o | λ)

? Aufdeckung der wahrscheinlichsten Zustandsfolge

P(q, o | λ) !→ MAX

? Schätzung der bestpassenden Modellparameter

P(o|λ) = maxλ

P(o|λ)

Page 7: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time Warping

Hidden Markov Modell

ProduktionswahrscheinlichkeitenVorwärtsalgorithmus · Rückwärtsalgorithmus

Aufdeckung der verborgenen Zustandsfolge

Gaußsche Mischverteilungen

Lernen der HMM-Parameter

Robuste Schätzverfahren

Beispielaufbau

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Berechnung der Erzeugungswahrscheinlichkeiten• Modellbedingte Verteilung der Zustandsfolgen

P(q|λ) = P(q1, . . . , qT | λ) = πq1 ·T∏

t=2

aqt−1,qt

• Zustandsbedingte Verteilung der Ausgabezeichenfolgen

P(o | q,λ) = P(o1, . . . , oT | q1, . . . , qT ,λ) =T∏

t=1

bqt (ot)

• Gemeinsame Wahrscheinlichkeitsverteilung

P(o,q | λ) = P(q|λ)·P(o | q,λ) = πq1bq1(o1)·T∏

t=2

aqt−1,qtbqt (ot)

• Randverteilung für die Ausgabezeichenfolge

P(o|λ) =∑

q∈ST

P(o,q | λ) =∑

q∈ST

πq1bq1(o1) ·T∏

t=2

aqt−1,qtbqt (ot)

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Berechnung der Vorwärtswahrscheinlichkeiten

αt(j)def= P(o1, . . . , ot , qt = j | λ) , t = 1..T , j = 1..N

〈Algorithmus〉

1 INITIALISIERUNGFür alle j = 1, . . . ,N setze

α1(j) = πj · bj(o1)

2 REKURSIONFür t > 1 und alle j = 1, . . . ,N setze

αt(j) =

(N∑

i=1

αt−1(i) · aij

)· bj(ot)

3 TERMINIERUNGBerechne die Summe

P(o|λ) =N∑

j=1

αT (j)〈Algorithmus〉

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Rechenschema für den Vorwärtsalgorithmus

O1 OT

s1

s2

s3

s4

s5

Ot−1 Ot

spaltenweise zeilenweise

BemerkungRechenaufwand O(N2 · T ) statt O(NT · T )Speicheraufwand O(NT ) bzw. O(N)Rechenaufwand für Bakismodelle O(NT )Speicheraufwand für Links-Rechts-Modelle O(min(N,T ))

Page 8: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Berechnung der Rückwärtswahrscheinlichkeiten

βt(i)def= P(ot+1, . . . , oT | qt = i ,λ) , t = 1..T , i = 1..N

〈Algorithmus〉

1 INITIALISIERUNGFür alle i = 1, . . . ,N setze

βT (i) = 1

2 REKURSIONFür t < T und alle i = 1, . . . ,N setze

βt(i) =N∑

j=1

aij · bj(ot+1) · βt+1(j)

3 TERMINIERUNGBerechne die Summe

P(o|λ) =N∑

i=1

πi · bi (o1) · β1(i)〈Algorithmus〉

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Beweis.(zum Vorwärtsalgorithmus)

• Initialisierung — Anwenden der Definition

α1(j) = P(o1, q1 = j | λ) = P(q1 = j |λ)·P(o1 | q1 = j ,λ) = πj ·bj (o1)

• Rekursion — Kettenregel und totale Wahrscheinlichkeit

αt(j) = P(o1 . . . ot , qt = j | λ)= P(o1 . . . ot−1, qt = j | λ) · P(ot | o1 . . . ot−1, qt = j ,λ)

=

(N∑

i=1

P(o1 . . . ot−1, qt = j , qt−1 = i | λ)

)· bj (ot)

Jeder Summand läßt sich nach der Kettenregel als Produkt schreiben:

P(o1 . . . ot−1, qt−1 = i | λ)︸ ︷︷ ︸αt−1(i)

·P(qt = j | o1 . . . ot−1, qt−1 = i ,λ)︸ ︷︷ ︸aij

• Terminierung — Formel für die totale Wahrscheinlichkeit

P(o1 . . . oT | λ) =N∑

j=1

P(o1 . . . oT , qT = j | λ)︸ ︷︷ ︸αT (j)

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Beweis.(zum Rückwärtsalgorithmus)

• Initialisierung — Anwenden der Definition

βT (i) = P(leere Folge | qT = i ,λ) = 1

• Rekursion — Formel für die totale Wahrscheinlichkeit

βt(i) = P(ot+1 . . . oT | qt = i ,λ) =N∑

j=1

P(ot+1 . . . oT , qt+1 = j | qt = i ,λ)

Jeder Summand läßt sich nach der Kettenregel in ein Produkt aus denfolgenden drei Wahrscheinlichkeiten zerlegen:P(qt+1 = j | qt = i ,λ) = aij

P(ot+1 | qt+1 = j , qt = i ,λ) = bj (ot+1)P(ot+2 . . . oT | ot+1, qt+1 = j , qt = i ,λ) = βt+1(j)

• Terminierung — totale Wahrscheinlichkeit, dann Kettenregel

P(o1 . . . oT | λ) =N∑

j=1

P(o1 . . . oT , q1 = j | λ)

=N∑

j=1

P(o1, q1 = j | λ)︸ ︷︷ ︸πj ·bj (o1)

·P(o2 . . . oT | o1, q1 = j ,λ)︸ ︷︷ ︸β1(j)

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time Warping

Hidden Markov Modell

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen ZustandsfolgeMaximum a posteriori Zustände · Viterbi-Algorithmus ·Viterbi-Training

Gaußsche Mischverteilungen

Lernen der HMM-Parameter

Robuste Schätzverfahren

Beispielaufbau

Page 9: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Die verborgene Zustandsfolge

GEGEBEN:ein HMM mit dem Parametern λ = (π,A,B)

eine Beobachtungssequenz o der Dauer T ∈ IN

GESUCHT:(die Folge der) a posteriori wahrscheinlichsten Zustände

q∗t ∈ S , t = 1, 2, . . . ,T

die a posteriori wahrscheinlichste Zustandsfolge

q∗ ∈ ST

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Maximum a posteriori Klassifikation von Zuständen• Maximiere die globale a posteriori Zustandswahrscheinlichkeit

P(qt = j | o,λ)︸ ︷︷ ︸γt(j)

=P(o, qt = j | λ)

P(o|λ)=

αt(j) · βt(j)N∑

i=1

αt(i) · βt(i)

• Maximiere die kausale a posteriori Zustandswahrscheinlichkeit

P(qt = j | o1 . . . ot ,λ) =P(o1 . . . ot , qt = j | λ)

P(o1 . . . ot | λ)=

αt(j)N∑

i=1

αt(i)

GLOBALPROSPEKTIV

KAUSAL

o1 oTot+τoto2

qt =?

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Datenerzeugung & Optimale Zustandsfolge(n)• Ausgabebezogene a posteriori Zustandsfolgewahrscheinlichkeit

P(q | o,λ) =P(o,q | λ)

P(o|λ)

• Für optimale Zustandsfolgen q∗ gilt die Identität

P(o,q∗ | λ) = maxq∈ST

P(o,q | λ)︸ ︷︷ ︸P∗(o|λ)

• Der Viterbi-Algorithmus berechnet die Wahrscheinlichkeiten

ϑt(j)def= max

q∈St

qt=j

P(o1 . . . ot , q1 . . . qt | λ) , t = 1..T , j = 1..N

BemerkungFür die Viterbi-Bewertung P∗(o|λ) einer Datensequenz gilt die Ungleichung

P∗(o|λ) ≤ P(o|λ)

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Der Viterbi-Algorithmus〈Algorithmus〉

1 INITIALISIERUNGFür alle j = 1, . . . ,N setze

ϑ1(j) = πj · bj (o1), ψ1(j) = 0

2 REKURSIONFür t > 1 und alle j = 1, . . . ,N setze

ϑt(j) = maxi=1..N

(ϑt−1(i) · aij )·bj (ot), ψt(j) = argmaxi=1..N

(ϑt−1(i) · aij )

3 TERMINIERUNGBerechne das Maximum

P∗(o|λ) = maxj=1..N

ϑT (j), q∗T = argmaxj=1..N

ϑT (j)

4 RÜCKVERFOLGUNGRekonstruiere eine optimale Folge q∗t = ψt+1(q∗t+1), t < T

〈Algorithmus〉

Page 10: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Viterbi-Ausrichtung & Entscheidungsüberwachtes LernenSind die Viterbi-Ausrichtungen der Sequenzen einer Probe bekannt, so lassensich verbesserte HMM-Parameter als relative aus absoluten Häufigkeitengewinnen („Viterbi-Training“):

aij ∝ #(i → j) def= t | qt−1 = si , qt = sj

bjk ∝ #(j ↓ k) def= t | qt = sj , ot = vk

s

o

s

s

s

s

o o o o o o o o o o o o o

q q q q q q q q q q q q q q

1 2 3 4 5 6 7 8 9 11 12 13 1410

1 2 3 4 5 6 7

1

3

8 9 10 11 12 13 14

2

4

5

Viterbi−Ausrichtung

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time Warping

Hidden Markov Modell

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen Zustandsfolge

Gaußsche MischverteilungenMultivariate NormalverteilungsdichtenIdentifikation von Mischverteilungsdichten

Lernen der HMM-Parameter

Robuste Schätzverfahren

Beispielaufbau

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Univariate Normalverteilungsdichten

N (x | µ, σ2) def=

1σ√2π· exp

−12· (x − µ)

2

σ2

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

-4 -2 0 2 4 6 8 10 12

gauss(x,3,1)gauss(x,3,2)gauss(x,3,3)

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Bivariat unkorrelierte Normalverteilungsdichten

N (x | µ,σ) def=

12πσ1σ2

· exp−12·((x1 − µ1)2

σ21+

(x2 − µ2)2

σ22

)

gauss(x,y,3,2,4)

-4 -2 0 2 4 6 8 10 12-4

-2 0

2 4

6 8

10 12

0 0.002 0.004 0.006 0.008 0.01

0.012 0.014 0.016 0.018 0.02

Page 11: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Multivariate Normalverteilungsdichten

DefinitionEin Zufallsvektor X = (X1, . . . ,XD)

> heißt multivariatnormalverteilt, falls er der D-dimensionalenVerteilungsdichtefunktion

N (x | µ,S) def=

1√det(2πS)

· exp−12· (x − µ)>S−1(x − µ)

gehorcht. Es ist µ ∈ IRD der Erwartungswertvektor der Verteilung;die positiv-definite, symmetrische Matrix S ∈ IRD×D heißtKovarianzmatrix der Normalverteilung.

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Parameterreduzierte Normalverteilungsdichten

µ

Normalverteilung

µ

Unabhängige Merkmale Euklidischer Abstand

µ

Symmetrischpositiv-definit

Diagonalmatrix Einheitsmatrix

σ11 σ12 . . . σ1Dσ21 σ22 . . . σ2D...

. . ....

σD1 σD2 . . . σDD

σ2

1 0 . . . 00 σ2

2 . . . 0...

. . ....

0 0 . . . σ2D

1 0 . . . 00 1 . . . 0...

. . ....

0 0 . . . 1

allgemeinesHyperellipsoid

Trägheitsachsenparallel zuKoordinatenachsen

normierteHypersphäre

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Mischverteilungsdichtefunktionen

DefinitionEin Zufallsvektor X = (X1, . . . ,XD)

> heißt (multivariat normal)mischverteilt mit der Ordnung K , falls er einerVerteilungsdichtefunktion

f (x) =K∑

k=1

ck · fk(x) =K∑

k=1

ck · N (x | µk ,Sk)

mit ck ≥ 0 und∑

ck = 1 gehorcht. Die Koeffizienten ck heißenMischungsgewichte, die Dichtefunktionen fk(·) heißenMischungskomponenten von f (·).

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Mischung von univariaten Normalverteilungsdichten

0

0.05

0.1

0.15

0.2

0.25

-4 -2 0 2 4 6 8 10 12

0.01 + 0.3*N(x,8,1)+0.5*N(x,5,1)+0.2*N(x,0,1)0.3*N(x,8,1)0.5*N(x,5,1)0.2*N(x,0,1)

Page 12: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Identifikation von Mischverteilungen

ProblemAngenommen, obige Daten sind gemäß

∑Kk=1 ck fk(x) mischverteilt. Wie

lauten die bestpassenden Parameter (Maximum-Likelihood) ?

K ∈ IN, (c1,µ1,S1), (c2,µ2,S2), . . . , (cK ,µK ,SK )

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

EM-Algorithmus zur Identifikation gaußscher Mischungen〈Algorithmus〉

1 INITIALISIERUNGWähle eine geeignete Mischungsordnung K ∈ INWähle Startparameter (c (0)

k ,µ(0)k ,S (0)

k ), k = 1..K ; setze i = 12 ERWARTUNGSWERT-SCHRITT

Bestimme die T · K a posteriori Auswahlwahrscheinlichkeiten

γ(i)t (k)

def= P(i−1)(Ωk | xt) =

c(i−1)k · N (xt | µ(i−1)

k ,S(i−1)k )∑

l c(i−1)l · N (xt | µ(i−1)

l ,S(i−1)l )

3 MAXIMIERUNGS-SCHRITTBerechne neue Parameter mit maximaler Kullback-Leibler-Statistik

c(i)k =

∑γ

(i)t (k) / T

µ(i)k =

∑γ

(i)t (k) · xt

/ ∑γ

(i)t (k)

S(i)k =

∑γ

(i)t (k) · xtx>t

/ ∑γ

(i)t (k) −

(i)k

)(µ

(i)k

)>4 TERMINIERUNG

Weiter mit i←i + 1 oder gehe ENDE〈Algorithmus〉

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time Warping

Hidden Markov Modell

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen Zustandsfolge

Gaußsche Mischverteilungen

Lernen der HMM-ParameterBaum-Welch-Algorithmus · DDHMM, CDHMM, GMHMM,SCHMM

Robuste Schätzverfahren

Beispielaufbau

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

EM-Prinzip & Baum-Welch-Trainingsalgorithmus

DefinitionFür ein HMM mit Parametern λ (bzw. λ) und eine Lernsequenz o ∈ KT

bezeichne`ML(λ)

def= logP(o|λ) = log

∑q∈ST

P(o, q | λ)

die logarithmierte Likelihood-Zielgröße und

Q(λ, λ)def= E[logP(o, q | λ) | o,λ]

die Kullback-Leibler-Statistik.

Satz (Expectation-Maximization-Prinzip)Für alle HMM-Parameterfelder λ, λ gilt

Q(λ, λ) ≥ Q(λ,λ) `ML(λ) ≥ `ML(λ)

mit Gleichheit nur an stationären Stellen λ von `ML(·).

Page 13: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Architekturen von HMM-Spracherkennungssystemen

Merkmal− Vektor−

quantisierung HMM’s

Semikontinuierl.

Merkmal−

berechnung HMM’s

Kontinuierliche

Merkmal−

berechnung

Vektor−

quantisierung

Diskrete

HMM’s

berechnung

diskret · normalverteilt · mischverteilt · semikontinuierlich

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

HMMs mit diskreten Ausgabeverteilungen

verteilungenAusgabe−diskrete

Zustände

Ausgabealphabet

a11 a22 a33 a44

1 2 3 4a23 a34

b1 b2 b3 b4

v1 v2 v3 vK· · ·

a12

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Baum-Welch-Algorithmus für diskrete Ausgabeverteilungen〈Algorithmus〉

1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN2 EXPECTATION

A posteriori Übergangswahrscheinlichkeiten für si → sj in t

ξt(i , j)def= P(qt = i , qt+1 = j | o,λ) =

αt(i) · aij · bj(ot+1) · βt+1(j)∑Ni=1 αt(i) · βt(i)

A posteriori Zustandswahrscheinlichkeiten für si in t

γt(i)def= P(qt = i | o,λ) =

αt(i) · βt(j)∑Nj=1 αt(j) · βt(j)

3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter

πi = γ1(i) , aij =

∑T−1t=1 ξt(i , j)∑T−1t=1 γt(i)

, bjk =

∑Tt=1 Iot=vk · γt(j)∑T

t=1 γt(j)

〈Algorithmus〉

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

HMMs mit stetigen Ausgabeverteilungena11 a22 a33 a44

kontinuierliche

verteilungenAusgabe-

Zustände1 2 3 4a12 a23 a34

b1 b2 b3 b4

Multivariat normalverteilte Zustandsausgabe

bj(y) = N (y | µj ,S j)

Page 14: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Baum-Welch-Algorithmus für normalverteilte Ausgaben〈Algorithmus〉

1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN

2 EXPECTATIONA posteriori Zustandswahrscheinlichkeiten undÜbergangswahrscheinlichkeiten

γt(i) , ξt(i , j) , t = 1..T , i = 1..N, j = 1..N

3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter πi, aij und

µj =

T∑t=1

γt(j) · x t

T∑t=1

γt(j)

, S j =

T∑t=1

γt(j) · (x t − µj)(x t − µj)>

T∑t=1

γt(j)

〈Algorithmus〉

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

HMMs mit Mischverteilungen

gauss(x,y,3,2,4)

-4-2

0 2

4 6

8 10

12-4

-2 0

2 4

6 8

10 12

0 0.002 0.004 0.006 0.008 0.01

0.012 0.014 0.016 0.018 0.02

NV−Dichte MerkmalvektorHMM−Zustand

Multivariat normal mischverteilte Zustandsausgabe

bj(y) =

M(j)∑m=1

cjm · N (y | µjm,S jm)

BemerkungNM bzw

∑j M(j) Mischungskoeffizienten

NMD bzw NMD2/2 Normalverteilungsparameter

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Baum-Welch-Algorithmus für mischverteilte Ausgaben〈Algorithmus〉

1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN2 EXPECTATION

A posteriori Zustandswahrscheinlichkeiten γt(i),Übergangswahrscheinlichkeiten ξt(i , j) sowieSelektionswahrscheinlichkeiten

ζt(j ,m) = P(qt = j , kt = m | X ,λ) = γt(j) · cjmNjm(x t)

/ M(j)∑l=1

cjlNjl (x t)

3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter πi, aij und

cjm =T∑

t=1

ζt(j ,m)

/ M(j)∑m=1

T∑t=1

ζt(j ,m) =T∑

t=1

ζt(j ,m)

/ T∑t=1

γt(j)

µjm =T∑

t=1

ζt(j ,m) · xt

/ T∑t=1

ζt(j ,m)

S jm =T∑

t=1

ζt(j ,m) · xtx>t

/ T∑t=1

ζt(j ,m) − µjmµ>jm

〈Algorithmus〉

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Semikontinuierliche HMMs

CodebuchSCHMM−

komponentenMischungs−

g3k

g2k

g1k

s1 s2 s3 s3s2s1

gk

Multivariat normalverteilte gemeinsame Dichten (’tied mixtures’)

bj(y) =K∑

k=1

cjk · N (y | µk ,Sk)

BemerkungNK MischungskoeffizientenKD bzw KD2/2 Normalverteilungsparameter

Page 15: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Baum-Welch-Algorithmus für semikontinuierliche Ausgaben〈Algorithmus〉

1 INITIALISIEREN, WEITERSCHALTEN, ABBRUCH TESTEN2 EXPECTATION

A posteriori Übergangswahrscheinlichkeiten γt(i),Zustandswahrscheinlichkeiten ξt(i , j) sowie Selektionswahrscheinlichkeiten

ζt(j , k) = P(qt = j , kt = k | X ,λ) = γt(j) · cjkNk(x t)

/K∑

l=1

cjkNk(x t)

3 MAXIMIZATIONNeuberechnung der Q(λ, λ)-optimalen Parameter πi, aij und

cjk =T∑

t=1

ζt(j , k)

/ T∑t=1

γt(j)

µk =N∑

j=1

T∑t=1

ζt(j , k) · xt

/ N∑j=1

T∑t=1

ζt(j , k)

Sk =N∑

j=1

T∑t=1

ζt(j , k) · xtx>t

/ N∑j=1

T∑t=1

ζt(j , k) − µk µ>k

〈Algorithmus〉

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time Warping

Hidden Markov Modell

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen Zustandsfolge

Gaußsche Mischverteilungen

Lernen der HMM-Parameter

Robuste SchätzverfahrenMehrfachheit · Verklebung · Interpolation · Dauer

BeispielaufbauMotivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Robuste Parameterschätzung ?

zu viele

Wortmodelle

HMM-Zuständefreie Parameter

zu wenige

Äußerungen

WortvorkommenLautereignisse

Problematik des Parameterlernens aus Daten:

• zu große Varianz der geschätzten Parameterwerte

• starke Zerklüftung der Zielfunktion `ML(λ)

• systematisches Verschwinden der Statistiken γt(i), ξt(i , j), ζt(j , k)

• nullwertige Parameter aij , bjk , Sk etc.

• Nullwertigkeit ist reproduzierend !

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Mehrfache Modelle — mehrfache Probemuster

0

0

o(1) o(2) o(M)

λ(1)

λ(2)

λ(M)

α(1)

P(1)α(2)

M−1∏m=1

P(m)α(M)

. . .

Modifizierte Schätzformel (exemplarisch):

aij =

L∑`=1

M∑m=1

T`,m−1∑t=1

ξ(`,m)t (i , j)

L∑`=1

M∑m=1

T`,m−1∑t=1

γ(`,m)t (i)

Page 16: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Parameterverklebung (Gleichschaltung, ’tying’)

Paarweise Identifikation von Verteilungsparametern• ... erzwingt fortdauernde Wertegleichheit• ... reduziert Anzahl der Freiheitsgrade des Modells• ... realisiert via gemeinsam genutzter (’pooled’) Statistiken

Schwein

Stein

/v/ /t/ /a/ /*/ /n//M/

/t/ /n//*//a//M/

/n//*//a//v//M/

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Strukturinterpolation

• Interpolation zweier HMMs

• Interpolation zweier Zustände

VerklebungModellpaare

Zustandspaare

/M//f/

/*/

/M/ /f/

rS

rR

P(o | λ`, r`) =`max∑`=1

r` · P(o|λ`) ,`max∑`=1

r` = 1

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Zustandsdauerverteilung im HMMHMMs sind lausig schlechte Dauermodelle !

di (τ)def= P(„noch genau (τ − 1)-mal in si bleiben“ | qt−τ = si ,λ)= aτ−1ii · (1− aii )

ReplikantenmodellZeitschrankenSemi-Markovmodell

ajj

ajj

ajj

dj(1)

dj(2)

dj(3)

dj(4) 1

1

11

• Semi-HMM — explizite Dauerverteilung innerhalb [1 : `]

• Min-Max-HMM — Dauergleichverteilung innerhalb [`0 : `]

• Replikanten-HMM — implizite Dauerverteilung innerhalb [` :∞)

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

ReplikantenmodelleFür die Dauerverteilung eines `-fachen Zustandes(Original zzgl. `− 1 Kopien)gilt die Faltungsdarstellung

di ,`(τ) =

(τ − 1`− 1

)· aτ−`ii · (1− aii )

`

00.020.040.060.080.10.120.14

5 10 15 20 25 30Verweildauer τ

` = 1` = 2` = 5

Page 17: SPEZIELLEMUSTERANALYSESYSTEME Schrift ... · PDF fileLevenshtein-Abstand MustervergleichzwischenZeichenketten ElementaroperationenaufZeichenketten

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

Motivation

Dynamic Time Warping

Hidden Markov Modell

Produktionswahrscheinlichkeiten

Aufdeckung der verborgenen Zustandsfolge

Gaußsche Mischverteilungen

Lernen der HMM-Parameter

Robuste Schätzverfahren

Beispielaufbau

Motivation DTW HMM/Definition FA/BA MAP/Viterbi N (x | µ, S) Baum-Welch Robustheit Σ

An Stelle einer Zusammenfassung

EXEMPLARISCHE BERECHNUNGSFOLGE ZUM HMM-TRAINING

Cepstrum · LDA · VQ · SCHMM

Klassen

VQ/HMM-

P(λl | Y )fn

gk(y t)y tx t

λl =(πl ,Al ,C l )

µ1,...,µKΣ1,...,ΣKΦ ∈ IRD×D′

matrixEigenvektor-

Merkmal-berechnung

LDA LBG Baum-Welch

Orthogonal-transformation

Codebuch

quantisierungVektor-

WortmodelleHMM

AlgorithmusViterbi-