Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Συνδυασμένη Οπτική-Ακουστική Ανάλυση

Ομιλίας

Γιώργος Παπανδρέου

Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος

Εθνικό Μετσόβιο Πολυτεχνείο – Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ.

http://cvsp.cs.ntua.gr

Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό

Ομάδα CVSP -- ΕΜΠ Μέλη

Καθ. Πέτρος Μαραγκός (επικεφαλής) 3 Μεταδιδακτορικοί Ερευνητές 7 Υποψ. Διδάκτορες + 2-5 Διπλ. Φοιτητές + συνεργασία με ελληνικές και ξένες ερευνητικές ομάδες

Περιοχές έρευνας Ανάλυση εικόνας και όραση υπολογιστών

Μη γραμμικά γεωμ. μοντέλα: μαθημ. μορφολογία, μερικές διαφ. εξισώσεις Ανάλυση και επεξεργασία εικόνων σε πολλαπλές κλίμακες Κατάτμηση, παρακολούθηση και αναγνώριση αντικειμένων

Επεξεργασία ήχου και φωνής Εύρωστη αναγνώριση φωνής Ανάλυση ακουστικών σημάτων με μοντέλα διαμόρφωσης/χαοτικά μοντέλα Μοντελοποίηση συστήματος παραγωγής φωνής (ακουστικά μοντέλα)

Πολυτροπική ανάλυση σημάτων Οπτική-ακουστική ανάλυση & αντιστροφή φωνής Ανάλυση/περίληψη βίντεο Αναγνώριση νοηματικής γλώσσας

Συμμετοχή σε Ευρωπαϊκά & Ελληνικά ερευνητικά προγράμματα Ιστοσελίδα: http://cvsp.cs.ntua.gr

Αναγνώριση Ομιλίας από Ήχο και Εικόνα

Θεμελιώδες φαινόμενο στην πρόσληψη ομιλίας (McGurk & MacDonald)

Βελτίωση της επίδοσης συστημάτων Αυτόματης Αναγνώρισης Ομιλίας (ΑΑΟ) υπό δύσκολες ακουστικές συνθήκες: Θόρυβος/Παρεμβολές

ΉχοςΕικόνα

Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού

Ανάκτηση γεωμετρίας φωνητικής οδού Μοντέλα σύνθεσης με μίμηση διαδικασίας παραγωγής

Αναγνώριση φωνής με χρήση αναπαραστάσεων άρθρωσης

Φωνητική επιστήμη/φωνολογία

Διδασκαλία ξένης γλώσσας, αντιμετώπιση προβλημάτων άρθρωσης

Ακουστική

Εικόνα

Γεωμετρία φωνητικής

οδού

Ομιλία: Πολύπλευρο φαινόμενο

οπτικ

ή προ

βολή

ακουστική προβολή

Από ακουστικές σε αρθρωτικές αναπαραστάσεις Ομιλία ως ακουστικό σήμα

Ακουστική αναπαράσταση

Ομιλία ως οπτικό-ακουστικό σήμα Αρθρωτική αναπαράσταση

Επιτυχία σε συστήματα αναγνώρισης ομιλίας (King et al., Deng)

Φωνολογικές θεωρίες: Αρθρωτικά Nεύματα (Articulatory Gestures, Browman & Goldstein)

Μια εντέλει αρκετά παλιά ιδέα... (Α.Μ. Bell, 1867)

Αναγνώριση Ομιλίας από Ακουστική και Οπτική Πληροφορία

G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, “Adaptive Multimodal Fusion by Uncertainty Compensation with Application

to Audio-Visual Speech Recognition”, IEEE Trans. ASLP, 2009


Κύρια σημεία:

Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή

Σύμμειξη οπτικής και ακουστικής πληροφορίας

Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού


Εξαγωγή Οπτικής Πληροφορίας

Τόσο το σχήμα όσο και η υφή του προσώπου επιβοηθούν το

διάβασμα των χειλιών

Μοντελοποίηση προσώπου με Ενεργά Μοντέλα Όψης (ΕΜΟ)

Σχήμα και υφή αναλύονται σε χαμηλοδιάστατους υποχώρους

Οπτικά χαρακτηριστικά: Παράμετροι του ΕΜΟ

Εκτιμάται και η αβεβαιότητα ως προς τις τιμές των χαρακτηριστικών

μέσο διάνυσμα

1ο ιδιο-διάνυσμα

2ο ιδιο-διάνυσμα

υφή

σχή

μα

Εξαγωγή Οπτικής Πληροφορίας

Μηχανισμός για μείωση της επίδρασης της ταυτότητας του

ομιλητή: δυνατότητα αναγνώρισης πολλαπλών ομιλητών

Επικέντρωση του παραθύρου ανάλυσης γύρω από το στόμα

Ταχείς αλγόριθμοι για ανάλυση σε πραγματικό χρόνο

Σύστημα πραγματικού χρόνου για οπτική-

ακουστική αναγν. ομιλίας

Image Acquisition

Firewire color camera, 640x480

@25 fps

Face detectorAdaboost-based, @5 fps

HMM-based backend

Face tracking & feature extraction

Real-time AAM fitting algorithms

(Re)initialization

System Overview

GPU-accelerated processing

OpenGL implementation Transcription

Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική;

Πολλαπλές αισθητήριες πηγές παρέχουν συμπληρωματική πληροφορία

Ετερόκλητες πηγές πληροφορίας επηρεάζονται διαφορετικά από θόρυβο

Σημαντικές εφαρμογές (π.χ. βιομετρικά συστήματα)

Η ανθρώπινη αντίληψη εκμεταλλεύεται ετερόκλητα αισθητήρια ερεθίσματα με μεγάλη επιτυχία

Σύμμειξη πληροφορίας σε αντιληπτικές διεργασίες Πολυαισθητηριακή περίπτωση

Ήχος, εικόνα, αφή, ...

Διαφορετικές όψεις εντός της ίδιας αίσθησηςΟπτική εκτίμηση βάθους: στέρεο, υφή, σκίαση

Μπεϋζιανό στατιστικό πλαίσιο (Knill & Richards)Ενδείξεις και από ψυχολογικά πειράματα (π.χ. Ernst et al.)

Διαφορετικά επίπεδα σύμμειξηςΠρώιμη/ενδιάμεση/όψιμη σύμμειξη

Maragos et al., “Cross-Modal Integration”, Springer 2008

Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας

Αρχή: “Μπορούμε να μετρήσουμε χαρακτηριστικά

αναγνώρισης με πεπερασμένη μόνο ακρίβεια”

Η αβεβαιότητα μέτρησης παίζει σημαντικό ρόλο στο

φιλτράρισμα: Φίλτρα Wiener και Kalman

Πώς η αβεβαιότητα μέτρησης χαρακτηριστικών

επιδρά στις μεθόδους ταξινόμησης;

Αβεβαιότητα Μέτρησης Χαρακτηριστικών Συνήθως τροφοδοτούμε τους ταξινομητές με περιγραφές

‘άπειρης’ ακρίβειας Η προσέγγισή μας: Συνοδεύουμε τα χαρακτηριστικά με

το σφάλμα στη μέτρησή τους:

SNR= 20dB SNR= 5dB

Πιθανοτική Μοντελοποίηση Αβεβαιότητας Μέτρησης

C

X

C

X

Y

Η Προσέγγισή μας: Μετράμε χαρακτηριστικά αλλοιωμένα από θόρυβο

Συμβατική Άποψη: Άμεσα παρατηρήσιμα χαρακτηριστικά

Και τα δύο

κρυφά!

πρότερη

Παράδειγμα: Ταξινoμητής με Μείγμα Γκαουσιανών (Gaussian

Mixture Model - GMM) S ανεξάρτητες ροές

ύστερη κατανομή καθαρών

κατανομή θορύβου

κρυφές φανερές

ανεξ. υπό συνθήκη:

,

1: , , , , , , , ,11

| ( ) ; ,s cMS

s s c m s s c m e s s c m e sms

p c y p c N y

GMM Ταξινόμηση με Γκαουσιανό Θόρυβο Μέτρησης

C

X

C

X

Y

χαρακτηριστικά αλλοιωμένα από θόρυβο

συμβατική άποψη

Μοντέλο θορύβου Γκάους: , ,| ; ,s s s s e s e sp y x N y x

1: , , ,1| ( ) ; ,

S

s s c s s c s cp c x p c N x

GMM Ταξινόμηση – Δύο Πηγές Πληροφορίας Μετατόπιση ορίου ταξινόμησης με αυξανόμενο θόρυβο μέτρησης

Δύο 1-Δ ροές (y1 και y2), 2 τάξεις

Σχέση με Σύμμειξη Στάθμισης Ροής

Πιθανότητα με Αντιστάθμιση Αβεβαιότητας:

Βάρη Ροής:1: 1

( | ) ( ) ( | )S

s sswb c y p c p y c

1: , , ,1| ( ) ; ,

S

s s s c s c e sp c y p c N y

11: , , ,1

| ( ) ; ,S

s s s c s c s cb c y p c N y w ,

,,

1 1 e ss c

s c

w

Ενεργό Βάρος Ροής:

PoG Ταυτότητα:

1; , ; ,w

N x N x w

EM-Εκπαίδευση με Αβέβαια Χαρακτηριστικά

( , ) [log ( ,{ } | ) | , ]Q ΄ p X C X ΄

C

X

C

X

Y

Η προσέγγισή μας

Συμβατική άποψη

Κρυφή

Φανερή

Κρυφή

Φανερή

Τα δεδομένα εκπαίδευσης μπορούν επίσης να είναι αβέβαια

( , ) [log ( ,{ , } | ) | , ]Q ΄ p Y X C Y ΄

Κρυφά Μοντέλα Markov (ΗΜΜ) & Αβεβαιότητα

Η Προσέγγισή μας

Συμβατική Άποψη

Κρυφές

Φανερές

Κρυφές

Φανερές

Χρήση αντισταθμισμένων πιθανοτήτων στους αλγορίθμους Viterbi (αποκωδικοποίηση) και α-β (εκπαίδευση)

Προσαρμογή στο χρόνο (επίπεδο frame)

C1

X1

C2

X2

C3

X3

C4

X4

C1

X1

Y1

C2

X2

Y2

C3

X3

Y3

C4

X4

Y4

Ακουστικά Χαρακτηριστικά και Αβεβαιότητα Mel Frequency Cepstral Coefficients (MFCCs):

Pre-emphasis STFT | . | Mel-scale log( . ) DCT

Καταπίεση θορύβου (e.g. SPLICE, ALGONQUIN)

Μοντελοποίηση αλλοίωσης χαρακτηριστικών MFCC από θόρυβο (VTS)

Εκτίμηση ακουστικών χαρακτηριστικών + αβεβαιότητας

X noisy = f (X ;N )

( , )noisy cleanX f X NMFCC καθαρής φωνής

MFCC θορύβου

Deng, Droppo, Acero, IEEE Tr. SAP, 2005

ˆcleanX X E Αβεβαιότητα

Μοντελοποίηση Συγχρονισμού Οπτικής-Ακουστικής Πληροφορίας

Εναλλακτική μοντελοποίηση της αλληλεπίδρασης καναλιών: Asynchronous-HMM, Coupled-HMM, Dynamic Bayesian Networks, …

Τεχνικές για συγχρονισμό στο επίπεδο του σήματος

ΗΜΜ με συγχρονισμό μόνο στα όρια της λέξης

C1

X1

C2

X2

C3

X3

Υ1 Υ2 Υ3

Product-ΗΜΜ ελεγχόμενη ελευθερία συγχρονισμού

Multistream-ΗΜΜ με απόλυτο συγχρονισμό

ανά κατάσταση

Ποσοτική αξιολόγηση στη βάση CUAVE

Αναγν. Ομιλίας από Ήχο και Εικόνα: ΠειράματαΧρήση της βάσης CUAVE:

36 αγγλόφωνοι ομιλητές (30 εκπαίδευση, 6 έλεγχος)

5 ακολουθίες από 10 συνεχόμενα ψηφία ανά ομιλητή

Σύνολο εκπαίδευσης: 1500 ψηφία (30x5x10)

Σύνολο ελέγχου: 300 ψηφία (6x5x10)

Διεπικύρωση για βελτίωση της στατιστικής εγκυρότητας αποτελεσμάτων

Ταξινόμηση μεμονωμένων ψηφίων με μεταβλητό θόρυβο

Προσθήκη θορύβου τύπου “babble” - βάση NOISEX

Μοντέλα HMMs λέξης (αριστερά-δεξιά τοπολογία, 8 καταστάσεις, 1 γκαουσιανή/κατάσταση, διαγώνιοι πίνακες συμμεταβλητότητας)

Χρήση μηχανής αναγνώρισης HTK (επαυξημένης με υλοποίηση μοντέλου σύμμειξης με αντιστάθμιση αβεβαιότητας)

Παράδειγμα Αναγνώρισης από Ήχο και Εικόνα

AV A

Αναγνώριση μόνο από ήχο ή εικόνα

Ικανοποιητική απόδοση με χαμηλοδιάστατο διάνυσμα οπτικών

χαρακτηριστικών ΕΜΟ

Συνδυασμένη οπτική/ακουστική αναγνώριση

Μέση απόλυτη βελτίωση χάρη στην οπτική πληροφορία

AV-W-UC vs. A-UC

28.7 %

Σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας

Δίχως βάρη AV-UC vs. AV Με βάρη AV-W-UC vs. AV-W

Μέση σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας 20 %

Μοντελοποίηση συγχρονισμού με Product-HMM

Μέση απόλυτη βελτίωση χάρη στη μοντελοποίηση με

Product-HMM vs. Multistream-HMM

1.2 %


Σύνοψη:

Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή

Σύμμειξη οπτικής και ακουστικής πληροφορίας

Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού


Χρηματοδότηση: Ευρωπαϊκά έργα MUSCLE (NoE) & HIWIRE (STREP)


A. Katsamanis, G. Papandreou, and P. Maragos, “Face Active Appearance Modeling and Speech Acoustic Information to Recover

Articulation”, IEEE Trans. ASLP, 2009


Ακουστική

Εικόνα


οδού

Κύρια σημεία:

Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα

Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία)

Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας

Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά

Συλλέχθηκε από CSTR, Univ. Edinburgh Δύο υποκείμενα (Βρετανοί, 1 άνδρας/1

γυναίκα), 460 προτάσεις TIMIT ο καθένας Μετρήσεις άρθρωσης (2-Δ συντεταγμένες

9 ηλεκτροδίων ΕΜΑ) Βίντεο με το πρόσωπο της ομιλήτριας 30 λεπτά αξιοποιήσιμων δεδομένων Πρώτη εργασία που αξιοποιεί το βίντεο

Βάση με μετρήσεις άρθρωσης MOCHA

Μετρήσεις στο πρόσωπο με ΕΜΟ

37

phoneme

Οπτική-Ακουστική Αντιστροφή Ομιλίας

Γραμμική απεικόνιση χαρακτηριστικών σε μετρήσεις άρθρωσηςΠαρατηρήσεις y, παράμετροι άρθρωσης x

Μοντέλο:

prior

μέτρηση

Γραμμική εκτίμηση άρθρωσης:

Yehia, Rubin & Vatikiotis-Bateson, Speech Comm., 1998

Εκτίμηση Παραμέτρων Γραμμικού Μοντέλου με CCA

Βέλτιστη γραμμική απεικόνιση εκφρασμένη στη CCA βάση:

Εκτίμηση από λίγα δεδομένα: απεικ. μειωμένης τάξης

Ανάλυση σε κανονικές συνιστώσες συσχ. (CCA)

Εύρεση διευθύνσεων μέγιστης συμμεταβλητότητας

Εκτίμηση μειωμένης τάξης: λίγα δεδομένα εκπαίδευσης

40

Hiroya & Honda, IEEE TSAP 2004

Viterbi

Προσέγγιση μη γραμμικής απεικόνισης με τμηματικά γραμμικό μοντέλο

Μοντελοποίηση δυναμικής με Markov αλυσίδα στις κρυφές καταστάσεις -> ΗΜΜ

Τμηματικά Γραμμικό Μοντέλο

Μοντέλο ΗΜΜ: Επίπεδα Συγκερασμού Οπτικής/Ακουστικής Πληροφορίας

Πρόβλεψη δεδομένης της κρυφής κατάστασης:

Επιλογή ενεργού μοντέλου. Εναλλακτικά σενάρια:

Συγχρονισμένα HMM / MS-HMM: Κοινή κρυφή μεταβλητή

Ασύγχρονο (όψιμο) μοντέλο: Ξεχωριστή αποκωδικοποίηση/

κανάλι. Καταστάσεις που αντιστοιχούν σε:Visemes (οπτικό κανάλι)

Φωνήματα (ακουστικό κανάλι)

Αξιολόγηση Επίδοσης Αντιστροφής Πειράματα στη βάση MOCHA

Ποσοτικά κριτήρια

Ποιοτική αξιολόγηση

Αντιστροφή μόνο από ακουστική ή οπτική πληροφορία

Οπτική-Ακουστική Αντιστροφή (πρώιμη σύμμειξη)

Σύγκριση επιπέδων σύμμειξης (πρώιμο/μέσο/όψιμο)

Ποιοτικά στοιχεία: Σφάλμα ανά αρθρωτή

Ποιοτικά στοιχεία: Σφάλμα ανά φώνημα

Παράδειγμα Αντιστροφής

Katsamanis et al. EUSIPCO 200851

Επεκτάσεις: Διακοπτόμενο Γραμ. Δυναμικό Μοντέλο

Audiovisual Speech

Inversion

Audiovisual Speech

Inversion

Articulatory Parameter Extraction

Articulatory Parameter Extraction

Articulatory Speech

Synthesis

Articulatory Speech

Synthesis

Articulatory Model

Training

Articulatory Model

Training

Προοπτική / Συνεχιζόμενη έρευνα στο CVSP Χρήση Αντιστροφής για Σύνθεση Φωνής με Αεροακουστικά

Μοντέλα (Ν. Κατσαμάνης)

Αξιοποίηση πολυτροπικών δεδομένων: X-rays, υπέρηχοι

(Τ. Ρούσσος και Ν. Κατσαμάνης)


Ακουστική

Εικόνα


οδούΣύνοψη:

Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα

Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία)

Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας

Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικάΧρηματοδότηση: Ευρωπαϊκό έργο ASPI (FET) & ΠΕΝΕΔ (ΓΓΕΤ)

οπτικ

ή προ

βολή


οπτικ

ή προ

βολή


Περαιτέρω πληροφορίες: http://cvsp.cs.ntua.gr

Ευχαριστώ!

Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Documents

Transcript of Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας