Συνδυασμένη Οπτική-Ακουστική Ανάλυση
Ομιλίας
Γιώργος Παπανδρέου
Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος
Εθνικό Μετσόβιο Πολυτεχνείο – Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ.
http://cvsp.cs.ntua.gr
Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό
Ομάδα CVSP -- ΕΜΠ Μέλη
Καθ. Πέτρος Μαραγκός (επικεφαλής) 3 Μεταδιδακτορικοί Ερευνητές 7 Υποψ. Διδάκτορες + 2-5 Διπλ. Φοιτητές + συνεργασία με ελληνικές και ξένες ερευνητικές ομάδες
Περιοχές έρευνας Ανάλυση εικόνας και όραση υπολογιστών
Μη γραμμικά γεωμ. μοντέλα: μαθημ. μορφολογία, μερικές διαφ. εξισώσεις Ανάλυση και επεξεργασία εικόνων σε πολλαπλές κλίμακες Κατάτμηση, παρακολούθηση και αναγνώριση αντικειμένων
Επεξεργασία ήχου και φωνής Εύρωστη αναγνώριση φωνής Ανάλυση ακουστικών σημάτων με μοντέλα διαμόρφωσης/χαοτικά μοντέλα Μοντελοποίηση συστήματος παραγωγής φωνής (ακουστικά μοντέλα)
Πολυτροπική ανάλυση σημάτων Οπτική-ακουστική ανάλυση & αντιστροφή φωνής Ανάλυση/περίληψη βίντεο Αναγνώριση νοηματικής γλώσσας
Συμμετοχή σε Ευρωπαϊκά & Ελληνικά ερευνητικά προγράμματα Ιστοσελίδα: http://cvsp.cs.ntua.gr
Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Θεμελιώδες φαινόμενο στην πρόσληψη ομιλίας (McGurk & MacDonald)
Βελτίωση της επίδοσης συστημάτων Αυτόματης Αναγνώρισης Ομιλίας (ΑΑΟ) υπό δύσκολες ακουστικές συνθήκες: Θόρυβος/Παρεμβολές
ΉχοςΕικόνα
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Ανάκτηση γεωμετρίας φωνητικής οδού Μοντέλα σύνθεσης με μίμηση διαδικασίας παραγωγής
Αναγνώριση φωνής με χρήση αναπαραστάσεων άρθρωσης
Φωνητική επιστήμη/φωνολογία
Διδασκαλία ξένης γλώσσας, αντιμετώπιση προβλημάτων άρθρωσης
Ακουστική
Εικόνα
Γεωμετρία φωνητικής
οδού
Ομιλία: Πολύπλευρο φαινόμενο
οπτικ
ή προ
βολή
ακουστική προβολή
Από ακουστικές σε αρθρωτικές αναπαραστάσεις Ομιλία ως ακουστικό σήμα
Ακουστική αναπαράσταση
Ομιλία ως οπτικό-ακουστικό σήμα Αρθρωτική αναπαράσταση
Επιτυχία σε συστήματα αναγνώρισης ομιλίας (King et al., Deng)
Φωνολογικές θεωρίες: Αρθρωτικά Nεύματα (Articulatory Gestures, Browman & Goldstein)
Μια εντέλει αρκετά παλιά ιδέα... (Α.Μ. Bell, 1867)
Αναγνώριση Ομιλίας από Ακουστική και Οπτική Πληροφορία
G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, “Adaptive Multimodal Fusion by Uncertainty Compensation with Application
to Audio-Visual Speech Recognition”, IEEE Trans. ASLP, 2009
Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Κύρια σημεία:
Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή
Σύμμειξη οπτικής και ακουστικής πληροφορίας
Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού
ΉχοςΕικόνα
Εξαγωγή Οπτικής Πληροφορίας
Τόσο το σχήμα όσο και η υφή του προσώπου επιβοηθούν το
διάβασμα των χειλιών
Μοντελοποίηση προσώπου με Ενεργά Μοντέλα Όψης (ΕΜΟ)
Σχήμα και υφή αναλύονται σε χαμηλοδιάστατους υποχώρους
Οπτικά χαρακτηριστικά: Παράμετροι του ΕΜΟ
Εκτιμάται και η αβεβαιότητα ως προς τις τιμές των χαρακτηριστικών
μέσο διάνυσμα
1ο ιδιο-διάνυσμα
2ο ιδιο-διάνυσμα
υφή
σχή
μα
Εξαγωγή Οπτικής Πληροφορίας
Μηχανισμός για μείωση της επίδρασης της ταυτότητας του
ομιλητή: δυνατότητα αναγνώρισης πολλαπλών ομιλητών
Επικέντρωση του παραθύρου ανάλυσης γύρω από το στόμα
Ταχείς αλγόριθμοι για ανάλυση σε πραγματικό χρόνο
Σύστημα πραγματικού χρόνου για οπτική-
ακουστική αναγν. ομιλίας
Image Acquisition
Firewire color camera, 640x480
@25 fps
Face detectorAdaboost-based, @5 fps
HMM-based backend
Face tracking & feature extraction
Real-time AAM fitting algorithms
(Re)initialization
System Overview
GPU-accelerated processing
OpenGL implementation Transcription
Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική;
Πολλαπλές αισθητήριες πηγές παρέχουν συμπληρωματική πληροφορία
Ετερόκλητες πηγές πληροφορίας επηρεάζονται διαφορετικά από θόρυβο
Σημαντικές εφαρμογές (π.χ. βιομετρικά συστήματα)
Η ανθρώπινη αντίληψη εκμεταλλεύεται ετερόκλητα αισθητήρια ερεθίσματα με μεγάλη επιτυχία
Σύμμειξη πληροφορίας σε αντιληπτικές διεργασίες Πολυαισθητηριακή περίπτωση
Ήχος, εικόνα, αφή, ...
Διαφορετικές όψεις εντός της ίδιας αίσθησηςΟπτική εκτίμηση βάθους: στέρεο, υφή, σκίαση
Μπεϋζιανό στατιστικό πλαίσιο (Knill & Richards)Ενδείξεις και από ψυχολογικά πειράματα (π.χ. Ernst et al.)
Διαφορετικά επίπεδα σύμμειξηςΠρώιμη/ενδιάμεση/όψιμη σύμμειξη
Maragos et al., “Cross-Modal Integration”, Springer 2008
Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας
Αρχή: “Μπορούμε να μετρήσουμε χαρακτηριστικά
αναγνώρισης με πεπερασμένη μόνο ακρίβεια”
Η αβεβαιότητα μέτρησης παίζει σημαντικό ρόλο στο
φιλτράρισμα: Φίλτρα Wiener και Kalman
Πώς η αβεβαιότητα μέτρησης χαρακτηριστικών
επιδρά στις μεθόδους ταξινόμησης;
Αβεβαιότητα Μέτρησης Χαρακτηριστικών Συνήθως τροφοδοτούμε τους ταξινομητές με περιγραφές
‘άπειρης’ ακρίβειας Η προσέγγισή μας: Συνοδεύουμε τα χαρακτηριστικά με
το σφάλμα στη μέτρησή τους:
SNR= 20dB SNR= 5dB
Πιθανοτική Μοντελοποίηση Αβεβαιότητας Μέτρησης
C
X
C
X
Y
Η Προσέγγισή μας: Μετράμε χαρακτηριστικά αλλοιωμένα από θόρυβο
Συμβατική Άποψη: Άμεσα παρατηρήσιμα χαρακτηριστικά
Και τα δύο
κρυφά!
πρότερη
Παράδειγμα: Ταξινoμητής με Μείγμα Γκαουσιανών (Gaussian
Mixture Model - GMM) S ανεξάρτητες ροές
ύστερη κατανομή καθαρών
κατανομή θορύβου
κρυφές φανερές
ανεξ. υπό συνθήκη:
,
1: , , , , , , , ,11
| ( ) ; ,s cMS
s s c m s s c m e s s c m e sms
p c y p c N y
GMM Ταξινόμηση με Γκαουσιανό Θόρυβο Μέτρησης
C
X
C
X
Y
χαρακτηριστικά αλλοιωμένα από θόρυβο
συμβατική άποψη
Μοντέλο θορύβου Γκάους: , ,| ; ,s s s s e s e sp y x N y x
1: , , ,1| ( ) ; ,
S
s s c s s c s cp c x p c N x
GMM Ταξινόμηση – Δύο Πηγές Πληροφορίας Μετατόπιση ορίου ταξινόμησης με αυξανόμενο θόρυβο μέτρησης
Δύο 1-Δ ροές (y1 και y2), 2 τάξεις
Σχέση με Σύμμειξη Στάθμισης Ροής
Πιθανότητα με Αντιστάθμιση Αβεβαιότητας:
Βάρη Ροής:1: 1
( | ) ( ) ( | )S
s sswb c y p c p y c
1: , , ,1| ( ) ; ,
S
s s s c s c e sp c y p c N y
11: , , ,1
| ( ) ; ,S
s s s c s c s cb c y p c N y w ,
,,
1 1 e ss c
s c
w
Ενεργό Βάρος Ροής:
PoG Ταυτότητα:
1; , ; ,w
N x N x w
EM-Εκπαίδευση με Αβέβαια Χαρακτηριστικά
( , ) [log ( ,{ } | ) | , ]Q ΄ p X C X ΄
C
X
C
X
Y
Η προσέγγισή μας
Συμβατική άποψη
Κρυφή
Φανερή
Κρυφή
Φανερή
Τα δεδομένα εκπαίδευσης μπορούν επίσης να είναι αβέβαια
( , ) [log ( ,{ , } | ) | , ]Q ΄ p Y X C Y ΄
Κρυφά Μοντέλα Markov (ΗΜΜ) & Αβεβαιότητα
Η Προσέγγισή μας
Συμβατική Άποψη
Κρυφές
Φανερές
Κρυφές
Φανερές
Χρήση αντισταθμισμένων πιθανοτήτων στους αλγορίθμους Viterbi (αποκωδικοποίηση) και α-β (εκπαίδευση)
Προσαρμογή στο χρόνο (επίπεδο frame)
C1
X1
C2
X2
C3
X3
C4
X4
C1
X1
Y1
C2
X2
Y2
C3
X3
Y3
C4
X4
Y4
Ακουστικά Χαρακτηριστικά και Αβεβαιότητα Mel Frequency Cepstral Coefficients (MFCCs):
Pre-emphasis STFT | . | Mel-scale log( . ) DCT
Καταπίεση θορύβου (e.g. SPLICE, ALGONQUIN)
Μοντελοποίηση αλλοίωσης χαρακτηριστικών MFCC από θόρυβο (VTS)
Εκτίμηση ακουστικών χαρακτηριστικών + αβεβαιότητας
X noisy = f (X ;N )
( , )noisy cleanX f X NMFCC καθαρής φωνής
MFCC θορύβου
Deng, Droppo, Acero, IEEE Tr. SAP, 2005
ˆcleanX X E Αβεβαιότητα
Μοντελοποίηση Συγχρονισμού Οπτικής-Ακουστικής Πληροφορίας
Εναλλακτική μοντελοποίηση της αλληλεπίδρασης καναλιών: Asynchronous-HMM, Coupled-HMM, Dynamic Bayesian Networks, …
Τεχνικές για συγχρονισμό στο επίπεδο του σήματος
ΗΜΜ με συγχρονισμό μόνο στα όρια της λέξης
C1
X1
C2
X2
C3
X3
Υ1 Υ2 Υ3
Product-ΗΜΜ ελεγχόμενη ελευθερία συγχρονισμού
Multistream-ΗΜΜ με απόλυτο συγχρονισμό
ανά κατάσταση
Ποσοτική αξιολόγηση στη βάση CUAVE
Αναγν. Ομιλίας από Ήχο και Εικόνα: ΠειράματαΧρήση της βάσης CUAVE:
36 αγγλόφωνοι ομιλητές (30 εκπαίδευση, 6 έλεγχος)
5 ακολουθίες από 10 συνεχόμενα ψηφία ανά ομιλητή
Σύνολο εκπαίδευσης: 1500 ψηφία (30x5x10)
Σύνολο ελέγχου: 300 ψηφία (6x5x10)
Διεπικύρωση για βελτίωση της στατιστικής εγκυρότητας αποτελεσμάτων
Ταξινόμηση μεμονωμένων ψηφίων με μεταβλητό θόρυβο
Προσθήκη θορύβου τύπου “babble” - βάση NOISEX
Μοντέλα HMMs λέξης (αριστερά-δεξιά τοπολογία, 8 καταστάσεις, 1 γκαουσιανή/κατάσταση, διαγώνιοι πίνακες συμμεταβλητότητας)
Χρήση μηχανής αναγνώρισης HTK (επαυξημένης με υλοποίηση μοντέλου σύμμειξης με αντιστάθμιση αβεβαιότητας)
Παράδειγμα Αναγνώρισης από Ήχο και Εικόνα
AV A
Αναγνώριση μόνο από ήχο ή εικόνα
Ικανοποιητική απόδοση με χαμηλοδιάστατο διάνυσμα οπτικών
χαρακτηριστικών ΕΜΟ
Συνδυασμένη οπτική/ακουστική αναγνώριση
Μέση απόλυτη βελτίωση χάρη στην οπτική πληροφορία
AV-W-UC vs. A-UC
28.7 %
Σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας
Δίχως βάρη AV-UC vs. AV Με βάρη AV-W-UC vs. AV-W
Μέση σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας 20 %
Μοντελοποίηση συγχρονισμού με Product-HMM
Μέση απόλυτη βελτίωση χάρη στη μοντελοποίηση με
Product-HMM vs. Multistream-HMM
1.2 %
Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Σύνοψη:
Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή
Σύμμειξη οπτικής και ακουστικής πληροφορίας
Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού
ΉχοςΕικόνα
Χρηματοδότηση: Ευρωπαϊκά έργα MUSCLE (NoE) & HIWIRE (STREP)
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
A. Katsamanis, G. Papandreou, and P. Maragos, “Face Active Appearance Modeling and Speech Acoustic Information to Recover
Articulation”, IEEE Trans. ASLP, 2009
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Ακουστική
Εικόνα
Γεωμετρία φωνητικής
οδού
Κύρια σημεία:
Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα
Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία)
Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας
Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά
Συλλέχθηκε από CSTR, Univ. Edinburgh Δύο υποκείμενα (Βρετανοί, 1 άνδρας/1
γυναίκα), 460 προτάσεις TIMIT ο καθένας Μετρήσεις άρθρωσης (2-Δ συντεταγμένες
9 ηλεκτροδίων ΕΜΑ) Βίντεο με το πρόσωπο της ομιλήτριας 30 λεπτά αξιοποιήσιμων δεδομένων Πρώτη εργασία που αξιοποιεί το βίντεο
Βάση με μετρήσεις άρθρωσης MOCHA
Μετρήσεις στο πρόσωπο με ΕΜΟ
37
phoneme
Οπτική-Ακουστική Αντιστροφή Ομιλίας
Γραμμική απεικόνιση χαρακτηριστικών σε μετρήσεις άρθρωσηςΠαρατηρήσεις y, παράμετροι άρθρωσης x
Μοντέλο:
prior
μέτρηση
Γραμμική εκτίμηση άρθρωσης:
Yehia, Rubin & Vatikiotis-Bateson, Speech Comm., 1998
Εκτίμηση Παραμέτρων Γραμμικού Μοντέλου με CCA
Βέλτιστη γραμμική απεικόνιση εκφρασμένη στη CCA βάση:
Εκτίμηση από λίγα δεδομένα: απεικ. μειωμένης τάξης
Ανάλυση σε κανονικές συνιστώσες συσχ. (CCA)
Εύρεση διευθύνσεων μέγιστης συμμεταβλητότητας
Εκτίμηση μειωμένης τάξης: λίγα δεδομένα εκπαίδευσης
40
Hiroya & Honda, IEEE TSAP 2004
Viterbi
Προσέγγιση μη γραμμικής απεικόνισης με τμηματικά γραμμικό μοντέλο
Μοντελοποίηση δυναμικής με Markov αλυσίδα στις κρυφές καταστάσεις -> ΗΜΜ
Τμηματικά Γραμμικό Μοντέλο
Μοντέλο ΗΜΜ: Επίπεδα Συγκερασμού Οπτικής/Ακουστικής Πληροφορίας
Πρόβλεψη δεδομένης της κρυφής κατάστασης:
Επιλογή ενεργού μοντέλου. Εναλλακτικά σενάρια:
Συγχρονισμένα HMM / MS-HMM: Κοινή κρυφή μεταβλητή
Ασύγχρονο (όψιμο) μοντέλο: Ξεχωριστή αποκωδικοποίηση/
κανάλι. Καταστάσεις που αντιστοιχούν σε:Visemes (οπτικό κανάλι)
Φωνήματα (ακουστικό κανάλι)
Αξιολόγηση Επίδοσης Αντιστροφής Πειράματα στη βάση MOCHA
Ποσοτικά κριτήρια
Ποιοτική αξιολόγηση
Αντιστροφή μόνο από ακουστική ή οπτική πληροφορία
Οπτική-Ακουστική Αντιστροφή (πρώιμη σύμμειξη)
Σύγκριση επιπέδων σύμμειξης (πρώιμο/μέσο/όψιμο)
Ποιοτικά στοιχεία: Σφάλμα ανά αρθρωτή
Ποιοτικά στοιχεία: Σφάλμα ανά φώνημα
Παράδειγμα Αντιστροφής
Katsamanis et al. EUSIPCO 200851
Επεκτάσεις: Διακοπτόμενο Γραμ. Δυναμικό Μοντέλο
Audiovisual Speech
Inversion
Audiovisual Speech
Inversion
Articulatory Parameter Extraction
Articulatory Parameter Extraction
Articulatory Speech
Synthesis
Articulatory Speech
Synthesis
Articulatory Model
Training
Articulatory Model
Training
Προοπτική / Συνεχιζόμενη έρευνα στο CVSP Χρήση Αντιστροφής για Σύνθεση Φωνής με Αεροακουστικά
Μοντέλα (Ν. Κατσαμάνης)
Αξιοποίηση πολυτροπικών δεδομένων: X-rays, υπέρηχοι
(Τ. Ρούσσος και Ν. Κατσαμάνης)
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Ακουστική
Εικόνα
Γεωμετρία φωνητικής
οδούΣύνοψη:
Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα
Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία)
Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας
Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικάΧρηματοδότηση: Ευρωπαϊκό έργο ASPI (FET) & ΠΕΝΕΔ (ΓΓΕΤ)
οπτικ
ή προ
βολή
ακουστική προβολή
οπτικ
ή προ
βολή
ακουστική προβολή
Περαιτέρω πληροφορίες: http://cvsp.cs.ntua.gr
Ευχαριστώ!
Top Related