Download - Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Transcript
Page 1: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Συνδυασμένη Οπτική-Ακουστική Ανάλυση

Ομιλίας

Γιώργος Παπανδρέου

Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος

Εθνικό Μετσόβιο Πολυτεχνείο – Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ.

http://cvsp.cs.ntua.gr

Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό

Page 2: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Ομάδα CVSP -- ΕΜΠ Μέλη

Καθ. Πέτρος Μαραγκός (επικεφαλής) 3 Μεταδιδακτορικοί Ερευνητές 7 Υποψ. Διδάκτορες + 2-5 Διπλ. Φοιτητές + συνεργασία με ελληνικές και ξένες ερευνητικές ομάδες

Περιοχές έρευνας Ανάλυση εικόνας και όραση υπολογιστών

Μη γραμμικά γεωμ. μοντέλα: μαθημ. μορφολογία, μερικές διαφ. εξισώσεις Ανάλυση και επεξεργασία εικόνων σε πολλαπλές κλίμακες Κατάτμηση, παρακολούθηση και αναγνώριση αντικειμένων

Επεξεργασία ήχου και φωνής Εύρωστη αναγνώριση φωνής Ανάλυση ακουστικών σημάτων με μοντέλα διαμόρφωσης/χαοτικά μοντέλα Μοντελοποίηση συστήματος παραγωγής φωνής (ακουστικά μοντέλα)

Πολυτροπική ανάλυση σημάτων Οπτική-ακουστική ανάλυση & αντιστροφή φωνής Ανάλυση/περίληψη βίντεο Αναγνώριση νοηματικής γλώσσας

Συμμετοχή σε Ευρωπαϊκά & Ελληνικά ερευνητικά προγράμματα Ιστοσελίδα: http://cvsp.cs.ntua.gr

Page 3: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αναγνώριση Ομιλίας από Ήχο και Εικόνα

Θεμελιώδες φαινόμενο στην πρόσληψη ομιλίας (McGurk & MacDonald)

Βελτίωση της επίδοσης συστημάτων Αυτόματης Αναγνώρισης Ομιλίας (ΑΑΟ) υπό δύσκολες ακουστικές συνθήκες: Θόρυβος/Παρεμβολές

ΉχοςΕικόνα

Page 4: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού

Ανάκτηση γεωμετρίας φωνητικής οδού Μοντέλα σύνθεσης με μίμηση διαδικασίας παραγωγής

Αναγνώριση φωνής με χρήση αναπαραστάσεων άρθρωσης

Φωνητική επιστήμη/φωνολογία

Διδασκαλία ξένης γλώσσας, αντιμετώπιση προβλημάτων άρθρωσης

Ακουστική

Εικόνα

Γεωμετρία φωνητικής

οδού

Page 5: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Ομιλία: Πολύπλευρο φαινόμενο

οπτικ

ή προ

βολή

ακουστική προβολή

Page 6: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Από ακουστικές σε αρθρωτικές αναπαραστάσεις Ομιλία ως ακουστικό σήμα

Ακουστική αναπαράσταση

Ομιλία ως οπτικό-ακουστικό σήμα Αρθρωτική αναπαράσταση

Επιτυχία σε συστήματα αναγνώρισης ομιλίας (King et al., Deng)

Φωνολογικές θεωρίες: Αρθρωτικά Nεύματα (Articulatory Gestures, Browman & Goldstein)

Page 7: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Μια εντέλει αρκετά παλιά ιδέα... (Α.Μ. Bell, 1867)

Page 8: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αναγνώριση Ομιλίας από Ακουστική και Οπτική Πληροφορία

G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, “Adaptive Multimodal Fusion by Uncertainty Compensation with Application

to Audio-Visual Speech Recognition”, IEEE Trans. ASLP, 2009

Page 9: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αναγνώριση Ομιλίας από Ήχο και Εικόνα

Κύρια σημεία:

Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή

Σύμμειξη οπτικής και ακουστικής πληροφορίας

Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού

ΉχοςΕικόνα

Page 10: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Εξαγωγή Οπτικής Πληροφορίας

Τόσο το σχήμα όσο και η υφή του προσώπου επιβοηθούν το

διάβασμα των χειλιών

Μοντελοποίηση προσώπου με Ενεργά Μοντέλα Όψης (ΕΜΟ)

Σχήμα και υφή αναλύονται σε χαμηλοδιάστατους υποχώρους

Οπτικά χαρακτηριστικά: Παράμετροι του ΕΜΟ

Εκτιμάται και η αβεβαιότητα ως προς τις τιμές των χαρακτηριστικών

μέσο διάνυσμα

1ο ιδιο-διάνυσμα

2ο ιδιο-διάνυσμα

υφή

σχή

μα

Page 11: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Εξαγωγή Οπτικής Πληροφορίας

Μηχανισμός για μείωση της επίδρασης της ταυτότητας του

ομιλητή: δυνατότητα αναγνώρισης πολλαπλών ομιλητών

Επικέντρωση του παραθύρου ανάλυσης γύρω από το στόμα

Ταχείς αλγόριθμοι για ανάλυση σε πραγματικό χρόνο

Page 12: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Σύστημα πραγματικού χρόνου για οπτική-

ακουστική αναγν. ομιλίας

Image Acquisition

Firewire color camera, 640x480

@25 fps

Face detectorAdaboost-based, @5 fps

HMM-based backend

Face tracking & feature extraction

Real-time AAM fitting algorithms

(Re)initialization

System Overview

GPU-accelerated processing

OpenGL implementation Transcription

Page 13: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική;

Πολλαπλές αισθητήριες πηγές παρέχουν συμπληρωματική πληροφορία

Ετερόκλητες πηγές πληροφορίας επηρεάζονται διαφορετικά από θόρυβο

Σημαντικές εφαρμογές (π.χ. βιομετρικά συστήματα)

Η ανθρώπινη αντίληψη εκμεταλλεύεται ετερόκλητα αισθητήρια ερεθίσματα με μεγάλη επιτυχία

Page 14: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Σύμμειξη πληροφορίας σε αντιληπτικές διεργασίες Πολυαισθητηριακή περίπτωση

Ήχος, εικόνα, αφή, ...

Διαφορετικές όψεις εντός της ίδιας αίσθησηςΟπτική εκτίμηση βάθους: στέρεο, υφή, σκίαση

Μπεϋζιανό στατιστικό πλαίσιο (Knill & Richards)Ενδείξεις και από ψυχολογικά πειράματα (π.χ. Ernst et al.)

Διαφορετικά επίπεδα σύμμειξηςΠρώιμη/ενδιάμεση/όψιμη σύμμειξη

Maragos et al., “Cross-Modal Integration”, Springer 2008

Page 15: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας

Αρχή: “Μπορούμε να μετρήσουμε χαρακτηριστικά

αναγνώρισης με πεπερασμένη μόνο ακρίβεια”

Η αβεβαιότητα μέτρησης παίζει σημαντικό ρόλο στο

φιλτράρισμα: Φίλτρα Wiener και Kalman

Πώς η αβεβαιότητα μέτρησης χαρακτηριστικών

επιδρά στις μεθόδους ταξινόμησης;

Page 16: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αβεβαιότητα Μέτρησης Χαρακτηριστικών Συνήθως τροφοδοτούμε τους ταξινομητές με περιγραφές

‘άπειρης’ ακρίβειας Η προσέγγισή μας: Συνοδεύουμε τα χαρακτηριστικά με

το σφάλμα στη μέτρησή τους:

SNR= 20dB SNR= 5dB

Page 17: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Πιθανοτική Μοντελοποίηση Αβεβαιότητας Μέτρησης

C

X

C

X

Y

Η Προσέγγισή μας: Μετράμε χαρακτηριστικά αλλοιωμένα από θόρυβο

Συμβατική Άποψη: Άμεσα παρατηρήσιμα χαρακτηριστικά

Και τα δύο

κρυφά!

πρότερη

Παράδειγμα: Ταξινoμητής με Μείγμα Γκαουσιανών (Gaussian

Mixture Model - GMM) S ανεξάρτητες ροές

ύστερη κατανομή καθαρών

κατανομή θορύβου

κρυφές φανερές

ανεξ. υπό συνθήκη:

Page 18: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

,

1: , , , , , , , ,11

| ( ) ; ,s cMS

s s c m s s c m e s s c m e sms

p c y p c N y

GMM Ταξινόμηση με Γκαουσιανό Θόρυβο Μέτρησης

C

X

C

X

Y

χαρακτηριστικά αλλοιωμένα από θόρυβο

συμβατική άποψη

Μοντέλο θορύβου Γκάους: , ,| ; ,s s s s e s e sp y x N y x

1: , , ,1| ( ) ; ,

S

s s c s s c s cp c x p c N x

Page 19: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

GMM Ταξινόμηση – Δύο Πηγές Πληροφορίας Μετατόπιση ορίου ταξινόμησης με αυξανόμενο θόρυβο μέτρησης

Δύο 1-Δ ροές (y1 και y2), 2 τάξεις

Page 20: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Σχέση με Σύμμειξη Στάθμισης Ροής

Πιθανότητα με Αντιστάθμιση Αβεβαιότητας:

Βάρη Ροής:1: 1

( | ) ( ) ( | )S

s sswb c y p c p y c

1: , , ,1| ( ) ; ,

S

s s s c s c e sp c y p c N y

11: , , ,1

| ( ) ; ,S

s s s c s c s cb c y p c N y w ,

,,

1 1 e ss c

s c

w

Ενεργό Βάρος Ροής:

PoG Ταυτότητα:

1; , ; ,w

N x N x w

Page 21: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

EM-Εκπαίδευση με Αβέβαια Χαρακτηριστικά

( , ) [log ( ,{ } | ) | , ]Q ΄ p X C X ΄

C

X

C

X

Y

Η προσέγγισή μας

Συμβατική άποψη

Κρυφή

Φανερή

Κρυφή

Φανερή

Τα δεδομένα εκπαίδευσης μπορούν επίσης να είναι αβέβαια

( , ) [log ( ,{ , } | ) | , ]Q ΄ p Y X C Y ΄

Page 22: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Κρυφά Μοντέλα Markov (ΗΜΜ) & Αβεβαιότητα

Η Προσέγγισή μας

Συμβατική Άποψη

Κρυφές

Φανερές

Κρυφές

Φανερές

Χρήση αντισταθμισμένων πιθανοτήτων στους αλγορίθμους Viterbi (αποκωδικοποίηση) και α-β (εκπαίδευση)

Προσαρμογή στο χρόνο (επίπεδο frame)

C1

X1

C2

X2

C3

X3

C4

X4

C1

X1

Y1

C2

X2

Y2

C3

X3

Y3

C4

X4

Y4

Page 23: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Ακουστικά Χαρακτηριστικά και Αβεβαιότητα Mel Frequency Cepstral Coefficients (MFCCs):

Pre-emphasis STFT | . | Mel-scale log( . ) DCT

Καταπίεση θορύβου (e.g. SPLICE, ALGONQUIN)

Μοντελοποίηση αλλοίωσης χαρακτηριστικών MFCC από θόρυβο (VTS)

Εκτίμηση ακουστικών χαρακτηριστικών + αβεβαιότητας

X noisy = f (X ;N )

( , )noisy cleanX f X NMFCC καθαρής φωνής

MFCC θορύβου

Deng, Droppo, Acero, IEEE Tr. SAP, 2005

ˆcleanX X E Αβεβαιότητα

Page 24: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Μοντελοποίηση Συγχρονισμού Οπτικής-Ακουστικής Πληροφορίας

Εναλλακτική μοντελοποίηση της αλληλεπίδρασης καναλιών: Asynchronous-HMM, Coupled-HMM, Dynamic Bayesian Networks, …

Τεχνικές για συγχρονισμό στο επίπεδο του σήματος

ΗΜΜ με συγχρονισμό μόνο στα όρια της λέξης

C1

X1

C2

X2

C3

X3

Υ1 Υ2 Υ3

Product-ΗΜΜ ελεγχόμενη ελευθερία συγχρονισμού

Multistream-ΗΜΜ με απόλυτο συγχρονισμό

ανά κατάσταση

Page 25: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Ποσοτική αξιολόγηση στη βάση CUAVE

Page 26: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αναγν. Ομιλίας από Ήχο και Εικόνα: ΠειράματαΧρήση της βάσης CUAVE:

36 αγγλόφωνοι ομιλητές (30 εκπαίδευση, 6 έλεγχος)

5 ακολουθίες από 10 συνεχόμενα ψηφία ανά ομιλητή

Σύνολο εκπαίδευσης: 1500 ψηφία (30x5x10)

Σύνολο ελέγχου: 300 ψηφία (6x5x10)

Διεπικύρωση για βελτίωση της στατιστικής εγκυρότητας αποτελεσμάτων

Ταξινόμηση μεμονωμένων ψηφίων με μεταβλητό θόρυβο

Προσθήκη θορύβου τύπου “babble” - βάση NOISEX

Μοντέλα HMMs λέξης (αριστερά-δεξιά τοπολογία, 8 καταστάσεις, 1 γκαουσιανή/κατάσταση, διαγώνιοι πίνακες συμμεταβλητότητας)

Χρήση μηχανής αναγνώρισης HTK (επαυξημένης με υλοποίηση μοντέλου σύμμειξης με αντιστάθμιση αβεβαιότητας)

Page 27: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Παράδειγμα Αναγνώρισης από Ήχο και Εικόνα

AV A

Page 28: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αναγνώριση μόνο από ήχο ή εικόνα

Ικανοποιητική απόδοση με χαμηλοδιάστατο διάνυσμα οπτικών

χαρακτηριστικών ΕΜΟ

Page 29: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Συνδυασμένη οπτική/ακουστική αναγνώριση

Μέση απόλυτη βελτίωση χάρη στην οπτική πληροφορία

AV-W-UC vs. A-UC

28.7 %

Page 30: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας

Δίχως βάρη AV-UC vs. AV Με βάρη AV-W-UC vs. AV-W

Μέση σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας 20 %

Page 31: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Μοντελοποίηση συγχρονισμού με Product-HMM

Μέση απόλυτη βελτίωση χάρη στη μοντελοποίηση με

Product-HMM vs. Multistream-HMM

1.2 %

Page 32: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αναγνώριση Ομιλίας από Ήχο και Εικόνα

Σύνοψη:

Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή

Σύμμειξη οπτικής και ακουστικής πληροφορίας

Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού

ΉχοςΕικόνα

Χρηματοδότηση: Ευρωπαϊκά έργα MUSCLE (NoE) & HIWIRE (STREP)

Page 33: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού

A. Katsamanis, G. Papandreou, and P. Maragos, “Face Active Appearance Modeling and Speech Acoustic Information to Recover

Articulation”, IEEE Trans. ASLP, 2009

Page 34: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού

Ακουστική

Εικόνα

Γεωμετρία φωνητικής

οδού

Κύρια σημεία:

Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα

Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία)

Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας

Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά

Page 35: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Συλλέχθηκε από CSTR, Univ. Edinburgh Δύο υποκείμενα (Βρετανοί, 1 άνδρας/1

γυναίκα), 460 προτάσεις TIMIT ο καθένας Μετρήσεις άρθρωσης (2-Δ συντεταγμένες

9 ηλεκτροδίων ΕΜΑ) Βίντεο με το πρόσωπο της ομιλήτριας 30 λεπτά αξιοποιήσιμων δεδομένων Πρώτη εργασία που αξιοποιεί το βίντεο

Βάση με μετρήσεις άρθρωσης MOCHA

Page 36: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Μετρήσεις στο πρόσωπο με ΕΜΟ

Page 37: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

37

phoneme

Οπτική-Ακουστική Αντιστροφή Ομιλίας

Page 38: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Γραμμική απεικόνιση χαρακτηριστικών σε μετρήσεις άρθρωσηςΠαρατηρήσεις y, παράμετροι άρθρωσης x

Μοντέλο:

prior

μέτρηση

Γραμμική εκτίμηση άρθρωσης:

Yehia, Rubin & Vatikiotis-Bateson, Speech Comm., 1998

Page 39: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Εκτίμηση Παραμέτρων Γραμμικού Μοντέλου με CCA

Βέλτιστη γραμμική απεικόνιση εκφρασμένη στη CCA βάση:

Εκτίμηση από λίγα δεδομένα: απεικ. μειωμένης τάξης

Ανάλυση σε κανονικές συνιστώσες συσχ. (CCA)

Εύρεση διευθύνσεων μέγιστης συμμεταβλητότητας

Page 40: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Εκτίμηση μειωμένης τάξης: λίγα δεδομένα εκπαίδευσης

40

Page 41: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Hiroya & Honda, IEEE TSAP 2004

Viterbi

Προσέγγιση μη γραμμικής απεικόνισης με τμηματικά γραμμικό μοντέλο

Μοντελοποίηση δυναμικής με Markov αλυσίδα στις κρυφές καταστάσεις -> ΗΜΜ

Τμηματικά Γραμμικό Μοντέλο

Page 42: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Μοντέλο ΗΜΜ: Επίπεδα Συγκερασμού Οπτικής/Ακουστικής Πληροφορίας

Πρόβλεψη δεδομένης της κρυφής κατάστασης:

Επιλογή ενεργού μοντέλου. Εναλλακτικά σενάρια:

Συγχρονισμένα HMM / MS-HMM: Κοινή κρυφή μεταβλητή

Ασύγχρονο (όψιμο) μοντέλο: Ξεχωριστή αποκωδικοποίηση/

κανάλι. Καταστάσεις που αντιστοιχούν σε:Visemes (οπτικό κανάλι)

Φωνήματα (ακουστικό κανάλι)

Page 43: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αξιολόγηση Επίδοσης Αντιστροφής Πειράματα στη βάση MOCHA

Ποσοτικά κριτήρια

Ποιοτική αξιολόγηση

Page 44: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Αντιστροφή μόνο από ακουστική ή οπτική πληροφορία

Page 45: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Οπτική-Ακουστική Αντιστροφή (πρώιμη σύμμειξη)

Page 46: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Σύγκριση επιπέδων σύμμειξης (πρώιμο/μέσο/όψιμο)

Page 47: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Ποιοτικά στοιχεία: Σφάλμα ανά αρθρωτή

Page 48: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Ποιοτικά στοιχεία: Σφάλμα ανά φώνημα

Page 49: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Παράδειγμα Αντιστροφής

Page 50: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Katsamanis et al. EUSIPCO 200851

Επεκτάσεις: Διακοπτόμενο Γραμ. Δυναμικό Μοντέλο

Page 51: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Audiovisual Speech

Inversion

Audiovisual Speech

Inversion

Articulatory Parameter Extraction

Articulatory Parameter Extraction

Articulatory Speech

Synthesis

Articulatory Speech

Synthesis

Articulatory Model

Training

Articulatory Model

Training

Προοπτική / Συνεχιζόμενη έρευνα στο CVSP Χρήση Αντιστροφής για Σύνθεση Φωνής με Αεροακουστικά

Μοντέλα (Ν. Κατσαμάνης)

Αξιοποίηση πολυτροπικών δεδομένων: X-rays, υπέρηχοι

(Τ. Ρούσσος και Ν. Κατσαμάνης)

Page 52: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού

Ακουστική

Εικόνα

Γεωμετρία φωνητικής

οδούΣύνοψη:

Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα

Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία)

Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας

Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικάΧρηματοδότηση: Ευρωπαϊκό έργο ASPI (FET) & ΠΕΝΕΔ (ΓΓΕΤ)

Page 53: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

οπτικ

ή προ

βολή

ακουστική προβολή

Page 54: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

οπτικ

ή προ

βολή

ακουστική προβολή

Περαιτέρω πληροφορίες: http://cvsp.cs.ntua.gr

Ευχαριστώ!