Ουζούνης Γεώργιος

33
Εξατοmικευmένη Αυτόmατη Αναγνώριση Φωνής Ουζούνης Γεώργιος Επιβλέποντες: Συmεωνίδης Ανδρέας Τσαρδούλιας Εmmανουήλ Αριστοτέλειο Πανεπιστήmιο Θεσσαλονίκης Πολυτεχνική Σχολή Τmήmα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας της Πληροφορίας και Υπολογισmών 4 Νοεmβρίου 2016 Ουζούνης Γεώργιος PASR 4 Νοεmβρίου 2016 1 / 29

Transcript of Ουζούνης Γεώργιος

Page 1: Ουζούνης Γεώργιος

Εξατομικευμένη Αυτόματη Αναγνώριση Φωνής

Ουζούνης Γεώργιος

Επιβλέποντες:

Συμεωνίδης Ανδρέας

Τσαρδούλιας Εμμανουήλ

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης

Πολυτεχνική Σχολή

Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

Εργαστήριο Επεξεργασίας της Πληροφορίας και Υπολογισμών

4 Νοεμβρίου 2016

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 1 / 29

Page 2: Ουζούνης Γεώργιος

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 2 / 29

Page 3: Ουζούνης Γεώργιος

Αυτόματη αναγνώριση φωνής

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 3 / 29

Page 4: Ουζούνης Γεώργιος

Αυτόματη αναγνώριση φωνής Τι είναι

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 4 / 29

Page 5: Ουζούνης Γεώργιος

Αυτόματη αναγνώριση φωνής Τι είναι

Είναι η διαδικασία κατανόησης της ανθρώπινης φωνής

από ηλεκτρονικά συστήματα.

Βήματα διαδικασίας

Εξαγωγή χαρακτηριστικών από το ηχητικό σήμα.

Εύρεση παύσεων της ομιλίας.

Αντιστοίχιση των επιμέρους τμημάτων σε

ακολουθίες λέξεων.

Επιλογή του πιθανότερου συνδυασμού βάσει

στατιστικών ή/και άλλων μοντέλων.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 5 / 29

Page 6: Ουζούνης Γεώργιος

Αυτόματη αναγνώριση φωνής Εφαρμογές

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 6 / 29

Page 7: Ουζούνης Γεώργιος

Αυτόματη αναγνώριση φωνής Εφαρμογές

Ιατρική

Εκτενής καταγραφή συμβάντων.

Συμπλήρωση φόρμας ασθενούς.

Καθοδήγηση ρομποτικών συστημάτων.

Συστήματα αυτοκινήτων

Σχεδιασμός πορείας (δήλωση τελικού προορισμού,

στάσεων, κτλ...).

Διαχείριση εισερχόμενων/εξερχόμενων κλήσεων

κατά την οδήγηση.

Αναζήτηση σε χάρτες για σταθμούς

ανεφοδιασμού, ξενοδοχεία, κτλ...

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 7 / 29

Page 8: Ουζούνης Γεώργιος

Αυτόματη αναγνώριση φωνής Εφαρμογές

Αλλα

Αυτόματη μετάφραση σε διεθνή συνέδρεια,

πανεπιστήμια, κτλ...

Χρήση από ανθρώπους με προβλήματα ακοής σε

διαλέξεις, εκδηλώσεις, κτλ...

Internet of Things: Διαχείριση οικειακώνσυσκευών.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 8 / 29

Page 9: Ουζούνης Γεώργιος

Αυτόματη αναγνώριση φωνής Διαθέσιμα εργαλεία

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 9 / 29

Page 10: Ουζούνης Γεώργιος

Αυτόματη αναγνώριση φωνής Διαθέσιμα εργαλεία

Για τους χρήστες

Intelligent personal assistants: Siri, Cortana, GoogleVoice, MLS IQTalk.

Desktop εφαρμογές για δημιουργία εγγράφων,e-mail, καταγραφή σημειώσεων κ.α. μέσω τηςφωνής.

Για τους προγραμματιστές

Ελεύθερο ή εμπορικό λογισμικό για αυτόματη

αναγνώριση φωνής: CMU Sphinx, HTK, Kaldi.

APIs: Google Cloud Speech, Cortana, Siri.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 10 / 29

Page 11: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ.

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 11 / 29

Page 12: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 12 / 29

Page 13: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Γενική περιγραφή

Εφαρμογή για τη συγγραφή e-mail στην αγγλικήγλώσσα με υπαγόρευση.

CMU Sphinx για την υλοποίηση της αυτόματηςαναγνώρισης φωνής.

Επεξεργασία του αποτελέσματος και διόρθωση

βάσει των e-mail του χρήστη.

Επιπλέον...

Δυνατότητα προσαρμογής στη φωνή και το ηχητικό

περιβάλλον του χρήστη βάσει ηχογραφήσεων.

Ομαδοποίηση e-mail ανά θεματικές ενότητες.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 13 / 29

Page 14: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 14 / 29

Page 15: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 15 / 29

Page 16: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 16 / 29

Page 17: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Controller

Αναλαμβάνει την ενορχήστρωση και τη συνεργασία

των επιμέρους τμημάτων.

Επικοινωνεί με τον πάροχο των μηνυμάτων

ηλεκτρονικού ταχυδρομείου.

Επικοινωνεί με τη βάση δεδομένων για την

αποθήκευση και την ανάκτηση δεδομένων.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 17 / 29

Page 18: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 18 / 29

Page 19: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Database

Αποθηκεύει και ανακτά τα μοντέλα της εφαρμογής.

Διατηρεί τα δείγματα φωνής του χρήστη.

Προσαρμόζει τα μοντέλα του CMU Sphinx στηφωνή του χρήστη.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 19 / 29

Page 20: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 20 / 29

Page 21: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

CMU Sphinx

Υλοποιεί την αναγνώριση φωνής.

Παραμετροποίηση

Ακουστικό μοντέλο (acoustic model)

Γλωσσικό μοντέλο (language model)

Λεξικό (dictionary)

Δυνατότητα προσαρμογής του ακουστικού μοντέλου

χρησιμοποιώντας ηχογραφήσεις.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 21 / 29

Page 22: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Pre-processing

Στάδιο δημιουργίας των μοντέλων του CMU Sphinx.

Δημιουργία γλωσσικού μοντέλου με βάση τα

e-mails του χρήστη.

Δημιουργία λεξικού με βάση το γλωσσικό μοντέλο.

Προσαρμογή του υπάρχοντος ακουστικού

μοντέλου.

Αποθήκευση των παραπάνω για μελλοντική χρήση.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 22 / 29

Page 23: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Post-processing

Στάδιο επεξεργασίας της εξόδου του CMU Sphinx.

Διαδικασία διόρθωσης πρότασης

Εύρεση πιθανώς εσφαλμένων λέξεων.

Εύρεση πιθανών αντικαστατών για κάθε

εσφαλμένη λέξη.

Βαθμολόγιση και επιλογή αντικαταστάτη.

Μετρικές ομοιότητας

Απόσταση Levenshtein

Fuzzy matching

Part of speech tagging

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 23 / 29

Page 24: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 24 / 29

Page 25: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29

Page 26: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29

Page 27: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29

Page 28: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29

Page 29: Ουζούνης Γεώργιος

Η εφαρμογή Ε.Α.Α.Φ. Επιμέρους τμήματα

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 25 / 29

Page 30: Ουζούνης Γεώργιος

Πειράματα

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 26 / 29

Page 31: Ουζούνης Γεώργιος

Πειράματα

Ακρίβεια

Σετ δεδομένων 1000 προτάσεων

ΠροσαρμογήWord Accuracy

ASR Post-processing0% 0.22% 27.91%

0%1

26.49% 59.14%

10% 60.67% 83.13%

20% 62.81% 84.77%

50% 66.36% 87.34%

75% 67.84% 88.15%

100% 68.85% 88.83%

1custom language modelΟυζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 27 / 29

Page 32: Ουζούνης Γεώργιος

Σύνοψη

Περιεχόμενα

1 Αυτόματη αναγνώριση φωνής

Τι είναι

Εφαρμογές

Διαθέσιμα εργαλεία

2 Η εφαρμογή Ε.Α.Α.Φ.

Γενική περιγραφή

Επιμέρους τμήματα

ControllerDatabaseModelGUI

3 Πειράματα

4 Σύνοψη

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 28 / 29

Page 33: Ουζούνης Γεώργιος

Σύνοψη

Personalized Automatic Speech Recognition

Υλοποίηση

Δημιουργία εφαρμογής για συγγραφή e-mails στηνΑγγλική με υπαγόρευση.

Εργαλεία - Τεχνικές

CMU Sphinx για αυτόματη αναγνώριση φωνής.

Post-processing για βελτίωση των αποτελεσμάτων.

Αποτελέσματα

Αποτελέσματα της τάξης του 80% με προσαρμογή

του ακουστικού μοντέλου.

Ουζούνης Γεώργιος PASR 4 Νοεμβρίου 2016 29 / 29