Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

51
1 Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

description

Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου. Περιεχόμενα. Εισαγωγή Αναπαράσταση Χαρακτηριστικά Ομιλίας και Μουσικής Κατηγοριοποίηση Ήχων Συστήματα ASR Δεικτοδότηση. Εισαγωγή. Ο βασικός στόχος είναι η δυνατότητα αναπαράστασης, δεικτοδότησης και ανάκτησης ηχητικών δεδομένων. - PowerPoint PPT Presentation

Transcript of Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

Page 1: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

1

Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

Page 2: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

2

Περιεχόμενα

• Εισαγωγή

• Αναπαράσταση

• Χαρακτηριστικά Ομιλίας και Μουσικής

• Κατηγοριοποίηση Ήχων

• Συστήματα ASR

• Δεικτοδότηση

Page 3: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

3

Εισαγωγή

• Ο βασικός στόχος είναι η δυνατότητα αναπαράστασης, δεικτοδότησης και ανάκτησης ηχητικών δεδομένων.

• Τα ηχητικά δεδομένα μπορεί να είναι: ομιλία, μουσική, διάφοροι ήχοι.

• Ανάλογα με τη φύση του ήχου και τις ανάγκες αναζήτησης χρησιμοποιούνται διαφορετικές τεχνικές.

Page 4: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

4

Μεθοδολογία

• Ο ήχος κατηγοριοποιείται ανάλογα με τη φύση του.

• Διαφορετικοί τύποι ήχου επεξεργάζονται και δεικτοδοτούνται με διαφορετικούς τρόπους.

• Οι ήχοι ερωτημάτων επεξεργάζονται με παρόμοιους τρόπους.

• Η ανάκτηση των ήχων πραγματοποιείται με βάση την ομοιότητα που παρατηρείται σε σχέση με το ήχο ερωτήματος.

Page 5: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

5

Ήχος ως Κυματομορφή

• Ένα ηχητικό σήμα μπορεί να θεωρηθεί ως μία χρονική συνάρτηση που δίνει την ένταση του ηχητικού σήματος σε σχέση με το χρόνο

• Βασικά χαρακτηριστικά: περίοδος, συχνότητα, πλάτος

Page 6: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

6

Ήχος ως Κυματομορφή

Page 7: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

7

Ήχος ως Κυματομορφή

0 0.5 1 1.50

50

100

150

200

250

300

time (sec)

Figure 1: 2642.wav and RatedPG.wav

original signal 2642.wav

0 0.5 1 1.50

50

100

150

200

250

300

time (sec)

original signal RatedPG.wav

0 100 200 300 400 500 600 700 800 900 10000

5

10

15

20

25

30

frequency (Hz)

spectrum of 2642.wav spectrum of RatedPG.wav

Page 8: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

8

Φάσμα Συχνοτήτων

0 0.5 1 1.50

50

100

150

200

250

300

time (sec)

Figure 1: 2642.wav and RatedPG.wav

original signal 2642.wav

0 0.5 1 1.50

50

100

150

200

250

300

time (sec)

original signal RatedPG.wav

0 100 200 300 400 500 600 700 800 900 10000

5

10

15

20

25

30

frequency (Hz)

spectrum of 2642.wav spectrum of RatedPG.wav

Page 9: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

9

Επεξεργασία Κυματομορφών

• Το ηχητικό σήμα περνά από μία σειρά μετασχηματισμών έτσι ώστε να αποκτήσει μία μορφή εύκολη στη διαχείριση.

• Στόχος είναι η εξαγωγή κατάλληλων χαρακτηριστικών (features) που να αναπαριστούν το συγκεκριμένο ηχητικό σήμα.

• Παρόμοια τεχνική χρησιμοποιείται και σε άλλους multimedia τύπους δεδομένων (π.χ. εικόνες).

Page 10: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

10

Τμηματοποίηση (Segmentation)

• Το ηχητικό σήμα τεμαχίζεται σε Ν τμήματα σύμφωνα με κάποιο χρονικό παράθυρο σταθερού ή μεταβλητού μήκους.

• Από κάθε τμήμα του ηχητικού σήματος εξάγονται τα χαρακτηριστικά (features).

• Εάν από κάθε τμήμα προκύπτουν Κ τιμές τότε το ηχητικό σήμα μπορεί να αναπαρασταθεί ως σύνολο Ν σημείων στον πραγματικό χώρο Κ διαστάσεων.

Page 11: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

11

Χαρακτηριστικά (features)

• Ένταση (intensity)

• Ηχηρότητα (loudness)

• Τόνος (pitch)

• Διαύγεια (brightness)

Page 12: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

12

Χαρακτηριστικά (features)

Ένταση (intensity)

μ: πυκνότητα του υλικού μέσω του οποίου μεταδίδεται ο ήχος

f: συχνότητα

α: πλάτος σήματος

υ: ταχύτητα σήματος

Page 13: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

13

Χαρακτηριστικά (features)

Ηχηρότητα (loudness)

L0: ηχηρότητα της χαμηλότερης συχνότητας

Ι: ένταση σήματος

Page 14: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

14

Χαρακτηριστικά (features)

Τόνος (pitch)

Αποτελεί τιμή που προκύπτει ως συνάρτηση της συχνότητας και του πλάτους του σήματος p(f, a)

Page 15: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

15

Χαρακτηριστικά (features)

Διαύγεια (brightness)

Δηλώνει πόσο «καθαρό» είναι το σήμα στο συγκεκριμένο διάστημα που εξετάζουμε.

Page 16: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

16

Κατηγοριοποίηση

Τα ηχητικά σήματα διαχωρίζονται στις ακόλουθες βασικές κατηγορίες:

- Ομιλία

- Μουσική

- Διάφοροι ήχοι

Ας δούμε με ποιον τρόπο μπορούμε να κατατάξουμε ένα ηχητικό σήμα.

Page 17: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

17

Ήχος Ομιλίας

Το εύρος φάσματος (bandwidth) ενός σήματος ομιλίας είναι συνήθως μικρό σε σχέση με ένα μουσικό σήμα (100 έως 7000 Hz).

Η ομιλία χαρακτηρίζεται από συχνές παύσεις, μεταξύ λέξεων ή προτάσεων.

Page 18: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

18

Ήχος Μουσικής

Το εύρος φάσματος είναι πολύ μεγαλύτερο από αυτό της ομιλίας (16 έως 20000 Hz).

Οι παύσεις είναι πολύ λιγότερες και μικρότερης διάρκειας.

Η μουσική χαρακτηρίζεται από ρυθμό που δεν υπάρχει στην ομιλία.

Page 19: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

19

Μέθοδος Κατηγοριοποίησης

Υψηλό ΚέντροΦάσματος

ΜεγάλοςΡυθμός

Παύσεων

Μεγάλοςρυθμός ZR

Είσοδος Όχι Ναι Ναι

Ναι Όχι Όχι

Μουσική Μουσική

Ομιλία

Μουσική(solo)

Page 20: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

20

Οργάνωση

Η κατηγοριοποίηση των ηχητικών σημάτων σε ομιλία και μουσική μας δίνει τη δυνατότητα να χειριστούμε και να οργανώσουμε τους ήχους με διαφορετικό τρόπο.

Page 21: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

21

Ομιλία

Ένα ηχητικό σήμα ομιλίας περιέχει συλλαβές, λέξεις και προτάσεις.

Εφαρμόζονται μέθοδοι αναγνώρισης ομιλίας (speech recognition) ώστε να πάρουμε κείμενο.

Στη συνέχεια μπορούν να εφαρμοστούν οι γνωστές μέθοδοι ανάκτησης πληροφορίας κειμένου (text information retrieval).

Page 22: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

22

Αναγνώριση Ομιλίας

Η αυτόματη αναγνώριση ομιλίας (automatic speech recognition) αποτελεί ειδική περίπτωση αναγνώρισης προτύπων (pattern recognition).

Η μικρότερη μονάδα πληροφορίας είναι το φώνημα (phoneme).

Στόχος είναι η αναγνώριση όλων των φωνημάτων που περιέχονται σε έναν ήχο ομιλίας.

Page 23: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

23

Αναγνώριση Ομιλίας

Ένα σύστημα ASR λειτουργεί σε δύο φάσεις:

- φάση εκπαίδευσης

- φάση ταιριάσματος (matching)

Page 24: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

24

Αναγνώριση Ομιλίας

Κατά τη φάση εκπαίδευσης προσδιορίζονται τα χαρακτηριστικά (features) από κάθε σήμα ομιλίας και αποθηκεύονται στη βάση δεδομένων.

Στη φάση της αναγνώρισης, εξάγονται χαρακτηριστικά από το σήμα εισόδου και στη συνέχεια βρίσκουμε το αποθηκευμένο πρότυπο που ταιριάζει καλύτερα στην είσοδο.

Page 25: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

25

Αναγνώριση Ομιλίας

• Εάν το κάθε φώνημα μπορεί να αναπαρασταθεί ως ένα διάνυσμα χαρακτηριστικών (feature vector) σε ένα χώρο πολλών διαστάσεων, τότε το πρόβλημα της αναγνώρισης είναι απλό.

• Στην πράξη όμως έχουμε προβλήματα τα οποία οφείλονται στους ακόλουθους παράγοντες:

Page 26: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

26

Αναγνώριση Ομιλίας

Ένα φώνημα το οποίο προέρχεται από διαφορετικούς ομιλητές ή από τον ίδιο ομιλητή σε διαφορετικές χρονικές στιγμές, μπορεί να έχει διαφορετικά χαρακτηριστικά (συχνότητες, πλάτος, κλπ). Επομένως δεν μπορούμε να έχουμε 100% αντιστοίχιση.

Page 27: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

27

Αναγνώριση Ομιλίας

Σε ένα σήμα πάντα υπάρχει και κάποιο ποσοστό θορύβου (noise). Ο θόρυβος προκαλεί διάφορα προβλήματα με αποτέλεσμα τα χαρακτηριστικά που προκύπτουν για το φώνημα να μην ανταποκρίνονται στην πραγματικότητα.

Page 28: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

28

Αναγνώριση Ομιλίας

Ο κανονικός λόγος έχει συνεχόμενη ροή και έτσι δεν είναι πάντα εύκολο να διαχωρίσουμε τα φωνήματα μεταξύ τους. Σε αυτό συντελεί και το ότι διαφορετικά φωνήματα έχουν διαφορετική χρονική διάρκεια.

Page 29: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

29

Αναγνώριση Ομιλίας

Τα χαρακτηριστικά ενός φωνήματος μπορεί να μεταβληθούν ανάλογα με τη θέση του φωνήματος μέσα στη λέξη. Τα χαρακτηριστικά μεταβάλλονται ανάλογα με τον «περίγυρο» του φωνήματος.

Page 30: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

30

Αναγνώριση Ομιλίας

Τα παραπάνω προβλήματα δεν μπορούσαν να επιλυθούν πριν μερικά χρόνια, με αποτέλεσμα τα πρώτα ASR συστήματα λειτουργούσαν με συγκεκριμένες προϋποθέσεις (έπρεπε να υπάρχουν παύσεις μεταξύ των λέξεων, κλπ).

Page 31: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

31

Αρχιτεκτονική Συστήματος ASR

ΠροεπεξεργασίαΕξαγωγή χαρακτηριστικών

Ομιλία Εκπαίδευσης

ΜοντελοποίησηΦωνημάτωνΛέξεις Ομιλίας Εκπαίδευσης

ΜοντέλαΦωνημάτων

Λεξικό καιΓραμματική

Αναζήτηση καιΤαίριασμα

ΕίσοδοςΠροεπεξεργασία

Εξαγωγή χαρακτηριστικών

Έξοδος

Page 32: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

32

Τεχνικές

• Dynamic Time Warping

• Hidden Markov Models

• Artificial Neural Networks

Page 33: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

33

Time Warping

Χρόνος

ΤιμήΧαρακτηριστικού

Χρόνος

ΤιμήΧαρακτηριστικού

Page 34: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

34

Διαχείριση Μουσικής

Η οργάνωση και αναζήτηση μουσικών ήχων μπορεί να πραγματοποιηθεί με δύο μεθόδους:

- με βάση τα χαρακτηριστικά (features)

- με βάση τον τόνο (pitch)

Page 35: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

35

Χαρακτηριστικά Μουσικής

Από κάθε ήχο εξάγεται ένα σύνολο N τιμών. Το διάνυσμα που προκύπτει μπορεί να χρησιμοποιηθεί για τη σύγκριση και την ταύτιση μουσικών ήχων.

Page 36: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

36

Χαρακτηριστικά Μουσικής

Έχουν χρησιμοποιηθεί με επιτυχία τα ακόλουθα χαρακτηριστικά: ηχηρότητα, τόνος, διαύγεια, εύρος φάσματος, και αρμονικότητα.

Τα χαρακτηριστικά αυτά μεταβάλλονται ως προς το χρόνο και επομένως υπολογίζονται σε τμήματα του μουσικού ήχου.

Για το κάθε χαρακτηριστικό χρησιμοποιείται η μέση τιμή, η μεταβλητότητα (variance) και η αυτοσυσχέτιση (autocorrelation).

Page 37: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

37

Χαρακτηριστικά Μουσικής

Για την ταύτιση μεταξύ μουσικών ήχων χρησιμοποιείται κάποια απόσταση (π.χ. Ευκλείδια ή Manhattan, κ.α.).

Ήχοι με μικρή απόσταση μεταξύ τους χαρακτηρίζονται ως όμοιοι.

Page 38: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

38

Αναζήτηση με Τόνους

• Μετατροπή του μουσικού ήχου σε συμβολοσειρά.

• Κάθε νότα μουσικής παριστάνεται με τον αντίστοιχο τόνο (pitch).

• Επομένως ένα μουσικό κομμάτι θεωρείται μία αλληλουχία από τόνους.

Page 39: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

39

Αναζήτηση με Τόνους

Μέθοδος Α

Όλοι οι τόνοι εκτός του πρώτου παριστάνονται με UP, DOWN, SIMILAR

Μέθοδος Β

Κάθε τόνος παριστάνεται με μία τιμή από ένα σύνολο γνωστών τιμών

Page 40: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

40

Αναζήτηση με Τόνους

Και με τους δύο τρόπους ο μουσικός ήχος μετατρέπεται σε σειρά χαρακτήρων (character string).

Στη συνέχεια μπορούμε να χρησιμοποιήσουμε τεχνικές ακριβούς ή προσεγγιστικής ταύτισης μεταξύ συμβολοσειρών.

Υπάρχουν αρκετές μέθοδοι στη διεθνή βιβλιογραφία που αναφέρονται στο πρόβλημα αυτό.

Page 41: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

41

Προχωρημένα Θέματα

Page 42: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

42

Το Σύστημα MusArt

http://www.dlib.org/dlib/february02/birmingham/02birmingham.html

Page 43: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

43

Άλλοι Ήχοι

Σε περίπτωση που το ηχητικό σήμα δεν είναι ούτε ομιλία ούτε μουσική τότε μπορεί να χρησιμοποιηθεί ο γενικός τρόπος οργάνωσης και αναζήτησης GEMINI, με χρήση κάποιου μετασχηματισμού (π.χ. DFT) και μίας συνάρτησης ομοιότητας μεταξύ των ήχων (π.χ. Ευκλείδια απόσταση).

Page 44: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

44

Δεικτοδότηση

Ανάλογα με τον τύπο και την αναπαράσταση των ηχητικών σημάτων μπορούμε να χρησιμοποιήσουμε διαφορετικές τεχνικές δεικτοδότησης με στόχο την αύξηση της απόδοσης του συστήματος κατά την επεξεργασία ερωτημάτων ομοιότητας (similarity search)

Page 45: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

45

Δεικτοδότηση

Στην περίπτωση των ήχων ομιλίας μπορούμε να χρησιμοποιήσουμε τεχνικές αντεστραμμένου αρχείου, suffix tree, suffix array, signature file.

Αυτό συμβαίνει διότι έχει πραγματοποιηθεί η μετατροπή του ηχητικού σήματος σε φωνήματα ή λέξεις.

Page 46: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

46

Δεικτοδότηση

Στην περίπτωση της πολυδιάστατης αναπαράστασης ηχητικών σημάτων με βάση τα χαρακτηριστικά μπορούμε να χρησιμοποιήσουμε πολυδιάστατες μεθόδους προσπέλασης (R-trees, TV-trees, X-trees) οι οποίες έχουν καλή απόδοση και υποστηρίζουν την αναζήτηση δύο φάσεων (filter-refinement)

Page 47: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

47

Βασικοί Στόχοι Δεικτοδότησης

• Αποφυγή της σειριακής αναζήτησης όλων των ήχων.

• Μείωση του αριθμού των ήχων που πρέπει να εξεταστούν στη λεπτομέρειά τους.

• Γρήγορη απόρριψη ήχων που δεν είναι δυνατόν να συμμετέχουν στην απάντηση του ερωτήματος.

• Υποστήριξη audio retrieval by content.

Page 48: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

48

Σύνοψη

• Ο ήχος αποτελεί βασικό πολυμεσικό τύπο δεδομένων.

• Τα χαρακτηριστικά του μεταβάλλονται σε σχέση με το χρόνο.

• Διαχωρίζουμε τον ήχο σε ομιλία και μουσική.

• Υπάρχουν αυτόματοι τρόποι κατηγοριοποίησης του ήχου ανάλογα με τις τιμές κάποιων χαρακτηριστικών του.

Page 49: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

49

Σύνοψη

• Στην περίπτωση ήχου ομιλίας χρησιμοποιούνται συστήματα ASR και στη συνέχεια συστήματα text information retrieval.

• Στην περίπτωση ήχου μουσικής χρησιμοποιούνται είτε διάφορα χαρακτηριστικά (ηχηρότητα, διαύγεια κλπ) είτε τονικές ακολουθίες.

Page 50: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

50

Σύνοψη

• Σε κάθε περίπτωση απαιτούνται αποδοτικές μέθοδοι δεικτοδότησης ώστε να προσδιοριστούν τα ηχητικά σήματα που είναι παρόμοια με τον ήχο ερώτησης.

Page 51: Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

51

Ενδιαφέροντα URL

http://www.musclefish.com

http://www.fxpal.com/people/foote/musicr/doc129.html