Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

Περιεχόμενα

• Εισαγωγή

• Αναπαράσταση

• Χαρακτηριστικά Ομιλίας και Μουσικής

• Κατηγοριοποίηση Ήχων

• Συστήματα ASR

• Δεικτοδότηση

Εισαγωγή

• Ο βασικός στόχος είναι η δυνατότητα αναπαράστασης, δεικτοδότησης και ανάκτησης ηχητικών δεδομένων.

• Τα ηχητικά δεδομένα μπορεί να είναι: ομιλία, μουσική, διάφοροι ήχοι.

• Ανάλογα με τη φύση του ήχου και τις ανάγκες αναζήτησης χρησιμοποιούνται διαφορετικές τεχνικές.

Μεθοδολογία

• Ο ήχος κατηγοριοποιείται ανάλογα με τη φύση του.

• Διαφορετικοί τύποι ήχου επεξεργάζονται και δεικτοδοτούνται με διαφορετικούς τρόπους.

• Οι ήχοι ερωτημάτων επεξεργάζονται με παρόμοιους τρόπους.

• Η ανάκτηση των ήχων πραγματοποιείται με βάση την ομοιότητα που παρατηρείται σε σχέση με το ήχο ερωτήματος.

Ήχος ως Κυματομορφή

• Ένα ηχητικό σήμα μπορεί να θεωρηθεί ως μία χρονική συνάρτηση που δίνει την ένταση του ηχητικού σήματος σε σχέση με το χρόνο

• Βασικά χαρακτηριστικά: περίοδος, συχνότητα, πλάτος

Ήχος ως Κυματομορφή

0 0.5 1 1.50

time (sec)

Figure 1: 2642.wav and RatedPG.wav

original signal 2642.wav

0 0.5 1 1.50

time (sec)

original signal RatedPG.wav

0 100 200 300 400 500 600 700 800 900 10000

frequency (Hz)

spectrum of 2642.wav spectrum of RatedPG.wav

Φάσμα Συχνοτήτων

0 0.5 1 1.50

time (sec)

Figure 1: 2642.wav and RatedPG.wav

original signal 2642.wav

0 0.5 1 1.50

time (sec)

original signal RatedPG.wav

0 100 200 300 400 500 600 700 800 900 10000

frequency (Hz)

spectrum of 2642.wav spectrum of RatedPG.wav

Επεξεργασία Κυματομορφών

• Το ηχητικό σήμα περνά από μία σειρά μετασχηματισμών έτσι ώστε να αποκτήσει μία μορφή εύκολη στη διαχείριση.

• Στόχος είναι η εξαγωγή κατάλληλων χαρακτηριστικών (features) που να αναπαριστούν το συγκεκριμένο ηχητικό σήμα.

• Παρόμοια τεχνική χρησιμοποιείται και σε άλλους multimedia τύπους δεδομένων (π.χ. εικόνες).

Τμηματοποίηση (Segmentation)

• Το ηχητικό σήμα τεμαχίζεται σε Ν τμήματα σύμφωνα με κάποιο χρονικό παράθυρο σταθερού ή μεταβλητού μήκους.

• Από κάθε τμήμα του ηχητικού σήματος εξάγονται τα χαρακτηριστικά (features).

• Εάν από κάθε τμήμα προκύπτουν Κ τιμές τότε το ηχητικό σήμα μπορεί να αναπαρασταθεί ως σύνολο Ν σημείων στον πραγματικό χώρο Κ διαστάσεων.

Χαρακτηριστικά (features)

• Ένταση (intensity)

• Ηχηρότητα (loudness)

• Τόνος (pitch)

• Διαύγεια (brightness)

Ένταση (intensity)

μ: πυκνότητα του υλικού μέσω του οποίου μεταδίδεται ο ήχος

f: συχνότητα

α: πλάτος σήματος

υ: ταχύτητα σήματος

Ηχηρότητα (loudness)

L0: ηχηρότητα της χαμηλότερης συχνότητας

Ι: ένταση σήματος

Τόνος (pitch)

Αποτελεί τιμή που προκύπτει ως συνάρτηση της συχνότητας και του πλάτους του σήματος p(f, a)

Διαύγεια (brightness)

Δηλώνει πόσο «καθαρό» είναι το σήμα στο συγκεκριμένο διάστημα που εξετάζουμε.

Κατηγοριοποίηση

Τα ηχητικά σήματα διαχωρίζονται στις ακόλουθες βασικές κατηγορίες:

- Ομιλία

- Μουσική

- Διάφοροι ήχοι

Ας δούμε με ποιον τρόπο μπορούμε να κατατάξουμε ένα ηχητικό σήμα.

Ήχος Ομιλίας

Το εύρος φάσματος (bandwidth) ενός σήματος ομιλίας είναι συνήθως μικρό σε σχέση με ένα μουσικό σήμα (100 έως 7000 Hz).

Η ομιλία χαρακτηρίζεται από συχνές παύσεις, μεταξύ λέξεων ή προτάσεων.

Ήχος Μουσικής

Το εύρος φάσματος είναι πολύ μεγαλύτερο από αυτό της ομιλίας (16 έως 20000 Hz).

Οι παύσεις είναι πολύ λιγότερες και μικρότερης διάρκειας.

Η μουσική χαρακτηρίζεται από ρυθμό που δεν υπάρχει στην ομιλία.

Μέθοδος Κατηγοριοποίησης

Υψηλό ΚέντροΦάσματος

ΜεγάλοςΡυθμός

Παύσεων

Μεγάλοςρυθμός ZR

Είσοδος Όχι Ναι Ναι

Ναι Όχι Όχι

Μουσική Μουσική

Ομιλία

Μουσική(solo)

Οργάνωση

Η κατηγοριοποίηση των ηχητικών σημάτων σε ομιλία και μουσική μας δίνει τη δυνατότητα να χειριστούμε και να οργανώσουμε τους ήχους με διαφορετικό τρόπο.

Ομιλία

Ένα ηχητικό σήμα ομιλίας περιέχει συλλαβές, λέξεις και προτάσεις.

Εφαρμόζονται μέθοδοι αναγνώρισης ομιλίας (speech recognition) ώστε να πάρουμε κείμενο.

Στη συνέχεια μπορούν να εφαρμοστούν οι γνωστές μέθοδοι ανάκτησης πληροφορίας κειμένου (text information retrieval).

Αναγνώριση Ομιλίας

Η αυτόματη αναγνώριση ομιλίας (automatic speech recognition) αποτελεί ειδική περίπτωση αναγνώρισης προτύπων (pattern recognition).

Η μικρότερη μονάδα πληροφορίας είναι το φώνημα (phoneme).

Στόχος είναι η αναγνώριση όλων των φωνημάτων που περιέχονται σε έναν ήχο ομιλίας.

Ένα σύστημα ASR λειτουργεί σε δύο φάσεις:

- φάση εκπαίδευσης

- φάση ταιριάσματος (matching)

Κατά τη φάση εκπαίδευσης προσδιορίζονται τα χαρακτηριστικά (features) από κάθε σήμα ομιλίας και αποθηκεύονται στη βάση δεδομένων.

Στη φάση της αναγνώρισης, εξάγονται χαρακτηριστικά από το σήμα εισόδου και στη συνέχεια βρίσκουμε το αποθηκευμένο πρότυπο που ταιριάζει καλύτερα στην είσοδο.

• Εάν το κάθε φώνημα μπορεί να αναπαρασταθεί ως ένα διάνυσμα χαρακτηριστικών (feature vector) σε ένα χώρο πολλών διαστάσεων, τότε το πρόβλημα της αναγνώρισης είναι απλό.

• Στην πράξη όμως έχουμε προβλήματα τα οποία οφείλονται στους ακόλουθους παράγοντες:

Ένα φώνημα το οποίο προέρχεται από διαφορετικούς ομιλητές ή από τον ίδιο ομιλητή σε διαφορετικές χρονικές στιγμές, μπορεί να έχει διαφορετικά χαρακτηριστικά (συχνότητες, πλάτος, κλπ). Επομένως δεν μπορούμε να έχουμε 100% αντιστοίχιση.

Σε ένα σήμα πάντα υπάρχει και κάποιο ποσοστό θορύβου (noise). Ο θόρυβος προκαλεί διάφορα προβλήματα με αποτέλεσμα τα χαρακτηριστικά που προκύπτουν για το φώνημα να μην ανταποκρίνονται στην πραγματικότητα.

Ο κανονικός λόγος έχει συνεχόμενη ροή και έτσι δεν είναι πάντα εύκολο να διαχωρίσουμε τα φωνήματα μεταξύ τους. Σε αυτό συντελεί και το ότι διαφορετικά φωνήματα έχουν διαφορετική χρονική διάρκεια.

Τα χαρακτηριστικά ενός φωνήματος μπορεί να μεταβληθούν ανάλογα με τη θέση του φωνήματος μέσα στη λέξη. Τα χαρακτηριστικά μεταβάλλονται ανάλογα με τον «περίγυρο» του φωνήματος.

Τα παραπάνω προβλήματα δεν μπορούσαν να επιλυθούν πριν μερικά χρόνια, με αποτέλεσμα τα πρώτα ASR συστήματα λειτουργούσαν με συγκεκριμένες προϋποθέσεις (έπρεπε να υπάρχουν παύσεις μεταξύ των λέξεων, κλπ).

Αρχιτεκτονική Συστήματος ASR

ΠροεπεξεργασίαΕξαγωγή χαρακτηριστικών

Ομιλία Εκπαίδευσης

ΜοντελοποίησηΦωνημάτωνΛέξεις Ομιλίας Εκπαίδευσης

ΜοντέλαΦωνημάτων

Λεξικό καιΓραμματική

Αναζήτηση καιΤαίριασμα

ΕίσοδοςΠροεπεξεργασία

Εξαγωγή χαρακτηριστικών

Έξοδος

Τεχνικές

• Dynamic Time Warping

• Hidden Markov Models

• Artificial Neural Networks

Time Warping

Χρόνος

ΤιμήΧαρακτηριστικού

Χρόνος

ΤιμήΧαρακτηριστικού

Διαχείριση Μουσικής

Η οργάνωση και αναζήτηση μουσικών ήχων μπορεί να πραγματοποιηθεί με δύο μεθόδους:

- με βάση τα χαρακτηριστικά (features)

- με βάση τον τόνο (pitch)

Χαρακτηριστικά Μουσικής

Από κάθε ήχο εξάγεται ένα σύνολο N τιμών. Το διάνυσμα που προκύπτει μπορεί να χρησιμοποιηθεί για τη σύγκριση και την ταύτιση μουσικών ήχων.

Έχουν χρησιμοποιηθεί με επιτυχία τα ακόλουθα χαρακτηριστικά: ηχηρότητα, τόνος, διαύγεια, εύρος φάσματος, και αρμονικότητα.

Τα χαρακτηριστικά αυτά μεταβάλλονται ως προς το χρόνο και επομένως υπολογίζονται σε τμήματα του μουσικού ήχου.

Για το κάθε χαρακτηριστικό χρησιμοποιείται η μέση τιμή, η μεταβλητότητα (variance) και η αυτοσυσχέτιση (autocorrelation).

Για την ταύτιση μεταξύ μουσικών ήχων χρησιμοποιείται κάποια απόσταση (π.χ. Ευκλείδια ή Manhattan, κ.α.).

Ήχοι με μικρή απόσταση μεταξύ τους χαρακτηρίζονται ως όμοιοι.

Αναζήτηση με Τόνους

• Μετατροπή του μουσικού ήχου σε συμβολοσειρά.

• Κάθε νότα μουσικής παριστάνεται με τον αντίστοιχο τόνο (pitch).

• Επομένως ένα μουσικό κομμάτι θεωρείται μία αλληλουχία από τόνους.

Μέθοδος Α

Όλοι οι τόνοι εκτός του πρώτου παριστάνονται με UP, DOWN, SIMILAR

Μέθοδος Β

Κάθε τόνος παριστάνεται με μία τιμή από ένα σύνολο γνωστών τιμών

Και με τους δύο τρόπους ο μουσικός ήχος μετατρέπεται σε σειρά χαρακτήρων (character string).

Στη συνέχεια μπορούμε να χρησιμοποιήσουμε τεχνικές ακριβούς ή προσεγγιστικής ταύτισης μεταξύ συμβολοσειρών.

Υπάρχουν αρκετές μέθοδοι στη διεθνή βιβλιογραφία που αναφέρονται στο πρόβλημα αυτό.

Προχωρημένα Θέματα

Το Σύστημα MusArt

http://www.dlib.org/dlib/february02/birmingham/02birmingham.html

Άλλοι Ήχοι

Σε περίπτωση που το ηχητικό σήμα δεν είναι ούτε ομιλία ούτε μουσική τότε μπορεί να χρησιμοποιηθεί ο γενικός τρόπος οργάνωσης και αναζήτησης GEMINI, με χρήση κάποιου μετασχηματισμού (π.χ. DFT) και μίας συνάρτησης ομοιότητας μεταξύ των ήχων (π.χ. Ευκλείδια απόσταση).

Δεικτοδότηση

Ανάλογα με τον τύπο και την αναπαράσταση των ηχητικών σημάτων μπορούμε να χρησιμοποιήσουμε διαφορετικές τεχνικές δεικτοδότησης με στόχο την αύξηση της απόδοσης του συστήματος κατά την επεξεργασία ερωτημάτων ομοιότητας (similarity search)

Στην περίπτωση των ήχων ομιλίας μπορούμε να χρησιμοποιήσουμε τεχνικές αντεστραμμένου αρχείου, suffix tree, suffix array, signature file.

Αυτό συμβαίνει διότι έχει πραγματοποιηθεί η μετατροπή του ηχητικού σήματος σε φωνήματα ή λέξεις.

Στην περίπτωση της πολυδιάστατης αναπαράστασης ηχητικών σημάτων με βάση τα χαρακτηριστικά μπορούμε να χρησιμοποιήσουμε πολυδιάστατες μεθόδους προσπέλασης (R-trees, TV-trees, X-trees) οι οποίες έχουν καλή απόδοση και υποστηρίζουν την αναζήτηση δύο φάσεων (filter-refinement)

Βασικοί Στόχοι Δεικτοδότησης

• Αποφυγή της σειριακής αναζήτησης όλων των ήχων.

• Μείωση του αριθμού των ήχων που πρέπει να εξεταστούν στη λεπτομέρειά τους.

• Γρήγορη απόρριψη ήχων που δεν είναι δυνατόν να συμμετέχουν στην απάντηση του ερωτήματος.

• Υποστήριξη audio retrieval by content.

Σύνοψη

• Ο ήχος αποτελεί βασικό πολυμεσικό τύπο δεδομένων.

• Τα χαρακτηριστικά του μεταβάλλονται σε σχέση με το χρόνο.

• Διαχωρίζουμε τον ήχο σε ομιλία και μουσική.

• Υπάρχουν αυτόματοι τρόποι κατηγοριοποίησης του ήχου ανάλογα με τις τιμές κάποιων χαρακτηριστικών του.

Σύνοψη

• Στην περίπτωση ήχου ομιλίας χρησιμοποιούνται συστήματα ASR και στη συνέχεια συστήματα text information retrieval.

• Στην περίπτωση ήχου μουσικής χρησιμοποιούνται είτε διάφορα χαρακτηριστικά (ηχηρότητα, διαύγεια κλπ) είτε τονικές ακολουθίες.

Σύνοψη

• Σε κάθε περίπτωση απαιτούνται αποδοτικές μέθοδοι δεικτοδότησης ώστε να προσδιοριστούν τα ηχητικά σήματα που είναι παρόμοια με τον ήχο ερώτησης.

Ενδιαφέροντα URL

http://www.musclefish.com

http://www.fxpal.com/people/foote/musicr/doc129.html

Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

Documents

Transcript of Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου

Αναζήτηση εργασίας στο Internet

Φυσική Εικόνας & Ήχου ΙΙ (Ε) · 2015-12-17 · Φυσική Εικόνας & Ήχου ΙΙ (Ε) Ενότητα 4: Φωτομετρικά μεγέθη – πολική

Αναζήτηση Κατά Πλάτος

« Η Αναζήτηση της εξουσίας: H έννοια της κυριαρχίας στον ROUSEAU»

Η θεωρητική, φιλοσοφική και επιστημονική αναζήτηση του σωματιδίου ΧΙΓΚΣ

Επιτυχημένη Συνέντευξη – Τα social media στην αναζήτηση εργασίας

Μελέτη Υδατοσήμανσης Ψηφιακού Ήχου

Αναζήτηση και ταξινόμηση · κεφ. 9. Αναζήτηση σε πίνακα ακεραίων ... 3. επαναλαμβάνουμε τα βήματα 1 και

Στην Αναζήτηση Του Θαυμαστού

Μάθημα 2o-Σχεδιασμός εργασίας και αναζήτηση βιβλιογραφίας

Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων ...Βιοπληροφορική Ενότητα 8: Αναζήτηση Ομοιοτήτων

Αναπαράσταση Θρακιώτικου Γάμου - 2004

2η πανελλήνια ημέρα σχολικού αθλητισμού». αναπαράσταση αφής ολυμπιακής φλόγαςpptx

Αναζήτηση ΚΑΔ TAXnews

Παραμετρική αναπαράσταση συνθέτων καμπυλών

Αναζήτηση Ιατρικής Πληροφορίας στο Medline

Αναζήτηση ( Search)

Σειριακή Αναζήτηση

ΚΕΦΑΛΑΙΟ 6 Η σύνθεση του ήχου · 2016-06-28 · 139 ΚΕΦΑΛΑΙΟ 6 Η σύνθεση του ήχου Σύνοψη Η μεταπαραγωγή του ήχου

Αναζήτηση στον Ιστόe-learning.sch.gr/pluginfile.php/1279/mod_resource/... · 2006. 10. 17. · Αναζήτηση στον Ιστό Χρήση μιας μηχανής