Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β)...

101
Τεχνολογία Πολυμέσων Ενότητα 7: Ήχος Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Transcript of Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β)...

Page 1: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Τεχνολογία Πολυμέσων

Ενότητα 7: Ήχος

Νικολάου Σπύρος

Τμήμα Μηχανικών Πληροφορικής ΤΕ

Page 2: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Άδειες Χρήσης

• Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

• Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς.

2

Page 3: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Χρηματοδότηση• Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια

του εκπαιδευτικού έργου του διδάσκοντα.

• Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο TEI Δυτικής Μακεδονίας και στην Ανώτατη Εκκλησιαστική Ακαδημία Θεσσαλονίκης» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού.

• Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.

3

Page 4: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Σκοποί ενότητας

• Η ενότητα αυτή πραγματεύεται ζητήματα σχετικά με το ήχο.

4

Page 5: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Περιεχόμενα ενότητας (1/2)

• Λειτουργία του αυτιού.

• Η φυσική του ήχου.

• Βασικά χαρακτηριστικά του ήχου.

• Ψηφιοποίηση του ήχου.

• Μέθοδοι κωδικοποίησης ήχου.

• Μέθοδοι συμπίεσης ήχου.

• Πρότυπα MPEG.

5

Page 6: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Περιεχόμενα ενότητας (2/2)

• Συμπίεση κατά MP3.

• Μορφοποιήσεις αρχείων ψηφιακού ήχου.

• Τύποι αρχείων ψηφιακού ήχου.

• Ήχος και εφαρμογές πολυμέσων.

6

Page 7: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ήχος

Page 8: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Η λειτουργία του αυτιού (1/2)

• Ο ήχος είναι ένα ακουστικό κύμα που δημιουργείται από τις μεταβολές στην πίεση των μορίων του αέρα ή άλλου μέσου, καθώς δονείται ένα υλικό.

• Το ακουστικό κύμα μεταδίδεται και φθάνει στο ανθρώπινο ακουστικό νεύρο, από το οποίο μεταφέρεται στον εγκέφαλο όπου και μεταφράζεται σε ήχους.

• Auricle: Κόγχη ή πτερύγιο.

8

Page 9: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Η λειτουργία του αυτιού (2/2)

• Eardrum: Τυμπανική μεμβράνη.

• Hammer: Σφύρα.

• Anvil: Άκμονας.

• Stirrup: Αναβολέας.

• Cochlea: Κοχλίας.

• Eustachian Tube: Ευσταχιανή σάλπιγγα.

9

Page 10: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

• Ήχος:

– Δόνηση των μορίων ενός μέσου.

– Διάδοση ακουστικού κύματος στο μέσο όπου συμβαίνει η δόνηση.

– Μεταβολές πίεσης (πυκνώματα και αραιώματα) που μεταδίδονται με μια ορισμένη ταχύτητα.

– Ταλάντωση των μορίων ενός μέσου αναπαρίσταται γραφικά ως μια αρμονική ημιτονοειδής καμπύλη.

Η φυσική του ήχου (1/3)

10

Page 11: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

• Συχνότητα ήχου:

– Δονήσεις (κύκλοι)/sec [Hertz ή Hz].

– Ανθρώπινη ακοή 20Hz – 20.000Hz.

– Υπόηχοι < 20Hz.

– Υπέρηχοι > 20kHz.

• Ένταση ήχου:

– Ισχύς της δόνησης.

– Καθορίζεται από το πλάτος της δόνησης, δηλαδή την απόσταση του μέγιστου σημείου της καμπύλης από τη μέση τιμή της (σημείο ισορροπίας).

Η φυσική του ήχου (2/3)

11

Page 12: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Η φυσική του ήχου (3/3)

Εικόνα 1: Η φυσική του ήχου. Πηγή: Διδάσκων (2015).

12

Page 13: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Βασικά χαρακτηριστικά του ήχου (1/3)

• Αντικειμενικά χαρακτηριστικά του ήχου.

– Συχνότητα:

• Ορίζει τον αριθμό των ολοκληρωμένων δονήσεων (κύκλων) στη μονάδα του χρόνου και μετράται σε κύκλους ανά δευτερόλεπτο ή Hertz (Hz).

– Ένταση:

• Καθορίζεται από το πλάτος της δόνησης. Όσο μεγαλύτερο το πλάτος, τόσο ισχυρότερα ακούγεται ο ήχος.

13

Page 14: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Βασικά χαρακτηριστικά του ήχου (2/3)

• Υποκειμενικά χαρακτηριστικά του ήχου.

– Ακουστικότητα:

• Είναι η υποκειμενική αίσθηση της έντασης του ήχου κι εξαρτάται από την ακουστική ικανότητα του ακροατή. Οι ήχοι διακρίνονται σε ασθενείς και ισχυρούς.

– Ύψος:

• Έχει σχέση με την συχνότητα του ήχου. Ανάλογα με το ύψος τους διακρίνουμε τους ήχους σε οξείς (μεγάλης συχνότητας) και βαρείς (μικρής συχνότητας).

14

Page 15: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Βασικά χαρακτηριστικά του ήχου (3/3)

• Υποκειμενικά χαρακτηριστικά του ήχου (Συνέχεια).

– Χροιά:

• Η χροιά ή ηχόχρωμα επιτρέπει να ξεχωρίσουμε δύο ήχους που έχουν ίδιο ύψος κι ένταση. Αφορά σύνθετους ήχους που έχουν ίδια συχνότητα αλλά διαφορετικές αρμονικές.

• Οι αρμονικές είναι υποσυχνότητες, πολλαπλάσια μιας βασικής συχνότητας. Οι αρμονικές μαζί με αυτή τη βασική συχνότητα συνθέτουν την τελική συχνότητα του ήχου.

15

Page 16: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μονάδα decibel - db (1/5)

• Η ανθρώπινη ακοή είναι «λογαριθμική» & όχι γραμμική.

• Σχετική διαφορά ισχύος δύο ήχων = 10 log (P/ Po) σε decibel (db) .

– P η τιμή ισχύος του ήχου.

– Po τιμή ήχου αναφοράς (10-12 Watt/m2).

16

Page 17: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μονάδα decibel - db (2/5)

• Το decibel (db) είναι «σχετική» μονάδα, δηλαδή συγκρίνει το μετρούμενο μέγεθος (Ρ) με μία στάθμη αναφοράς (Po).– Ίδια ισχύς P = Po Διαφορά = 0 db σχεδόν απόλυτη

ησυχία.

– Διπλασιασμός της ισχύος P = 2 Po σημαίνει αύξηση κατά 3 db.

– Π.χ. ένας ήχος 10 φορές πιο ισχυρός από την απόλυτη σιγή αντιστοιχεί σε ένταση 10 db, ενώ ένας ήχος 100 φορές πιο ισχυρός από την απόλυτη σιγή αντιστοιχεί σε ένταση 20 db.

17

Page 18: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μονάδα decibel - db (3/5)

• Η υποκειμενική αίσθηση μεταξύ των εντάσεων δύο ήχων δεν εξαρτάται από την απόλυτη τιμή της διαφοράς τους αλλά από το λόγο τους.

– Π.χ. αύξηση της έντασης του ήχου από 2 σε 4 μWatt/m2 είναι το ίδιο με την αύξηση από 5 σε 10 μWatt/m2.

18

Page 19: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

• Ένταση ήχου = 10 log (P2/P1) db.

Εικόνα 2: Η μονάδα decibel. Πηγή: Διδάσκων (2015).

Μονάδα decibel - db (4/5)

19

Page 20: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μονάδα decibel - db (5/5)

Απόλυτη ησυχία 0 db

Ψίθυρος 15 db

Συζήτηση 60 db

Μηχανή κουρέματος γκαζόν 90 db

Κόρνα αυτοκινήτου 110 db

Συναυλία Ροκ συγκροτήματος 120 db

Πυροβολισμός - Έκρηξη 140 db

Πίνακας 1: Ενδεικτικές τιμές decibel (db) συνηθισμένων ήχων. Πηγή: Διδάσκων (2015).

20

Page 21: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ψηφιοποίηση του ήχου (1/3)

• Η διαδικασία της μετατροπής του αναλογικού σήματος ήχου σε ψηφιακή μορφή ονομάζεται ψηφιοποίηση.

• Η ψηφιοποίηση πραγματοποιείται με τη βοήθεια κατάλληλου υλικού (μικρόφωνα, κάρτες ήχου) με τη χρήση μετατροπέων ADC (Analog-to-Digital-Converters) και DAC (Digital-to-Analog-Converters).

• H ψηφιοποίηση πραγματοποιείται σε τρεις φάσεις:

– Δειγματοληψία.

– Κβαντοποίηση.

– Κωδικοποίηση.

21

Page 22: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ψηφιοποίηση του ήχου (2/3)

Εικόνα 3: Διαδικασία ψηφιοποίησης του ήχου. Πηγή: Διδάσκων (2015).

22

Page 23: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ψηφιοποίηση του ήχου (3/3)

Εικόνα 4: Διαδικασία ψηφιοποίησης αναλογικού ηχητικού σήματος κι αντιστρόφως.Πηγή: Διδάσκων (2015).

23

Page 24: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ρυθμός ή συχνότητα δειγματοληψίας (1/2)

• Με τη διαδικασία της δειγματοληψίας λαμβάνονται δείγματα του αναλογικού σήματος κατά τακτά χρονικά διαστήματα και μετατρέπονται σε δυαδικούς αριθμούς.

• Ο αριθμός των δειγμάτων εξαρτάται από το ρυθμό ή συχνότητα δειγματοληψίας (sampling reate), δηλαδή από τον αριθμό των δειγμάτων ανά δευτερόλεπτο και εκφράζεται σε Hertz (Hz). Π.χ. 44,1 kHz στα CD Audio, 8 kHz στην τηλεφωνία.

• Θεώρημα Nyquist: Η μέγιστη συχνότητα δειγματοληψίας πρέπει να είναι τουλάχιστον διπλάσια από τη μέγιστη συχνότητα (συχνότητα αποκοπής) του αναλογικού σήματος, στο οποίο γίνεται δειγματοληψία. Αποφεύγεται η απώλεια πληροφορίας.

24

Page 25: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ρυθμός ή συχνότητα δειγματοληψίας (2/2)

• Συνήθως, οι συχνότητες δειγματοληψίας που χρησιμοποιούνται στην ψηφιοποίηση ήχου ανήκουν στο διάστημα από 22,05 kHz έως και 44,1 kHz.

25

Εικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή συχνότητα δειγματοληψίας. Πηγή: Διδάσκων (2015).

Page 26: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μέγεθος δείγματος (1/2)

• Ένα άλλο σημαντικό χαρακτηριστικό της διαδικασίας της δειγματοληψίας είναι το μέγεθος δείγματος (sample size), δηλαδή είναι ο αριθμός των bits που χρησιμοποιούνται για την κωδικοποίηση κάθε δείγματος.

• Το μέγεθος δείγματος είναι σταθερό για κάθε δείγμα.

• Ο αριθμός των δειγμάτων εξαρτάται από το μέγεθος δείγματος.

• Όσο μεγαλύτερος είναι ο αριθμός των δειγμάτων τόσο πιο πιστή αναπαράσταση ήχου γίνεται στον υπολογιστή, αλλά και τόσο πιο μεγάλο είναι και το μέγεθος του αρχείου που παράγεται.

26

Page 27: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μέγεθος δείγματος (2/2)

• Όσο μεγαλύτερο είναι το μέγεθος δείγματος τόσο περισσότερες είναι οι στάθμες έντασης (κβάντωσης). Αν το μέγεθος δείγματος είναι n τότε μπορούν να κωδικοποιηθούν 2n στάθμες έντασης ανά δευτερόλεπτο.

• Για ποιότητα ψηφιακού ήχου CD Digital Audio το μέγεθος δείγματος είναι 16 bit, οπότε έχουμε 216= 65536 δείγματα ανά δευτερόλεπτο.

27

Page 28: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Αριθμός καναλιών ήχου (1/2)

• Ο αριθμός καναλιών ήχου (όπου κάθε κανάλι αναπαράγεται από διαφορετικό ηχείο) διαχωρίζει τους ήχους σε:

– Απλούς ή μονοφωνικούς ήχους που αποτελούνται από ένα κανάλι ήχου.

– Στερεοφωνικούς ήχους που αποτελούνται από δύο κανάλια ήχου (Αριστερό & Δεξί κανάλι) με διαφορές είτε στο χρονισµό των καναλιών, είτε στην ένταση των καναλιών.

– Πολυφωνικούς ή πολυκάναλους ήχους που αποτελούνται από περισσότερα από δύο κανάλια ήχου. Επιτρέπονται διάφοροι συνδυασµοί, πολύγλωσση οµιλία και σχολιασµός.

28

Page 29: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Αριθμός καναλιών ήχου (2/2)

• (Συνέχεια).

– Π.χ. το πολυκάναλο σύστημα ηχείων 5.1 αποτελείται από 6 κανάλια ήχου για καθένα από τα 6 ηχεία [Εμπρός Αριστερά – Εμπρός Κέντρο – Εμπρός Δεξιά –Πίσω Αριστερά – Πίσω Δεξιά – Subwoofer (μπάσα)]

– Με το στερεοφωνικό ή πολυφωνικό ήχο ο ακροατής αποκτά ηχητικό προσανατολισμό και η ακρόαση γίνεται πολύ πιο ρεαλιστική.

29

Page 30: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μέγεθος αρχείου ήχου (1/2)

• Το μέγεθος ενός ασυμπίεστου ψηφιακού αρχείου εξαρτάται από τη χρονική διάρκεια, την ποιότητα του ήχου (δηλαδή τη συχνότητα δειγματοληψίας και το μέγεθος του δείγματος), καθώς και τον αριθμό καναλιών ήχου.

Χωρητικότητα (bits) = Συχνότητα Δειγματοληψίας (Hz) x Μέγεθος δείγματος (bits) x Διάρκεια (sec) x Αριθμός Καναλιών

30

Page 31: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μέγεθος αρχείου ήχου (2/2)

• Παράδειγμα:

– Για τον υπολογισμό μεγέθους ασυμπίεστου αρχείου ήχου [μονοφωνικού (1 κανάλι) ή στερεοφωνικού (2 κανάλια)], διάρκειας 1 λεπτού (60 sec), με συχνότητα δειγματοληψίας 44100 Hzκαι μέγεθος δείγματος 16 bit (65536 στάθμες κβάντωσης):

• Μέγεθος Αρχείου = [44.100 (Hz) x 16 (bits) x 60 (sec)] /8 = 5.292.000 Bytes ή 5.168 KBytes για μονοφωνικό ήχο, ή το διπλάσιο 10.336 KBytes για στερεοφωνικό ήχο.

31

Page 32: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Κβαντοποίηση - Quantization (1/2)

• Η δειγματοληψία δεν εισάγει οποιαδήποτε παραμόρφωση αν γίνει με ρυθμό ή συχνότητα δειγματοληψίας μεγαλύτερη ή ίση από το ρυθμό Nyquist.

• Τα αναλογικά δείγματα έχουν τιμές σε ένα συνεχές διάστημα τιμών και χρειάζεται άπειρος αριθμός bits για την αναπαράστασή τους με τέλεια ακρίβεια.

• Κβαντοποίηση (Quantization) είναι η διαδικασία της προσέγγισης ενός αναλογικού (συνεχούς) δείγματος με ένα πεπερασμένο αριθμό bits.

• Η κβαντοποίηση εισάγει πάντοτε παραμόρφωση (Σφάλμα κβαντοποίησης). Μπορούμε να την μειώσουμε αν αυξήσουμε τον αριθμό των bits με τα οποία παριστάνουμε ένα δείγμα (π.χ. 8 bits: 256 τιμές, 16 bits: 65536 τιμές, κλπ.).

32

Page 33: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Κβαντοποίηση - Quantization (2/2)

Εικόνα 6: Αρχικό αναλογικό σήμα, σήμα μετά τη δειγματοληψία και κβαντισμένο σήμα. Πηγή: Διδάσκων (2015).

33

Page 34: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μέθοδοι Κωδικοποίησης Ήχου

• Η κωδικοποίηση είναι η καταγραφή των δειγμάτων ως ακολουθίες δυαδικών ψηφίων κι αποτελούν το τελικό ψηφιακό σήμα.

• Τα αρχεία ψηφιακού ήχου ονομάζονται αρχεία κυματομορφών (waveforms).

• Οι κυριότερες μέθοδοι κωδικοποίησης ήχου που προκύπτουν από τη δειγματοληψία και την κβάντωση, είναι οι εξής:

– PCM.

– μ-Law & A-Law PCM.

– DPCM.

– ADPCM.

– LPC.

34

Page 35: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Παλμοκωδική διαμόρφωση

• PCM (Pulse Code Modulation).

• Αποθηκεύονται ένα προς ένα τα δείγματα σε ψηφιακή μορφή.

• Χρησιμοποιείται γραμμική (ομοιόμορφη) κωδικοποίηση. – Το πλήθος των σταθμών κβάντωσης κατανέμεται σε ίσα

διαστήματα σε όλο το εύρος του πεδίου τιμών του σήματος.

– Δεν περιλαμβάνει συμπίεση, οπότε τα αρχεία ήχου έχουν μεγάλο μέγεθος.

– Η αναπαραγωγή των αρχείων ήχου γίνεται χωρίς απώλειες.

– Η ποιότητα του ήχου εξαρτάται από το ρυθμό δειγματοληψίας.

35

Page 36: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Mu(μ)-Law PCM και Α-Law PCM

• Χρησιμοποιείται λογαριθμική κωδικοποίηση. Εφαρμόζεται στη μετάδοση ομιλίας στη ψηφιακή τηλεφωνία (ISDN). Η Mu-LawPCM σε δίκτυα στην Ιαπωνία και Β.Αμερική, ενώ η A-Law PCM σε δίκτυα των υπόλοιπων χωρών.

• Αντιστοιχεί πυκνότερες στάθμες σε χαμηλές συχνότητες και αραιότερες στάθμες στις υψηλές συχνότητες του σήματος. Στις χαμηλές συχνότητες περιέχεται το μεγαλύτερο ποσοστό της πληροφορίας που γίνεται αντιληπτή από το ανθρώπινο αυτί.

• Λογαριθμική κωδικοποίηση PCM στα 8-bit καλύπτει το ίδιο εύρος τιμών δειγμάτων με τη γραμμική κωδικοποίηση PCM στα 14-bit, επιτυγχάνοντας συμπίεση της τάξης 1,75 προς 1 με ρυθμό μετάδοσης 64 kbps.

36

Page 37: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Διαφορική παλμοκωδική διαμόρφωση (1/3)

• DPCM (Differential Pulse Code Modulation).

• Στη διαφορική παλμοκωδική διαμόρφωση DPCM αποθηκεύεται πλήρως το πρώτο δείγμα ενώ για τα υπόλοιπα δείγματα αποθηκεύονται μόνο οι διαφορές τους από τα αμέσως προηγούμενα δείγματα.

• Ο µηχανισµός που χρησιµοποιείται για την πρόβλεψη των τιµών των δειγµάτων είναι σταθερός σε όλη τη διάρκεια της κωδικοποίησης.

• Γίνεται εξοικονόμηση στον αριθμό bits που απαιτούνται για κάθε δείγμα.

37

Page 38: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Διαφορική παλμοκωδική διαμόρφωση (2/3)

• Μια ειδική μορφή της διαφορικής παλμοκωδικής διαμόρφωσης είναι η διαφορική διαµόρφωση δέλτα DM (Delta Modulation), κατά την οποία η διαφορά της προβλεπόμενης και της τρέχουσας τιμής του δείγματος κωδικοποιείται με ένα μόνο bit παίρνοντας τιμές σύμφωνα με την αρχή DM:

– Η παραγωγή DM είναι 0 εάν το τρέχον δείγμα έχει μικρότερο εύρος από το προηγούμενο και 1 εάν το τρέχον δείγμα έχει εύρος μεγαλύτερο από το αμέσως προηγούμενο, με επακόλουθο το DM να κωδικοποιεί την κατεύθυνση των διαφορών στο εύρος σήματος αντί την αξία της διαφοράς DPCM.

38

Page 39: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Διαφορική παλμοκωδική διαμόρφωση (3/3)

• Αυτό σημαίνει ότι κάθε δείγμα μπορεί να είναι είτε μεγαλύτερο είτε μικρότερο κατά ένα κβάντο από το προηγούμενο του με αποτέλεσμα ο περιορισμός να οδηγεί σε μεγάλη οικονομία αλλά αν το σήμα αλλάζει γρήγορα θα υπάρχει μεγάλη απώλεια πληροφορίας.

39

Page 40: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Διαφορική διαμόρφωση Δέλτα(1/2)

• Η διαφορική παλµοκωδική διαµόρφωση (Delta Modulation) κωδικοποίηση έχει ακριβώς σαν βασική ιδέα την καταγραφή όχι της ακριβούς τιµής κάθε δεδοµένου αλλά της διαφοράς του από την τιµή του προηγούµενου δείγµατος.

• Παράδειγμα:

– Αρχικά δεδοµένα: 28 30 47 14 29 28 31 25 27 2832 33 37 41 29.

– ∆εδοµένα µετά την κωδικοποίηση DPCM: 28 +2 +19 –14 +1 0 +3 –3 –1 0 +4 +5 +9 +12 +1.

40

Page 41: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Διαφορική διαμόρφωση Δέλτα(2/2)

Εικόνα 7: Διαφορική διαμόρφωση Δέλτα. Πηγή: Διδάσκων (2015).

41

Page 42: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Διαφορική παλμοκωδική διαμόρφωση - Συνέχεια

Εικόνα 8: Διαφορική παλμοκωδική διαμόρφωση. Πηγή: Διδάσκων (2015).

42

Page 43: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Προσαρμοστική διαφορική παλμοκωδική διαμόρφωση (1/2)• ADPCM (Adaptive Differential Pulse Code Modulation).

• Στην προσαρµοστική διαφορική παλµοκωδική διαµόρφωση ADPCM, χρησιµοποιείται ένας δυναµικός µηχανισµός που προσαρµόζεται ανάλογα µε τα χαρακτηριστικά του προς δειγµατοληψία σήµατος.

• Συχνά τα γειτονικά δείγματα είναι όμοια, οπότε είναι δυνατόν να προβλεφθεί η τιμή ενός δείγματος, με βάση την τιμή του προηγούμενου δείγματος.

• Στη συνέχεια υπολογίζεται η διαφορά μεταξύ της πραγματικής τιμής του δείγματος και της τιμής που είχε προβλεφθεί και κωδικοποιείται.

43

Page 44: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Προσαρμοστική διαφορική παλμοκωδική διαμόρφωση (2/2)• Η τιμή της διαφοράς είναι σχετικά μικρή (συνήθως απαιτεί 4

bits).

• Αποθηκεύονται ακόμη λιγότερα δεδομένα διότι δεν απαιτείται η αποθήκευση όλων των διαδοχικών διαφορών.

• Ένα μειονέκτημα των μεθόδων κωδικοποίησης ADPCM και DPCM οφείλεται στην εξάρτηση του μεγέθους των διαφορών μεταξύ διαδοχικών δειγμάτων ενός ηχητικού σήματος σε σχέση με τη συχνότητα:

– Οι διαφορές μεταξύ διαδοχικών δειγμάτων σε σχέση με ήχους χαμηλών συχνοτήτων, είναι σημαντικά μικρότερες από τις αντίστοιχες διαφορές σε ήχους υψηλών συχνοτήτων.

44

Page 45: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Γραμμική προβλεπτική κωδικοποίηση (1/3)

• LPC (Linear Predictive Coding).

• Μια από τις νέες τεχνολογίες κωδικοποίησης ήχου που έχουν συνταχθεί για την ανθρώπινη ομιλία και πραγματοποιούν σημαντικούς βαθμούς συμπίεσης είναι η Γραμμική προβλεπτική κωδικοποίηση (LPC).

• Ο κωδικοποιητής LPC συγκρίνει τα σήματα φωνής που παραλαμβάνει με βάση ένα αναλυτικό μοντέλο φωνής που έχει αποθηκευμένο. Τα χαρακτηριστικά που ταιριάζουν καλύτερα στο αναλυτικό μοντέλο μεταδίδονται.

45

Page 46: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Γραμμική προβλεπτική κωδικοποίηση (2/3)

• Ο αποκωδικοποιητής LPC χρησιμοποιεί τα χαρακτηριστικά αυτά για να ανασυνθέσει τα φωνητικά σήματα.– Οι φωνητικοί ήχοι παράγονται από γεννήτρια

συχνοτήτων. Τροποποιούνται από φίλτρο σχηµατιστικών συχνοτήτων.

– Οι µη φωνητικοί ήχοι παράγονται από γεννήτρια θορύβου.

– Πρόβλεψη παραµέτρων από προηγούµενες οµάδες δειγµάτων.

– LPC-10: γραµµικός συνδυασµός 10 οµάδων δειγµάτων.

46

Page 47: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Γραμμική προβλεπτική κωδικοποίηση (3/3)

• Μειονέκτημα της μεθόδου κωδικοποίησης ήχου LPC εντοπίζεται στην αδυναμία της να επεξεργαστεί άλλο σήμα εκτός από την ομιλία.

• H μέθοδος κωδικοποίησης ήχου LPC δημιουργήθηκε για να εξυπηρετήσει τη μετάδοση ομιλίας στην κινητή τηλεφωνία.

47

Page 48: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μέθοδοι συμπίεσης ήχου (1/2)

• Κατά τη συμπίεση του ήχου χρησιμοποιούνται πολύπλοκοι αλγόριθμοι συμπίεσης που συνδυάζουν τόσο απωλεστικές (lossy) όσο και μη απωλεστικές (lossless) τεχνικές συμπίεσης.

• Για τη συμπίεση του ήχου στην τηλεφωνία, έχουν αναπτυχθεί πολλές τεχνικές αποτελεσματικής κωδικοποίησης της ομιλίας.

• Στη μουσική, όπου οι απαιτήσεις ποιότητας είναι μεγαλύτερες και το εύρος ζώνης της είναι σημαντικά μεγαλύτερο από αυτό της ανθρώπινης φωνής έχουν αναπτυχθεί σύγχρονες μέθοδοι συμπίεσης.

48

Page 49: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μέθοδοι συμπίεσης ήχου (2/2)

• Εφαρμόζονται διάφορα ψυχο-ακουστικά μοντέλα βάσει των οποίων απορρίπτονται οι συχνότητες που έτσι και αλλιώς δεν μπορούσαν να γίνουν αντιληπτοί από το ανθρώπινο αυτί.

• Οι τρόποι κωδικοποίησης της ηχητικής πληροφορίας ονομάζονται κωδικοποιητές (CODECs από τις λέξεις Compression και Decompression).

49

Page 50: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μη απωλεστική συμπίεση ήχου(1/2)

• Οι μη απωλεστικές τεχνικές συμπίεσης, δεν αλλοιώνουν καθόλου την πληροφορία, δηλαδή μετά την αποσυμπίεση η πληροφορία επανέρχεται στην ακριβώς στην αρχική της μορφή.

• Συνήθως, οι μη απωλεστικοί αλγόριθμοι συμπίεσης ψηφιακού ήχου, εφαρμόζονται σε περιπτώσεις που δεν υπάρχει κανένα περιθώριο απωλειών.

50

Page 51: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μη απωλεστική συμπίεση ήχου(2/2)

• Κωδικοποιητές μη απωλεστικής συμπίεσης (Lossless codecs) με διαφορές στην ταχύτητα και στην απαιτούμενη ισχύ για συμπίεση / αποσυμπίεση:

– LA (Lossless Audio).

– FLAC.

– TTA.

– Monkey's Audio.

– Apple Lossless.

– WMA Lossless.

51

Page 52: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Απωλεστική συμπίεση ήχου

• Οι απωλεστικές τεχνικές συμπίεσης, αλλοιώνουν την πληροφορία, απορρίπτοντας κατά τη συμπίεση τα μέρη εκείνα που δεν είναι χρήσιμα με βάση κάποιο συγκεκριμένο κριτήριο (irrelevancy).

• Μετά την αποσυμπίεση η πληροφορία δεν επανέρχεται στην αρχική της μορφή.

• Το σημασιολογικό περιεχόμενο της πληροφορίας ουσιαστικά δεν μεταβάλλεται, αλλά υπεισέρχεται η έννοια της μείωσης της ποιότητας.

• Οι απωλεστικές τεχνικές είναι περισσότερο αποτελεσματικές επιτυγχάνοντας συμπίεση που φθάνει το 24:1 με καλή ποιότητα, ενώ οι μη απωλεστικές σπανίως ξεπερνούν το 4:1.

52

Page 53: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ηχητική σκίαση (1/5)

• Auditory masking.

• Οι σημαντικότεροι μέθοδοι συμπίεσης ψηφιακών αρχείων ήχου στηρίζονται στο φαινόμενο της ηχητικής σκίασης (auditory masking), που αποσκοπεί στην ακουστικότητα των ήχων.

• Το κατώφλι ακουστότητας μιας συχνότητας ποικίλει ανάλογα με τη συχνότητα και τον ακροατή.

• Όταν υπάρχει ένας ήχος συγκεκριμένης συχνότητας και έντασης, άλλοι ήχοι σε κοντινές συχνότητες χαμηλής έντασης δεν γίνονται αντιληπτοί από το ανθρώπινο αυτί.

53

Page 54: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ηχητική σκίαση (2/5)

• Παράλληλα, κατά τη συμπίεση των ψηφιακών ηχητικών δεδομένων απορρίπτονται οι συχνότητες που το ανθρώπινο αυτί δεν μπορεί να ξεχωρίσει μέσα σε ένα καθορισμένο διάστημα συχνοτήτων.

• Αν και χάνονται ορισμένες ηχητικές πληροφορίες, εντούτοις η ποιότητα του ήχου παραμένει σε υψηλά επίπεδα.

54

Page 55: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ηχητική σκίαση (3/5)

Εικόνα 9: Ηχητική σκίαση. Πηγή: Διδάσκων (2015).

55

Page 56: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ηχητική σκίαση (4/5)

• Ισχυρή συχνότητα 1000 Hz.

• Ασθενής συχνότητα (-10 db) 1100 Hz.

• Δεν γίνεται αντιληπτή παρά μόνον αν η συχνότητα αυξηθεί σημαντικά (π.χ. 4000 Hz).

56

Page 57: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ηχητική σκίαση (5/5)

Εικόνα 10: Ηχητική σκίαση (Συνέχεια). Πηγή: Διδάσκων (2015).

57

Page 58: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Πρότυπα MPEG (1/2)

• Η ομάδα MPEG (Motion Picture Expert Group) από το 1987 αναπτύσσει διεθνή πρότυπα για συμπίεση και αποσυμπίεση, την επεξεργασία και την κωδικοποίηση των εικόνων, του ήχου, του βίντεο και τους συνδυασμούς τους.

• Συνεργασία πανεπιστημίων, ερευνητικών ινστιτούτων και εταιρειών υπό την αιγίδα του Διεθνούς Οργανισμού Προτύπων (International Standards Organization (ISO).

• Οικογένεια συμπιεστών (Codecs) που δημιουργήθηκαν από την ομάδα MPEG και χρησιμοποιούνται για την μετάδοση οπτικών και ηχητικών δεδομένων σε ψηφιακή συμπιεσμένη μορφή.

58

Page 59: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Πρότυπα MPEG (2/2)

• Στην οικογένεια MPEG, εντάσσονται τα πρότυπα:

– MPEG-1 Coding of moving pictures and associated audio for digital storage media.

– MPEG-1 Audio Layer I, II, III.

– MPEG-2 Generic coding of moving pictures and associated audio information.

– MPEG-4 Coding of audio-visual objects.

– MPEG-7 Multimedia content description interface.

– MPEG-21 Multimedia framework.

– …

59

Page 60: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Επίπεδα συμπίεσης στο MPEG-1 Audio (1/2)

• Το MPEG-1 Audio, είναι το πρώτο διεθνές πρότυπο για την ψηφιακή συμπίεση ήχου υψηλής πιστότητας και αποτελεί μια οικογένεια τριών διαφορετικών τεχνικών κωδικοποίησης και συμπίεσης µε προς τα πίσω συµβατότητα.

• MPEG-1 Audio Layer I.

– Εφαρμογή: Ψηφιακή Κασέτα DCC της Philips.

– Συμπίεση 4:1, Ποιότητα μέτρια.

– Ρυθμός μετάδοσης 384 kbps/κανάλι.

60

Page 61: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Επίπεδα συμπίεσης στο MPEG-1 Audio (2/2)

• MPEG-1 Audio Layer II.

– Εφαρμογή: Ψηφιακό ραδιόφωνο DAB, VideoCD & DVD.

– Συμπίεση 6:1 & 8:1, Ποιότητα σχεδόν σαν CD Audio.

– Ρυθμός μετάδοσης βελτιστοποιημένος στην περιοχή 96 ή 128 kbps για μονοφωνικό ήχο, ή στην περιοχή 192 ή 256 kbps για στερεοφωνικό ήχο.

• MPEG-1 Audio Layer III (MP3).

– Εφαρμογή: Αρχεία mp3 στο διαδίκτυο

– Συμπίεση 10:1 & 12:1, Ποιότητα εφάμιλλη του CD Audio.

– Ρυθμός μετάδοσης 128 kbps για στερεοφωνικό ήχο (64 kbps/κανάλι).

61

Page 62: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Χαρακτηριστικά του MPEG-1 Audio Layer III (1/2)

• Το πρότυπο MPEG-1 Audio Layer III (MP3), προβλέπει ένα ή δύο ηχητικά κανάλια χρησιμοποιώντας 16-bit για την κωδικοποίησης των δειγμάτων, ενώ η συχνότητα δειγματοληψίας του ήχου μπορεί να είναι 32kHz, 44,1kHz ή 48 kHz. Η πιο συνηθισμένη είναι αυτή των 44,1kHz (ίδια με αυτή του CD Audio).

• Το πρότυπο MP3 υποστηρίζει αρκετούς προκαθορισμένους ρυθμούς μετάδοσης δεδομένων: 32, 40 , 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 και 320 kbps.

62

Page 63: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Χαρακτηριστικά του MPEG-1 Audio Layer III (2/2)

• Αρχεία με μεγαλύτερο bit rate ακούγονται καλύτερα από αυτά με μικρότερο bit rate.

• Με ρυθμό μετάδοσης (bit rate) άνω των 128 kbps η διαφορά από το πρωτότυπο CD Audio δεν γίνεται αντιληπτή.

• Υποστηρίζεται επίσης μεταβλητός ρυθμός μετάδοσης.

• Η συμπίεση αρχείων ήχου μπορεί να φτάσει και το 85%.

• Το αποτέλεσμα είναι να έχουμε μουσικά αρχεία 4-6 λεπτών που κανονικά θα καταλάμβαναν χώρο 40-70 MB, να πιάνουν τώρα χώρο μόλις 3-7MB.

• Διάφοροι κωδικοποιητές (FastEnc, LAME).

63

Page 64: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

MPEG-1 Audio Layer III – Ρυθμός μετάδοσης

• Το μέγεθος και η ποιότητα των αρχείων ήχου MPEG-1 Audio Layer III (MP3) καθορίζονται από τον ρυθμό μετάδοσης των δεδομένων (bit rate).

Πίνακας 1: Χαρακτηριστικά του MPEG-1 Audio Layer III. Πηγή: Διδάσκων (2015).

Συχνότητα Βήμα Ρυθμός μετάδοσης

Λόγος Συμπίεσης

Ποιότητα

2.5 kHz Mono 8 kbps 96:1 Ήχος τηλεφώνου

4.5 kHz Mono 16 kbps 48:1 Βραχέα

11 kHz Stereo 56…64 kbps 26 .. 24:1 FM

15 kHz Stereo 96 kbps 16:1 Σχεδόν σαν CD

>15 kHz Stereo 112…128 kbps 14..12:1 Εφάμιλλη του CD

64

Page 65: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Ο αλγόριθμος (1/2)

• Τράπεζα Φίλτρων.

• Εφαρμογή MDCT.

• Εφαρμογή Ψυχοακουστικού Μοντέλου.

• Επιμερισμός διαθέσιμων bits (ανάλογα με το bit rate).

• Εφαρμογή κωδικοποίησης εντροπίας.

65

Page 66: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Ο αλγόριθμος (2/2)

Εικόνα 11: Συμπίεση κατά MP3. Πηγή: Διδάσκων (2015).

66

Page 67: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Τράπεζα φίλτρων (1/2)

• Το ακουστικό σήμα διαιρείται σε 32 ζώνες συχνοτήτων ίσου μεγέθους.

• Το ανθρώπινο αυτί έχει περιορισμένη διακριτική ικανότητα.

• Μέσα σε μια περιορισμένη κριτική περιοχή εύρους ζώνης συγχέει τις συχνότητες που ακούει.

• Οι περιοχές του φάσματος συχνοτήτων αντιστοιχούνται σε 32 ζώνες.

67

Page 68: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Τράπεζα φίλτρων (2/2)

Εικόνα 12: Τράπεζα φίλτρων. Πηγή: Διδάσκων (2015).

68

Page 69: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Εφαρμογή MDCT

• MDCT = Modified Discrete Cosine Transform.

• Εφαρμόζεται ταχύς μετασχηματισμός Fourier.

• Χρησιμοποιούνται 18 συντελεστές MDCT.

• Υποδιαιρείται επιπλέον το φάσμα συχνοτήτων με στόχο την καλύτερη διακριτικότητα, δηλαδή κάθε ζώνη διακρίνεται σε 18 υποζώνες για μεγαλύτερη ακρίβεια στην απόκρυψη θορύβου.

• Τελικά δημιουργούνται συνολικά 32 Χ 18 = 576 ζώνες στο φάσμα.

69

Page 70: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Εφαρμογή ψυχοακουστικού μοντέλου (1/2)

• Σε καθεμιά από τις ζώνες εφαρμόζεται το ψυχοακουστικό μοντέλο ηχητικής σκίασης στο μετασχηματισμένο σήμα για να υπολογιστεί το ελάχιστο επίπεδο θορύβου που γίνεται αντιληπτό από το μέσο ακροατή.

• Υπολογίζεται το κατώφλι ακουστότητας σε κάθε ζώνη για κάθε δεδομένη στιγμή.

• Υπολογίζεται ποιες συχνότητες μπορούν να γίνουν αντιληπτές από τον άνθρωπο.

70

Page 71: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Εφαρμογή ψυχοακουστικού μοντέλου (2/2)

Εικόνα 13: Εφαρμογή ψυχοακουστικού μοντέλου. Πηγή: Διδάσκων (2015).

71

Page 72: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Επιμερισμός διαθέσιμων bit

• Καθορίζεται το πλήθος των bits που θα διατεθεί σε κάθε ζώνη (από το ψυχοακουστικό μοντέλο).

• Εκτίμηση σημασίας κάθε ζώνης/συντελεστή.

• Κατανομή των διαθέσιμων bit ανάλογα µε τη σημασία κάθε ζώνης/συντελεστή.

72

Page 73: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Κβάντωση & κωδικοποίηση (1/2)• Κβαντοποίηση.

– Λογαριθμική κβαντοποίηση των συντελεστών.

– Χρήση παράγοντα κβαντοποίησης για σταθερό ρυθµό bit.

– Διπλός βρόχος προσαρμογής της κβαντοποίησης.

• Εσωτερικός: ανάλογα µε την έξοδο της κωδικοποίησης εντροπίας (ρυθμίζει τον καθολικό παράγοντα κβαντοποίησης).

• Εξωτερικός: ανάλογα µε το θόρυβο σε κάθε ζώνη του σήματος (ρυθμίζει παράγοντες κβαντοποίησης ανά ζώνη).

73

Page 74: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Συμπίεση κατά MP3 -Κβάντωση & κωδικοποίηση (2/2)• Κωδικοποίηση Εντροπίας.

– Κωδικοποίηση Huffman σε ζεύγη συντελεστών.

– Επιλογή ενός πίνακα Huffman ανάλογα µε την είσοδο του κβαντισμένου σήματος.

• Τελική κωδικοποίηση.

– Προαιρετικά και μεταβλητός ρυθµός bit (αλλαγή σε κάθε πλαίσιο (frame) ήχου).

• Προσθήκη συνοδευτικών δεδομένων (ID3).

74

Page 75: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μορφοποιήσειςαρχείων ψηφιακού ήχου MPEG - Audio (1/2)

• Το αρχείο MPEG-1 Audio μπορεί να έχει κάποια ιδιαίτερη κεφαλίδα. Εξαρτάται από το μορφότυπο (format), όχι από το πρότυπο.

• Το αρχείο MPEG-1 Audio διακρίνεται σε πλαίσια (frames) ήχου. Π.χ. διάρκεια 24 ms στα 48 KHz.

• Κάθε πλαίσιο έχει µία κεφαλίδα. Επιτρέπει την άμεση έναρξη της αποκωδικοποίησης.

• Λέξη χρονισμού: έλεγχος για περιοδική εμφάνιση. Μπορεί να εμφανίζεται και στα δεδομένα.

75

Page 76: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Μορφοποιήσειςαρχείων ψηφιακού ήχου MPEG - Audio (2/2)

• Ρυθμός bit: επιτρέπει αλλαγή ανά πλαίσιο.

• Συχνότητα δειγματοληψίας: επιτρέπει αλλαγή ανά πλαίσιο.

• Επίπεδο: Layer 1, 2, 3 ή παραλλαγές.

• Τρόπος κωδικοποίησης: μονοφωνικός στερεοφωνικός, πολυφωνικός, κ.λπ.

• Bit προστασίας: χρησιμοποιούνται ελάχιστα.

76

Page 77: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Άλλα πρότυπα αρχείων ψηφιακού ήχου (1/2)

• WMA - Windows Media Audio.

– Η «απάντηση» της Microsoft / Καλύτερη ποιότητα από MP3 σε ίδιο bitrate.

– Έλεγχος πνευματικών δικαιωμάτων.

• Mp3 PRO.

– Η εξέλιξη / Ίδια ποιότητα στο μισό μέγεθος των αρχείων.

• RA - Real Audio.

– Τεχνολογία ροής.

77

Page 78: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Άλλα πρότυπα αρχείων ψηφιακού ήχου (2/2)

• AAC - Advanced Audio Coding).

– Νέος κωδικοποιητής, πιο αποδοτικός από το MPEG-1, με ίδια βασική δομή αλλά µε πολλές βελτιώσεις και μείωση ρυθµού μετάδοσης κατά 30% για ίδια ποιότητα.

– Βασικός κωδικοποιητής ήχου και για το MPEG-2 και το MPEG-4.

• VQF – Vector Quantitazation Format .

• OGG – Vorbis.

– Ποιότητα συγκρίσιμη με το MP3 / Open Source λογισμικό.

• AC-3 Dolby Digital .

– Ψηφιακός πολυκάναλος ήχος (5.1).

78

Page 79: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Πρότυπο MIDI (1/3)

• Musical Instrument Digital Interface.

• Για τη μουσική αναπτύχθηκε το πρότυπο MIDI (Musical Instrument Digital Interface) στην αρχή της δεκαετίας του 1980.

• Το πρότυπο MIDI καθορίζει πως κωδικοποιούνται τα διάφορα στοιχεία μιας μουσικής παρτιτούρας καθώς και τα όργανα που συμμετέχουν.

• Υπάρχει η δυνατότητα χρησιμοποίησης 128 οργάνων και ηχητικών εφέ.

79

Page 80: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Πρότυπο MIDI (2/3)

• Αποθηκεύει τέσσερις παραμέτρους για κάθε νότα που παίζεται:

– Θεμελιώδης συχνότητα (ποια νότα είναι).

– Αρμονικές (ποιο όργανο, ηχόχρωμα).

– Δυναμική (πόσο δυνατά παίζεται η νότα ) .

– Διάρκεια (χρόνος).

• Πολλές κάρτες ήχου που προσφέρουν MIDI περιέχουν αποθηκευμένα σε μνήμη ROM δείγματα ψηφιοποιημένων ήχων (wavetable) πραγματικών οργάνων (ανά όργανο ή και ανά νότα), με αποτέλεσμα η μουσική MIDI να μοιάζει αρκετά με πραγματική.

80

Page 81: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Πρότυπο MIDI (3/3)

• Το MIDI περιέχει και πρότυπα για την επικοινωνία μουσικών οργάνων με υπολογιστή. Ένας υπολογιστής με MIDI interface μπορεί να χειριστεί συσκευές που ακολουθούν αυτό το πρότυπο, όπως ηλεκτρονικά synthesizers.

81

Page 82: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Τύποι αρχείων ψηφιακού ήχου (1/6)

Πίνακας 2: Τύποι αρχείων ψηφιακού ήχου (1/6). Πηγή: Διδάσκων (2015).

82

Επέκταση Πρότυπο Περιγραφή

.aac Advanced Audio Coding File

Συμπιεσμένο αρχείο ήχου βασισμένο στα πρότυπα MPEG-2 και MPEG-4, που σε αντίθεση με το MP3, προσφέρει δυνατότητες βελτίωσης της ποιότητας όπως αποδοτικότερη κωδικοποίηση, απλούστερα φίλτρα και καλύτερο χειρισμό των συχνοτήτων άνω των 16KHz, αποδίδοντας εξαιρετικά υψηλή ποιότητα ήχου σε birate 64Kbps. Προσφέρει σχεδόν πανομοιότυπη ποιότητα με το αρχικό σήμα.

.ac3 Audio Coding 3 Dolby Digital File Format

Τύπος αρχείου πολυκάναλου ήχου. Χρησιμοποιείται για την αναπαραγωγή σε πολύ καλή ποιότητα ήχου π.χ. ταινιών DVD, Blu-Ray, κλπ. Η αναπαραγωγή θα πρέπει να γίνει από κάποιο πολυκάναλο ηχοσύστημα (π.χ. Hime Cinema)

Page 83: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Τύποι αρχείων ψηφιακού ήχου (2/6)

Πίνακας 3: Τύποι αρχείων ψηφιακού ήχου (2/6). Πηγή: Διδάσκων (2015).

83

Επέκταση Πρότυπο Περιγραφή

.aif

.aiffAudio Interchange File Format

Τύπος αρχείου όμοιος με το .WAV. Αναπτύχθηκε από την Apple αλλά χρησιμοποιείται σε όλες τις πλατφόρμες. Ένα τυπικό αρχείο .AIF ψηφιακού δίσκου έχει sampling rate44.1KHz, είναι 16-bit και έχει δυο κανάλια (για stereo)

.flac Free Lossless Audio Codec

Τύπος αρχείου ήχου μη απωλεστικής συμπίεσης.

.mid .midi MIDI File Format

Διεθνές πρότυπο για την αποθήκευση μουσικών αρχείων MIDI(Musical Instrument Digital Interface) που περιέχει μουσικά δεδομένα όπως ποιες νότες παίζονται, πότε και πόσο δυνατά παίζονται και για πόσο. Δεν περιέχει ηχητικά δεδομένα.

Page 84: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Τύποι αρχείων ψηφιακού ήχου (3/6)

Επέκταση Πρότυπο Περιγραφή

.mp3 MPEG-1 Layer 3 File Format

Πρότυπο συμπιεσμένων αρχείων ήχου που αναπτύχθηκε από την Motion Picture Experts Group (MPEG).Μπορεί να προσφέρει ποιότητα παρόμοια με του CD (stereo 16-bit) σε ένα αρχείο περίπου στο 1/10 του μεγέθους ενός αρχείου.WAV ή .AIF. Η ποιότητα του εξαρτάται από το bit rate που χρησιμοποιήθηκε κατά την συμπίεση του. Χρησιμοποιείται κυρίως για τη διακίνηση αρχείων μουσικής στο Διαδίκτυο.

. mp3PRO mp3PRO File Format

Τύπος κωδικοποίησης και αποκωδικοποίησης αρχείου ήχου, που αναπτύχθηκε από την Coding Technologies. Το µέγεθος των παραγόµενων αρχείων με κωδικοποίηση 64Kbpsµειώνεται κατά 50% σε σχέση με το MP3 με κωδικοποίηση 128Kbps, διατηρώντας την ποιότητα ήχου στο επίπεδο του MP3

Πίνακας 4: Τύποι αρχείων ψηφιακού ήχου (3/6). Πηγή: Διδάσκων (2015).

84

Page 85: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Τύποι αρχείων ψηφιακού ήχου (4/6)

Πίνακας 5: Τύποι αρχείων ψηφιακού ήχου (4/6). Πηγή: Διδάσκων (2015).

85

Επέκταση Πρότυπο Περιγραφή

.ogg Ogg VorbisFile Format

Τύπος αρχείου ήχου ελεύθερου ανοικτού κώδικα, που αναπτύχθηκε από το Xiph.Org Foundation. Υποστηρίζει παρόμοια συμπίεση με το MP3. Παρέχει πολύ καλό streaming και άριστη ποιότητα ήχου.

.ra Real Audio File Format

Τύπος αρχείου που κατασκευάστηκε από την Real Networks.Μπορεί να περιέχει ήχο ή την θέση streaming ήχου από το διαδίκτυο. Χρησιμοποιεί αλγόριθμο συμπίεσης του Real Playerκαι συχνά χρησιμοποιείται για αναπαραγωγή ήχων μέσω του περιηγητή (web browser). Χρησιμοποιεί και την επέκταση .RAM.

.rif

.riffResource Interchange File Format

Αναπτύχθηκε από την Microsoft και την IBM.Βασίζεται στο Interchange File Format της Electronic Arts.Υποστηρίζει αρχεία ψηφιακού ήχου WAV και MIDI.

Page 86: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Τύποι αρχείων ψηφιακού ήχου (5/6)

Πίνακας 6: Τύποι αρχείων ψηφιακού ήχου (5/6). Πηγή: Διδάσκων (2015).

86

Επέκταση Πρότυπο Περιγραφή

.rmi RIFF-MIDI FileFormat

Αναπτύχθηκε από την Microsoft για αρχεία μουσικής MIDI πουεμπεριέχονται σε αρχεία τύπου RIFF.

.wav Wave Audio File Format

Ψηφιακός τύπος αρχείου για την αποθήκευση κυματοειδών δεδομένων. Επιτρέπει την αποθήκευση ήχου με διάφορα μεγέθη δειγμάτων (sampling) και ρυθμούς μετάδοσης (bit rates). Συνήθως χρησιμοποιούνται για να αποθηκεύουν αρχεία ποιότητας CD. Είναι παρόμοια με τα .AIF άλλα είναι πιο περίπλοκα και χρησιμοποιούνται περισσότερο από συστήματα Windows.

Page 87: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Τύποι αρχείων ψηφιακού ήχου (6/6)

Πίνακας 7: Τύποι αρχείων ψηφιακού ήχου (6/6). Πηγή: Διδάσκων (2015).

87

Επέκταση Πρότυπο Περιγραφή

.wma Windows MediaAudio File Format

Αρχείο ήχου συμπιεσμένο με το Windows Media. Αναπτύχθηκε από την Microsoft, με στόχο την υποστήριξη απωλεστικής συμπίεσης. Έχει ομοιότητες με το MP3, με άριστη ποιότητα αναπαραγωγής, και μεγαλύτερη συμπίεση (64 kbps) επιτρέποντας την συμπίεση ψηφιακών δεδομένων ήχου στο 1/20 του αρχικού τους όγκου. Μπορεί να μετατραπεί σε άλλες πρότυπες μορφοποιήσεις αρχείων ήχου. Συχνά χρησιμοποιείται για την αναπαραγωγή μουσικής από το διαδίκτυο.

Page 88: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Υλικό - Κάρτα ήχου (1/2)

• DSP (Digital Signal Processor).

• ADC / DAC μετατροπείς.

• Synthesizer.

– Wavetable ROM.

• Μνήμη RAM.

• Έξοδος ηχείων.

• Είσοδος μικροφώνου.

• MIDI interface.

88

Page 89: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Υλικό - Κάρτα ήχου (2/2)

• Στερεοφωνικός ήχος, (16-bit / 44,1 kHz ή ακόμη και 24-bit / 96 kHz).

• Πολυκάναλος ήχος , π.χ. Ηχοσύστημα 5.1.

• «Τριδιάστατος» ήχος.

89

Page 90: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Λογισμικό (1/2)

• Κυριότερα προγράμματα επεξεργασίας ψηφιοποιημένου ήχου.

– Sound Forge της Sonic.

– SoundEdit της Macromedia.

– WaveStudio της Creative.

– Coll Edit της Syntrillium.

– Audacity.

90

Page 91: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Λογισμικό (2/2)

• Κυριότερα προγράμματα επεξεργασίας ήχων MIDI.

– Cakewalk.

– Cubase Audio της Steinberg.

– MidiSoft Studio.

– Master Tracks της Passport Design.

91

Page 92: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ήχος και εφαρμογές πολυμέσων(1/3)

• Ήχοι περιεχομένου.

– Η μουσική επένδυση.

– Οι αφηγήσεις κειμένου.

– Οι εκφωνήσεις οδηγιών.

– Τα ηχητικά ντοκουμέντα.

– Η μουσική όταν αποτελεί μέρος του αντικειμένου παρουσίασης.

• Ήχοι περιβάλλοντος.

– Τα διάφορα ηχητικά εφέ (ήχοι της φύσης, φωνές ζώων, ήχοι πόλης).

92

Page 93: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ήχος και εφαρμογές πολυμέσων(2/3)

• Συνήθως, ο ήχος στις εφαρμογές πολυμέσων περιορίζεται στις ψυχαγωγικές και εκπαιδευτικές εφαρμογές.

• Ιδιαίτερα σε εκπαιδευτικές εφαρμογές και περίπτερα πληροφοριών (information kiosks), η αφήγηση και ο σχολιασμός των όσων παρουσιάζονται στην οθόνη βοηθά στην μετάδοση του μηνύματος ενώ η κατάλληλη ηχητικά υπόκρουση καθιστά την παρακολούθηση της εφαρμογής πιο ευχάριστη.

• Εφαρμογές που έχουν ως αντικείμενο την μουσική ή ακόμα εφαρμογές που προορίζονται για ανθρώπους με προβλήματα όρασης κάνουν εκτενή και αποτελεσματική χρήση του ήχου.

93

Page 94: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Ήχος και εφαρμογές πολυμέσων(3/3)

• Με την πρόοδο της τεχνολογίας, το ενδιαφέρον για την εφαρμογή της αναγνώ-ρισης και σύνθεσης ομιλίας σε επαγγελματικές εφαρμογές διαρκώς αυξάνεται.

• Ήδη έχουν εμφανιστεί τα πρώτα δείγματα συστημάτων χειρισμού ενός υπολογιστή με προφορικές εντολές και υπαγόρευσης κειμένου στον υπολογιστή.

94

Page 95: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Σύνοψη (1/2)

• Λειτουργία του αυτιού.

• Η φυσική του ήχου .

• Βασικά χαρακτηριστικά του ήχου.

• Ψηφιοποίηση του ήχου.

• Μέθοδοι κωδικοποίησης ήχου.

• Μέθοδοι συμπίεσης ήχου.

• Πρότυπα MPEG.

95

Page 96: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Σύνοψη (2/2)

• Συμπίεση κατά MP3.

• Μορφοποιήσεις αρχείων ψηφιακού ήχου.

• Τύποι αρχείων ψηφιακού ήχου.

• Ήχος και εφαρμογές πολυμέσων.

96

Page 97: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Σημείωμα Αναφοράς

Copyright ΤΕΙ Δυτικής Μακεδονίας, Νικολάου Σπύρος. «Τεχνολογία Πολυμέσων». Έκδοση: 1.0. Κοζάνη 2015. Διαθέσιμο από τη δικτυακή διεύθυνση:

97

Page 98: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Σημείωμα Αδειοδότησης

Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative CommonsΑναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων».

[1] http://creativecommons.org/licenses/by-nc-sa/4.0/

Ως Μη Εμπορική ορίζεται η χρήση:

• που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο.

• που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο.

• που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο.

Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.

98

Page 99: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Διατήρηση Σημειωμάτων

Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει:

το Σημείωμα Αναφοράς.

το Σημείωμα Αδειοδότησης.

τη δήλωση Διατήρησης Σημειωμάτων.

το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει).

μαζί με τους συνοδευόμενους υπερσυνδέσμους.

99

Page 100: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Βιβλιογραφία

1. Τεχνολογία πολυμέσων, Δημητριάδης Σταύρος Ν., Πομπόρτσης Ανδρέας Σ., Τριανταφύλλου Ευάγγελος Γ.

2. Συστήματα Πολυμέσων: Αλγόριθμοι, Πρότυπα και Εφαρμογές, Havaldar P., Medioni G.

3. Πολυμέσα Αναλυτικός Οδηγός, 8η Έκδοση, Tay Vaughan.

4. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες, Γεώργιος Β. Ξηλωμένος, Γεώργιος Κ. Πολύζος.

100

Page 101: Τεχνολογία Πολμέσων · ικόνα 5: (α) Αναλογικό σήμα, (β) Ψηφιακό με χαμηλή συχνότητα και (γ) Ψηφιακό με υψηλή

Τέλος Ενότητας