Αναγνώριση Προτύπων

38
Αναγνώριση Προτύπων

description

Αναγνώριση Προτύπων. Η κατάρα της διαστατικότητας. Ο όρος εισήχθηκε το 1961 από τον Bellman Αναφέρεται στο πρόβλημα της ανάλυσης δεδομένων πολλών μεταβλητών καθώς αυξάνει η διάσταση. Η κατάρα της διαστατικότητας – παράδειγμα (1 D ). Θεωρήστε ένα πρόβλημα αναγνώρισης προτύπων 3 κλάσεων - PowerPoint PPT Presentation

Transcript of Αναγνώριση Προτύπων

Page 1: Αναγνώριση Προτύπων

Αναγνώριση Προτύπων

Page 2: Αναγνώριση Προτύπων

Η κατάρα της διαστατικότητας

Ο όρος εισήχθηκε το 1961 από τον Bellman Αναφέρεται στο πρόβλημα της ανάλυσης

δεδομένων πολλών μεταβλητών καθώς αυξάνει η διάσταση.

Page 3: Αναγνώριση Προτύπων

Η κατάρα της διαστατικότητας – παράδειγμα (1D)

Θεωρήστε ένα πρόβλημα αναγνώρισης προτύπων 3 κλάσεων

Μια απλή προσέγγιση:– Χωρίζουμε το χώρο σε τρεις περιοχές– Υπολογίζουμε το ποσοστό των

παραδειγμάτων για κάθε περιοχή– Για κάθε νέο παράδειγμα βρίσκουμε την

περιοχή του και εξετάζουμε ποια κλάση υπερτερεί στην περιοχή.

Έστω για μια διάσταση:

Page 4: Αναγνώριση Προτύπων

Η κατάρα της διαστατικότητας – παράδειγμα (2D)

Αποφασίζουμε ότι χρειαζόμαστε δύο χαρακτηριστικά (features) ανά διάνυσμα (feature vector)

Αποφασίζουμε επίσης να κρατήσουμε τον ίδιο βαθμό διάκρισης ανά άξονα

Αυτό σημαίνει από 3 περιοχές στο 1D 32=9 (in 2D)

Και εδώ τίθεται το ερώτημα:– Διατηρούμε ίδια πυκνότητα δειγμάτων ανά

περιοχή; (αύξηση δειγμάτων)– Διατηρούμε σταθερό τον αριθμό των

δειγμάτων; (μείωση πληροφορίας)

Page 5: Αναγνώριση Προτύπων

Η κατάρα της διαστατικότητας – παράδειγμα (2D)

Σταθερή πυκνότητα Σταθερά δείγματα

Page 6: Αναγνώριση Προτύπων

Η κατάρα της διαστατικότητας – παράδειγμα (3D)

Αν περάσουμε σε 3-διάστατα χαρακτηριστικά, το πρόβλημα χειροτερεύει

Το πλήθος των περιοχών γίνονται 33=27

Για σταθερή πυκνότητα το πλήθος των δειγμάτων γίνονται 81

Για σταθερά δείγματα υπάρχουν περιοχές με μηδαμινή πληροφορία

Page 7: Αναγνώριση Προτύπων

Η κατάρα της διαστατικότητας - συμπεράσματα

Προφανώς η προσέγγιση να χωρίσουμε το χώρο σε ίσες περιοχές ήταν ανεπαρκής μέθοδος

Υπάρχουν μέθοδοι λιγότερο ευαίσθητες στην κατάρα της διαστικότητας

Πως αντιμετωπίζεται η κατάρα της διαστατικότητας:– Ενσωματώνοντας προηγούμενη γνώση– Συμβιβαζόμενοι στην ακρίβεια– Μειώνοντας τις διαστάσεις

Page 8: Αναγνώριση Προτύπων

Η κατάρα της διαστατικότητας – συμπεράσμα

Στην πραγματικότητα η κατάρα της διαστατικότητας σημαίνει ότι για δεδομένο αριθμό δειγμάτων, υπάρχει μια μέγιστη διάσταση των χαρακτηριστικών διανυσμάτων πάνω από την οποία η απόδοση του ταξινομητή μας θα μειώνεται

Page 9: Αναγνώριση Προτύπων

Η κατάρα της διαστατικότητας – Επιπτώσεις

Εκθετική αύξηση στον αριθμό των δειγμάτων που απαιτούνται για να διατηρηθεί η πυκνότητα των δειγμάτων (ΝD)

Εκθετική αύξηση της πολυπλοκότητας της συνάρτησης προς υπολογισμό με αυξημένη διαστατικότητα

Ενώ για μία διάσταση υπάρχουν πολλές διαθέσιμες συναρτήσεις, για συναρτήσεις πυκνότητας μεγάλων διαστάσεων μόνο η Gauss πολλών μεταβλητών είναι διαθέσιμη

Ο άνθρωπος δυσκολεύεται να καταλάβει προβλήματα με περισσότερες από 3 διαστάσεις.

Page 10: Αναγνώριση Προτύπων

Μείωση διαστάσεων

Ορίζουμε ως εξαγωγή χαρακτηριστικών (feature extraction) τη δημιουργία ενός υποσυνόλου χαρακτηριστικών από συνδυασμό των υπαρχουσών

Page 11: Αναγνώριση Προτύπων

Μείωση διαστάσεων

Ορίζουμε ως επιλογή χαρακτηριστικών (feature selection) τη διαδικασία επιλογής τω χαρακτηριστικών με την περισσότερη πληροφορία.

Page 12: Αναγνώριση Προτύπων

Μείωση διαστάσεων

Για την εξαγωγή χαρακτηριστικών, δεδομένου δειγματοχώρου με xiRN αναζητούμε αντιστοιχία

y=f(x):RN→RM με M<N Τέτοια ώστε το μετασχηματισμένο

διάνυσμα να διατηρεί το μεγαλύτερο μέρος της πληροφορίας

Η βέλτιστη μετατροπή δεν θα αυξάνει την πιθανότητα σφάλματος.

Page 13: Αναγνώριση Προτύπων

Μείωση διαστάσεων Γενικά η ιδανική αντιστοιχία y=f(x) είναι

μη γραμμική συνάρτηση Δεν υπάρχει όμως συστηματική μέθοδος μη

γραμμικών μετασχηματισμών Για αυτό η εξαγωγή χαρακτηριστικών

περιορίζεται σε γραμμικούς μετασχηματισμούς y=Wx

Page 14: Αναγνώριση Προτύπων

Αναπαράσταση έναντι Κατηγοριοποίησης

Η επιλογή της αντιστοιχίας κατά την εξαγωγή χαρακτηριστικών καθοδηγείται από μία αντικειμενική συνάρτηση

Ανάλογα με τα κριτήρια που χρησιμοποιούνται για την αντικειμενική συνάρτηση διακρίνουμε δυο κατηγορίες εξαγωγής χαρακτηριστικών– Αναπαράστασης σήματος: Σκοπός είναι η

καλύτερη αναπαράσταση των δειγμάτων με ακρίβεια στη μικρότερη δυνατή διάσταση

– Κατηγοριοποίηση: σκοπός είναι να ενισχυθεί η διακρισιμότητα μεταξύ κλάσεων στη μικρότερη δυνατή διάσταση

Page 15: Αναγνώριση Προτύπων

Αναπαράσταση έναντι Κατηγοριοποίησης

Στα πλαίσια της εξαγωγής διανυσμάτων, χρησιμοποιούνται οι τεχνικές:– Ανάλυση Κυρίων

Συνιστωσών (Principal Components Analysis -PCA) κατάλληλη για αναπαράσταση

– Γραμμική Διαχωριστική Ανάλυση (Linear Discriminant Analysis - LDA) κατάλληλη για κατηγοριοποίηση

Page 16: Αναγνώριση Προτύπων

PCA - Παράδειγμα

Page 17: Αναγνώριση Προτύπων

Ανάλυση Κυρίων Συνιστωσών - PCA

Σκοπός της PCA είναι η μείωση διαστάσεων διατηρώντας τη στατιστική διακύμανση των δειγμάτων

Θεωρήστε το Ν-διάστατο διάνυσμα x όπως αναπαρίσταται στην ορθοκανονική βάση διανυσμάτων [ϕ1| ϕ2| ... | ϕN]:

Ας υποθέσουμε ότι αναπαριστούμε το x με μόνο Μ (Μ<Ν) από τα διανύσματα βάσης, αντικαθιστώντας τις υπόλοιπες συνιστώσες με προ-επιλεγμένες σταθερές

N

iiiyx

1

ji

jiji 1

0

N

Miii

M

iii byMx

11

)(ˆ

Page 18: Αναγνώριση Προτύπων

Ανάλυση Κυρίων Συνιστωσών - PCA

Η ιδανική προσέγγιση ενός τυχαίου διανύσματος xΝ από γραμμικό συνδυασμό Μ (Μ<Ν) ανεξάρτητων διανυσμάτων πετυχαίνετε με την προβολή του διανύσματος x στα ιδιοδιανύσματα που αντιστοιχούν στις μεγαλύτερες ιδιοτιμές λi

του πίνακα συνδιασποράς Σx

Page 19: Αναγνώριση Προτύπων

Στατιστικός Χαρακτηρισμός Τυχαίων διανυσμάτων

Μέσο διάνυσμα:

Covariance matrix – πίνακας συνδιασποράς

Page 20: Αναγνώριση Προτύπων

Covariance Matric – Πίνακας Συνδιασποράς

Ο πίνακας συνδιασποράς δείχνει την τάση των ζευγαριών των διαφόρων στοιχείων του διανύσματος να συν-μεταβάλλονται– Σημαντικές ιδιότητες του πίνακα είναι:– Αν τα xi και xk τείνουν να αυξάνουν μαζί, τότε

cik>0– Αν το xi τείνει να μειώνει όταν το xk αυξάνει,

τότε cik<0– Αν τα xi και xk δεν συσχετίζονται, τότε cik=0– |cik|≤σiσk

– cii = σi2 = VAR(xi)

Page 21: Αναγνώριση Προτύπων

Ανάλυση Κυρίων Συνιστωσών - PCA

Συνεπώς, κάνω ανάλυση ιδιοτιµών του Σx= Ε{xxT}

Σxφi= λiφi

Τα φ1, ..., φM αντιστοιχούν σε λ1>... > λM

Θέτοντας U= [φ1, ...,φΜ]

y= UΤx

Page 22: Αναγνώριση Προτύπων

Ανάλυση Κυρίων Συνιστωσών - PCA

Ο κύριος άξονας:– έχει την µεγαλύτερη

στατιστική διασπορά– περιέχει την

περισσότερη πληροφορία για το σήµα

– έχει το µικρότερο σφάλµα

Page 23: Αναγνώριση Προτύπων

Ανάλυση Κυρίων Συνιστωσών - PCA

Τα κύρια ιδιοδιανύσµατα είναι ορθογώνια Οι κύριες συνιστώσες (ΚΣ) είναι ασυσχέτιστες Η διασπορά της i ΚΣ είναι λi

Page 24: Αναγνώριση Προτύπων

PCA - Παράδειγμα

Έστω η τρισδιάστατη κατανομή Gauss με παραμέτρους

Τα τρία ζευγάρια των κυρίων συνιστωσών είναι:

Page 25: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA

Ronald A. Fisher, 1936:“Ο μηχανισμός επεξεργασίας που οικοδομήθηκε σε εφαρμογές απείρων δεδομένων, δεν είναι αρκετά ακριβής για απλά εργαστηριακά δεδομένα. Μόνο με συστηματική επιλογή προβλημάτων με λίγα δείγματα, ανάλογα με τα ιδιαίτερα χαρακτηριστικά τους, μπορούμε να έχουμε ακριβή τεστ σε πρακτικά δεδομένα.”

Page 26: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA

H Γραμμική Διαχωριστική Ανάλυση ή Linear Discriminant Analysis ή LDA είναι μια τεχνική εξαγωγής χαρακτηριστικών που έχει εφαρμοστεί επιτυχώς σε πολλά στατιστικά προβλήματα αναγνώρισης.

Σκοπός της είναι να χωρίσει δείγματα σε ομάδες μεγιστοποιώντας τη μεταξύ κλάσεων διαχωρισιμότητα και την εντός κλάσης μεταβλητότητα.

Page 27: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για δύο κλάσεις

Σκοπός της LDA είναι να μειώσει τις διαστάσεις ενώ θα διατηρήσεις όσο το δυνατόν πιο διακριτές τις κλάσεις.

Υποθέστε το σετ δεδομένων{x(1, x(2, …, x(N}

όπου N1 ανήκουν στην κλάση ω1, και N2 στην ω2.

Page 28: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για δύο κλάσεις

Για να βρούμε ένα καλό διάνυσμα προβολής, πρέπει να ορίσουμε ένα διαχωριστικό μέτρο μεταξύ των προβολών

Αν χρησιμοποιήσουμε τα μέσα διανύσματα των κλάσεων στο x και y διανυσματικό χώρο, έχουμε

ixi

i xN

1

ixiyi

i wxwN

yN

ii

11ˆ

Page 29: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για δύο κλάσεις

Θα μπορούσαμε να επιλέξουμε την απόσταση μεταξύ των προβολών των μέσων:

Όμως δεν λαμβάνουμε υπόψη τη διασπορά μεταξύ των κλάσεων

2121 ˆˆ)( wwJ

Καλύτερη διαχωρισιμότητα

Μεγαλύτερη απόσταση μέσων

Page 30: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για δύο κλάσεις

Η λύση που πρότεινε ο Fisher είναι να βρούμε τη συνάρτηση που μεγιστοποιεί την απόσταση μεταξύ των μέσων και κανονικοποιείται από την μεταξύ τάξεων διασπορά:

Και ορίζεται ως

iy

ii ys

22 ˆˆ

22

21

2

21

ˆˆ

ˆˆ

sswJ

Page 31: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για g κλάσεις

Έστω ο μεταξύ κλάσεων πίνακας διασποράς:

Και ο εντός κλάσης πίνακας διασποράς

– xi,j: είναι το n-διάστατο πρότυπο j που ανήκει στην κλάση πi

– Ni: το πλήθος δειγμάτων εκπαίδευσης από την κλάση πi

– g: το πλήθος των κλάσεων

Page 32: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για g κλάσεις

Το μέσο δείγμα ανά κλάση η μέση διασπορά και το ολικό μέσο διάνυσμα είναι:

Page 33: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για g κλάσεις

Ο κύριος στόχος της LDA είναι να βρει ένα πίνακα προβολής Plda των δειγμάτων που μεγιστοποιεί το λόγο της ορίζουσας του Sb προς την ορίζουσα του Sw (κριτήριο Fischer):

Page 34: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για g κλάσεις

Αποδεικνύεται ότι ο ζητούμενος πίνακας είναι η λύση της εξίσωσης:

Page 35: Αναγνώριση Προτύπων

Γραμμική Διαχωριστική Ανάλυση – LDA για g κλάσεις

Αν ο Sw είναι ένας πίνακας με διακρίνουσα, τότε το κριτήριο του Fisher μεγιστοποιείται όταν ο πίνακας Plda συνθέτετε από τα μέγιστα ιδιοδιανύσματα του πίνακα

Page 36: Αναγνώριση Προτύπων

PCA vs LDA

Page 37: Αναγνώριση Προτύπων

PCA vs LDA

Διάκριση μεταξύ 5 ειδών καφέ

Page 38: Αναγνώριση Προτύπων

PCA vs LDA

Διάκριση μεταξύ ειδών καφέ