svd diplomatiki

92
-i- ΑΡΙΣΟΣΕΛΕΙΟ ΠΑΝΕΠΙΣΗΜΙΟ ΘΕΑΛΟΝΙΚΗ ΔΙΑΣΜΗΜΑΣΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΣΑΠΣΤΥΙΑΚΩΝ ΠΟΤΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΗ» ΣΜΗΜΑΣΩΝ ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΗΜΩΝ Δξόπςξη Γεδομένων για Καηηγοπιοποίηζη Κειμένων Διπλωματική Επγασία τος Ivaylo Kehayov (ΑΕΜ: 268) Εξεταστική Επιτποπή Επιβλέπων: Παλαγηψηεο Σπκεσλίδεο Μέλη: Αζελά Βαθάιε Φξηζηίλα Μπνπηζνχθε ΘΔΑΛΟΝΙΚΗ ΜΑΡΣΙΟ 2011

Transcript of svd diplomatiki

Page 1: svd diplomatiki

-i-

ΑΡΙΣΟΣΕΛΕΙΟ ΠΑΝΕΠΙΣΗΜΙΟ ΘΕΑΛΟΝΙΚΗ

ΔΙΑΣΜΗΜΑΣΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΣΑΠΣΤΥΙΑΚΩΝ ΠΟΤΔΩΝ

«ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΗ»

ΣΜΗΜΑΣΩΝ ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΗΜΩΝ

Δξόπςξη Γεδομένων για

Καηηγοπιοποίηζη Κειμένων

Διπλωματική Επγασία τος

Ivaylo Kehayov (ΑΕΜ: 268)

Εξεταστική Επιτποπή

Επιβλέπων: Παλαγηψηεο Σπκεσλίδεο

Μέλη: Αζελά Βαθάιε

Φξηζηίλα Μπνπηζνχθε

ΘΔΑΛΟΝΙΚΗ

ΜΑΡΣΙΟ 2011

Page 2: svd diplomatiki
Page 3: svd diplomatiki

-i-

Ππόλογορ

Η εμέιημε ηεο ηερλνινγίαο έρεη επηηξέςεη ζηνλ άλζξσπν λα εμεξεπλήζεη θαη λα δνθηκά-

ζεη κεζφδνπο νη νπνίεο απηνκαηνπνηνχλ δηαδηθαζίεο πνπ απαηηνχλ ζε θάπνην βαζκφ ηελ

αλζξψπηλε θξίζε. Μία ηέηνηα δηαδηθαζία είλαη ε απηφκαηε θαηάηαμε θεηκέλσλ ζε θα-

ηεγνξίεο. Οη θαηεγνξίεο απηέο κπνξεί λα ζρεηίδνληαη κε ην ζέκα ηνπ θεηκέλνπ, κε ηελ

ρψξα γηα ηελ νπνία αλαθέξεηαη, κε δηάθνξεο θαηεγνξίεο αλζξψπσλ θαη πνιιά άιια.

Σηνλ ηνκέα ηεο εθπαίδεπζεο νη θαηεγνξίεο κπνξεί λα εθθξάδνπλ ηνλ βαζκφ δπζθνιίαο

ηεο αλαγλσζηκφηεηαο ησλ θεηκέλσλ. Έηζη, είλαη δπλαηφλ λα επηιερζνχλ κε απηφκαην

ηξφπν θείκελα σο ζέκαηα εμεηάζεσλ αλάινγα κε ην επίπεδν θαη ηελ ηάμε ησλ καζεηψλ.

Ο θιάδνο ηεο επηζηήκεο ππνινγηζηψλ πνπ ιέγεηαη εξόπςξη δεδομένων, πξνζθέξεη κε-

ζφδνπο θαηεγνξηνπνίεζεο θεηκέλσλ.

Τν Κέληξν Διιεληθήο Γιψζζαο ηνπ Υπνπξγείνπ Παηδείαο, Γηα Βίνπ Μάζεζεο θαη

Θξεζθεπκάησλ ρξεζηκνπνηεί εξγαιεία θαηάηαμεο ειιεληθψλ θεηκέλσλ ζε θαηεγνξίεο

αλάινγα κε ηελ αλαγλσζηκφηεηα/δπζθνιία ηνπο. Τα εξγαιεία απηά δελ αλήθνπλ ζηνλ

θιάδν ηεο εμφξπμεο δεδνκέλσλ. Δπίζεο, ηα απνηειέζκαηά ηνπο δελ είλαη αξθεηά ηθαλν-

πνηεηηθά. Έηζη, ζηελ παξνχζα εξγαζία πξνηείλνκε κηα κέζνδν θαηεγνξηνπνίεζεο θεη-

κέλσλ πνπ αλήθεη ζηνλ ρψξν ηεο εμφξπμεο δεδνκέλσλ θαη ηελ ζπγθξίλνπκε κε ηελ κέ-

ζνδν θαηάηαμεο πνπ ρξεζηκνπνηείηαη απφ ην Κέληξν Διιεληθήο Γιψζζαο, θαζψο θαη κε

άιιεο κεζφδνπο εμφξπμεο.

Σε απηφ ην ζεκείν ζα ήζεια λα επραξηζηήζσ ζεξκά ηνλ επηβιέπνληα ηεο δηπισκαηηθήο

κνπ εξγαζίαο θαζεγεηή, θ. Παλαγηψηε Σπκεσλίδε, γηα ηελ εκπηζηνζχλε πνπ κνπ έδεημε

θαη γηα ηελ πνιχηηκε θαζνδήγεζή ηνπ θαζφιε ηελ δηάξθεηα ηεο εθπφλεζεο ηεο εξγαζί-

αο. Δπίζεο, επραξηζηψ ηδηαίηεξα ηελ νηθνγέλεηά κνπ γηα ηελ ππνζηήξημε θαη ηελ αγάπε

ηνπο.

Ivaylo Kehayov

Μάξηηνο 2011

Page 4: svd diplomatiki

-ii-

Page 5: svd diplomatiki

-iii-

Πεπιεσόμενα

ΠΡΟΛΟΓΟ .................................................................................................................... I

ΠΔΡΙΔΥΟΜΔΝΑ .......................................................................................................... III

1 ΔΙΑΓΩΓΗ ................................................................................................................ 1

1.1 ΠΔΡΙΓΡΑΦΗ ΠΡΟΒΛΗΜΑΣΟ ............................................................................... 1

1.1.1 Εξόπςξη κειμένων ............................................................................... 2

1.1.2 Καηηγοπιοποίηζη κειμένων ................................................................ 3

1.1.3 Μονηέλο διανςζμαηικού σώπος ......................................................... 4

1.2 ΓΟΜΗ ΔΡΓΑΙΑ.................................................................................................. 6

2 ΚΑΣΗΓΟΡΙΟΠΟΙΗΗ ΚΔΙΜΔΝΩΝ - ΜΔΘΟΓΟΙ ................................................ 7

2.1 FLESH ................................................................................................................. 7

2.2 ΟΜΟΙΟΣΗΣΑ ΤΝΗΜΙΣΟΝΟΤ ............................................................................. 10

2.3 SVD ΚΑΙ AGGREGATION .................................................................................. 13

3 SINGULAR VALUE DECOMPOSITION ............................................................ 21

3.1 ΚΙΝΗΣΡΟ ........................................................................................................... 21

3.2 ΠΔΡΙΓΡΑΦΗ ΣΗ ΜΔΘΟΓΟΤ SVD ..................................................................... 22

3.2.1 Παπάδειγμα ςπολογιζμού SVD ....................................................... 24

3.2.2 Παπάδειγμα μείωζηρ διαζηάζεων ................................................... 30

3.3 TOY EXAMPLE .................................................................................................. 33

4 ΓΔΝΝΗΣΡΙΑ ΚΔΙΜΔΝΩΝ ΚΑΙ ΤΛΛΟΓΗ REUTERS ..................................... 41

4.1 ΓΔΝΝΗΣΡΙΑ ΚΔΙΜΔΝΩΝ ...................................................................................... 41

4.2 ΤΛΛΟΓΗ REUTERS.......................................................................................... 46

4.2.1 Ιζηοπικά ζηοισεία ............................................................................... 46

4.2.2 Μοπθοποίηζη .................................................................................... 48

4.2.3 Καηηγοπίερ .......................................................................................... 49

5 ΠΔΙΡΑΜΑΣΙΚΗ ΑΞΙΟΛΟΓΗΗ............................................................................ 51

5.1 ΜΔΣΡΙΚΔ ......................................................................................................... 51

Page 6: svd diplomatiki

-iv-

5.2 ΠΔΙΡΑΜΑΣΑ Δ ΤΝΟΛΟ ΓΔΓΟΜΔΝΩΝ ΜΔ 0% ΘΟΡΤΒΟ .................................. 52

5.3 ΠΔΙΡΑΜΑΣΑ Δ ΤΝΟΛΟ ΓΔΓΟΜΔΝΩΝ ΜΔ 25% ΘΟΡΤΒΟ ................................ 53

5.4 ΠΔΙΡΑΜΑΣΑ Δ ΤΝΟΛΟ ΓΔΓΟΜΔΝΩΝ ΜΔ 50% ΘΟΡΤΒΟ ................................ 58

5.5 ΠΔΙΡΑΜΑΣΑ ΜΔ ΣΟ ΤΝΟΛΟ ΓΔΓΟΜΔΝΩΝ REUTERS ....................................... 65

6 ΤΜΠΔΡΑΜΑΣΑ ΚΑΙ ΜΔΛΛΟΝΣΙΚΗ ΔΡΔΤΝΑ ........................................... 71

ΒΙΒΛΙΟΓΡΑΦΙΑ ........................................................................................................... 75

ΠΑΡΑΡΣΗΜΑ 1: ΔΓΥΔΙΡΙΓΙΟ ΥΡΗΗ ................................................................. 79

Π1.1 ΠΡΟΓΡΑΜΜΑ GENERATOR .............................................................................. 79

Π1.2 REUTERS ......................................................................................................... 80

Π1.3 ΠΡΟΓΡΑΜΜΑ ΑΞΙΟΛΟΓΗΗ ΣΩΝ ΜΔΘΟΓΩΝ .................................................... 83

Page 7: svd diplomatiki

-1-

1 Διζαγωγή

Τν ζέκα ηεο παξνχζαο δηπισκαηηθήο εξγαζίαο πξνέθπςε απφ ηελ αλάγθε ηνπ Κέληξνπ

Διιεληθήο Γιψζζαο, πνπ ιεηηνπξγεί απφ ην 1994 θαη είλαη ν επίζεκνο θνξέαο ηνπ Υ-

πνπξγείνπ Παηδείαο θαη Θξεζθεπκάησλ γηα ηελ πηζηνπνίεζε επάξθεηαο ηεο ειιελνκά-

ζεηαο (ην πηζηνπνηεηηθφ ειιελνκάζεηαο ζεζκνζεηήζεθε ην 1998) θαη εδξεχεη ζηελ Θεζ-

ζαινλίθε, γηα έλα θαιχηεξν εξγαιείν θαηάηαμεο ειιεληθψλ θεηκέλσλ ζε θαηεγνξίεο

πνπ εθθξάδνπλ ην επίπεδν δπζθνιίαο ηεο αλαγλσζηκφηεηάο ηνπο. Η θαηάηαμε απηή

ρξεζηκνπνηείηαη γηα ηελ επηινγή θεηκέλσλ θαηάιιειεο δπζθνιίαο γηα ηηο εμεηάζεηο πη-

ζηνπνίεζεο επάξθεηαο ηεο ειιελνκάζεηαο. Απηή ηελ ζηηγκή ην Κέληξν Διιεληθήο

Γιψζζαο ρξεζηκνπνηεί κεηαμχ άιισλ ηελ κέζνδν Flesh Reading Ease γηα ηνλ θαζνξη-

ζκφ ηεο αλαγλσζηκφηεηαο ησλ θεηκέλσλ. Η κέζνδνο απηή, αλ θαη ιεηηνπξγεί ζρεηηθά

θαιά γηα θείκελα ζηελ αγγιηθή γιψζζα, ηα απνηειέζκαηά ηεο γηα ειιεληθά θείκελα δελ

είλαη ηθαλνπνηεηηθά. Σε απηή ηελ δηπισκαηηθή εξγαζία πξνηείλνπκε κηα κέζνδν θαηά-

ηαμεο θεηκέλσλ απφ ηνλ ρψξν ηεο εμφξπμεο δεδνκέλσλ θαη ζπγθξίλνπκε ηελ απφδνζή

ηεο κε ηελ Flesh Reading Ease θαη κε άιιεο κεζφδνπο. Οη δνθηκέο πξαγκαηνπνηήζεθαλ

κε αγγιηθά θείκελα, δηφηη δελ ππάξρεη αξθεηά κεγάιν ζχλνιν (data set) ειιεληθψλ θεη-

κέλσλ.

1.1 Πεπιγπαθή πποβλήμαηορ

Δίλαη βέβαην φηη δνχκε ζηελ θνηλσλία ηεο πιεξνθνξίαο, φπνπ ε κεηαηξνπή ησλ δεδνκέ-

λσλ ζε πιεξνθνξία απαηηείηαη λα νδεγεί ζηε κεηαηξνπή ηεο πιεξνθνξίαο ζε γλψζε. Η

ζπλχπαξμε εηεξφθιηησλ επηζηεκνληθψλ πεδίσλ φπσο ηεο ζηαηηζηηθήο, ηεο κεραληθήο

κάζεζεο, ηεο δηαρείξηζεο βάζεσλ δεδνκέλσλ, ηεο ζεσξίαο ηεο πιεξνθνξίαο θαη ησλ

ππνινγηζηηθψλ δηαδηθαζηψλ, έρεη δεκηνπξγήζεη έλαλ λέν θιάδν ζηελ επηζηήκε ησλ π-

πνινγηζηψλ πνπ θαιείηαη εξόπςξη δεδομένων. Τα εξγαιεία ηεο εμφξπμεο δεδνκέλσλ

είλαη αιγφξηζκνη νη νπνίνη επεμεξγάδνληαη ηεξάζηηνπο φγθνπο δεδνκέλσλ κε ζθνπφ λα

βξεζνχλ θαηαλνεηά πξφηππα απφ ηα νπνία κπνξνχλ λα βγνπλ ρξήζηκα ζπκπεξάζκαηα.

Δπίζεο, ε εμφξπμε δεδνκέλσλ ρξεζηκνπνηείηαη φιν θαη πεξηζζφηεξν απφ ζχγρξνλεο ε-

πηρεηξήζεηο γηα ηελ κεηαηξνπή δεδνκέλσλ ζε επηρεηξεκαηηθή επθπΐα, απνθηψληαο πιε-

νλέθηεκα ζε ζρέζε κε ηνπο αληαγσληζηέο ηνπο.

Page 8: svd diplomatiki

-2-

1.1.1 Δξόπςξη κειμένων

Η παξνχζα δηπισκαηηθή εξγαζία αζρνιείηαη κε ηελ εξόπςξη κειμένων (text mining).

πσο ζηελ εμφξπμε δεδνκέλσλ ςάρλνπκε γηα πξφηππα ζηα δεδνκέλα, έηζη θαη ζηελ ε-

μφξπμε θεηκέλσλ αλαδεηνχληαη πξφηππα ζηα θείκελα. Υπάξρνπλ εθαξκνγέο ηεο εμφξπ-

μεο θεηκέλσλ ζηνπο εμήο ηνκείο:

Αζθάιεηα: πνιιά παθέηα ινγηζκηθνχ εμφξπμεο θεηκέλσλ έρνπλ εθαξκνγέο ζηελ

αζθάιεηα θαη ηδηαίηεξα ζηελ αλάιπζε πεγψλ απινχ θεηκέλνπ φπσο νη εηδήζεηο

ζην Γηαδίθηπν. Δπίζεο, εκπιέθεηαη ζηελ κειέηε θσδηθνπνίεζεο θεηκέλνπ.

Βηνταηξηθή: αξθεηέο είλαη νη εθαξκνγέο ηεο εμφξπμεο θεηκέλσλ ζηελ βηνταηξηθή

κε παξάδεηγκα ηελ εηαηξία PubGene πνπ ζπλδπάδεη βηνταηξηθή εμφξπμε θεηκέ-

λσλ κε δηθηπαθή νπηηθνπνίεζε θαη ην πξνζθέξεη σο δηαδηθηπαθή ππεξεζία.

Λνγηζκηθφ: ηκήκαηα έξεπλαο θαη αλάπηπμεο κεγάισλ εηαηξηψλ, ζπκπεξηιακβα-

λνκέλσλ ηεο IBM θαη ηεο Microsoft, εξεπλνχλ ηερληθέο εμφξπμεο θεηκέλσλ θαη

αλαπηχζζνπλ ινγηζκηθά γηα λα απηνκαηνπνηήζνπλ αθφκε πεξηζζφηεξν ηηο δηα-

δηθαζίεο εμφξπμεο θαη αλάιπζεο.

Γηαδηθηπαθά κέζα: ε εμφξπμε θεηκέλσλ ρξεζηκνπνηείηαη απφ κεγάιεο εηαηξίεο,

φπσο ε Tribune Company, γηα λα απνζαθελίζνπλ πιεξνθνξίεο θαη λα πξνζθέ-

ξνπλ ζηνπο αλαγλψζηεο θαιχηεξε εκπεηξία αλαδήηεζεο, απμάλνληαο έηζη ηελ

επηζθεςηκφηεηα ηεο ηζηνζειίδαο ηνπο θαη θαη‟επέθηαζε ηα έζνδά ηνπο.

Μάξθεηηλγθ: ε εμφξπμε θεηκέλσλ έρεη αξρίζεη λα ρξεζηκνπνηείηαη θαη ζην κάξ-

θεηηλγθ θαη πην ζπγθεθξηκέλα ζηελ δηαρείξηζε ζρέζεο κε ηνλ πειάηε.

Αλάιπζε ζπλαηζζήκαηνο: ε αλάιπζε ζπλαηζζήκαηνο κπνξεί λα πεξηιακβάλεη,

γηα παξάδεηγκα, αλάιπζε θξηηηθψλ γηα ηαηλίεο γηα λα εθηηκεζεί πφζν επλντθή εί-

λαη κηα θξηηηθή γηα κηα ηαηλία.

Αθαδεκατθέο εθαξκνγέο: ην ζέκα ηεο εμφξπμεο θεηκέλσλ είλαη ζεκαληηθφ γηα

εθδφηεο πνπ θξαηνχλ κεγάιεο βάζεηο δεδνκέλσλ νη νπνίεο απαηηνχλ επξεηήξην

γηα ηελ αλάθηεζε θεηκέλσλ. Απηφ ζπκβαίλεη ηδηαίηεξα ζηνπο αθαδεκατθνχο

θιάδνπο, φπνπ θείκελα (π.ρ. επηζηεκνληθά άξζξα) πεξηέρνπλ πνιχ ζπγθεθξηκέ-

λεο πιεξνθνξίεο. Ωο εθ ηνχηνπ, έρνπλ παξζεί πξσηνβνπιίεο φπσο ε πξφηαζε

ηνπ πεξηνδηθνχ Nature, πνπ παξέρεη ζεκαζηνινγηθά κελχκαηα ζε κεραλήκαηα

γηα λα απαληήζνπλ ζπγθεθξηκέλα εξσηήκαηα πνπ πεξηιακβάλνληαη ζηα θείκελα

ρσξίο λα απνθαιχπηεηαη δεκφζηα ην ίδην ην θείκελν.

Page 9: svd diplomatiki

-3-

Μέρξη πξφζθαηα, νη ηζηνζειίδεο ζπρλά ρξεζηκνπνηνχζαλ αλαδεηήζεηο βαζηζκέλεο ζε

θείκελν, νη νπνίεο επέζηξεθαλ κφλν έγγξαθα πνπ πεξηέρνπλ ζπγθεθξηκέλεο ιέμεηο ή

εθθξάζεηο πνπ έρεη νξίζεη ν ρξήζηεο. Τψξα, κέζσ ηεο ρξήζεο ηνπ ζεκαζηνινγηθνχ η-

ζηνχ, ε εμφξπμε θεηκέλσλ κπνξεί λα βξεη πεξηερφκελν βαζηζκέλν ζηελ ζεκαζία θαη ηα

ζπκθξαδφκελα, παξά κφλν ζε κηα ζπγθεθξηκέλε ιέμε. Δπίζεο, ε εμφξπμε θεηκέλσλ

ρξεζηκνπνηείηαη ζε κεξηθά θίιηξα γηα spam ζε e-mail γηα λα πξνζδηνξηζζνχλ ηα ραξα-

θηεξηζηηθά ησλ κελπκάησλ πνπ είλαη πηζαλφ λα απνηεινχλ δηαθεκίζεηο ή άιιν αλεπη-

ζχκεην πιηθφ.

1.1.2 Καηηγοπιοποίηζη κειμένων

Πνιιά πξνβιήκαηα ηεο εμφξπμεο θεηκέλσλ ζρεηίδνληαη κε ηελ εθηίκεζε νκνηφηεηαο

κεηαμχ δηαθνξεηηθψλ εγγξάθσλ. Απηφ ζεκαίλεη είηε δηαρσξηζκφ ησλ εγγξάθσλ ζε

πξνθαζνξηζκέλεο θαηεγνξίεο είηε νκαδνπνίεζε εγγξάθσλ ζε θπζηθέο νκάδεο. Απηά

είλαη ζπλεζηζκέλα πξνβιήκαηα ζηελ εμφξπμε δεδνκέλσλ θαη είλαη δεκνθηιή ζεκεία

εζηίαζεο γηα έξεπλα, ίζσο επεηδή ε επηηπρία ησλ δηαθνξεηηθψλ ηερληθψλ κπνξεί λα αμη-

νινγεζεί θαη λα ζπγθξηζεί ρξεζηκνπνηψληαο θαζηεξσκέλεο θαη αληηθεηκεληθέο κεηξηθέο

επηηπρίαο.

Η καηηγοπιοποίηζη κειμένων (text classification ή categorization) ή αιιηψο καηηγοπιο-

ποίηζη εγγπάθων (document classification ή categorization) είλαη ε δηαδηθαζία αλάζε-

ζεο ειεθηξνληθψλ εγγξάθσλ, πνπ πεξηέρνπλ θείκελν ζε θπζηθή γιψζζα, ζε κηα ή πε-

ξηζζφηεξεο θαηεγνξίεο, ζχκθσλα κε ην πεξηερφκελφ ηνπο. Η θαηεγνξηνπνίεζε θεηκέ-

λσλ κπνξεί λα ρσξηζηεί ζε ηξία είδε:

Καηεγνξηνπνίεζε κε επίβιεςε (supervised classification), φπνπ θάπνηνο εμσηε-

ξηθφο κεραληζκφο (φπσο ε αλζξψπηλε θξίζε) παξέρεη πιεξνθνξίεο γηα ηελ ζσ-

ζηή θαηεγνξηνπνίεζε.

Καηεγνξηνπνίεζε ρσξίο επίβιεςε (unsupervised classification), φπνπ ε θαηεγν-

ξηνπνίεζε γίλεηαη ρσξίο θακία αλαθνξά ζε εμσηεξηθή πιεξνθνξία.

Καηεγνξηνπνίεζε κε εκη-επίβιεςε (semi-supervised classification), φπνπ ηκή-

καηα ησλ θεηκέλσλ έρνπλ πεξηγξαθηεί κε εηηθέηεο απφ εμσηεξηθφ κεραληζκφ.

Οη κέζνδνη πνπ ζπγθξίλνπκε ζηελ παξνχζα εξγαζία (εθηφο απφ ην Flesh Reading Ease)

αλήθνπλ ζην πξψην είδνο. Σε απηή ηελ πεξίπησζε έρνπκε έλα ζύνολο δεδομένων (data

set) πνπ απνηειείηαη απφ έγγξαθα, πνπ νλνκάδεηαη θαη ζςλλογή εγγπάθων (collection ή

corpus). Η ζπιινγή απηή ρσξίδεηαη ζε δπν κέξε: ζην ζύνολο εκπαίδεςζηρ (training set)

Page 10: svd diplomatiki

-4-

θαη ην ζύνολο δοκιμήρ (test set). Τν πξψην απνηειεί ζπλήζσο ην 70% πεξίπνπ νιφθιε-

ξεο ηεο ζπιινγήο, ελψ ην δεχηεξν ην ππφινηπν 30%. Γηα ηα έγγξαθα πνπ αλήθνπλ ζην

ζχλνιν εθπαίδεπζεο είλαη γλσζηφ ζε πνηα θαηεγνξία αλήθνπλ. Απηά είλαη ηα δεδνκέλα

κε ηα νπνία ιεηηνπξγεί ν αιγφξηζκνο. Δπνκέλσο, γίλεηαη εχθνια αληηιεπηφ φηη φζν κε-

γαιχηεξν είλαη απηφ ην ζχλνιν (πεξηζζφηεξα έγγξαθα), ηφζν πην ελεκεξσκέλνο είλαη ν

αιγφξηζκνο, ιεηηνπξγψληαο θαιχηεξα. Απφ ηελ άιιε, γηα ηα έγγξαθα πνπ αλήθνπλ ζην

ζχλνιν δνθηκήο δελ είλαη γλσζηή ε θαηεγνξία ζηελ νπνία αλήθεη ην θαζέλα (ε πιεξν-

θνξία ηεο θαηεγνξίαο ππάξρεη, απιά δελ παξέρεηαη ζηνλ αιγφξηζκν). Έηζη, ν αιγφξηζ-

κνο θαιείηαη λα ηα θαηαηάμεη ζηηο ζσζηέο θαηεγνξίεο θαη ζηελ ζπλέρεηα ηα απνηειέ-

ζκαηά ηνπ ζπγθξίλνληαη κε ηα πξαγκαηηθά δεδνκέλα. Άξα, κε ην training set εθπαηδεχε-

ηαη ν αιγφξηζκνο εμφξπμεο ελψ κε ην test set δνθηκάδεηαη θαη αμηνινγείηαη. Τν training

set νλνκάδεηαη θαη ground truth δηφηη ε πιεξνθνξία πνπ πεξηέρεη δελ ακθηζβεηείηαη.

Γλσζηέο ηερληθέο θαηεγνξηνπνίεζεο θεηκέλσλ είλαη: θαηεγνξηνπνηεηήο naïve Bayes, tf-

idf, Latent Semantic Indexing (LSI), Support Vector Machines (SVM), ηερλεηά λεπξσ-

ληθά δίθηπα, αιγφξηζκνο k-θνληηλφηεξσλ γεηηφλσλ (kNN), δέληξα απφθαζεο (αιγφξηζ-

κνη ID3 θαη C4.5), concept mining θαη άιια.

1.1.3 Μονηέλο διανςζμαηικού σώπος

πσο έρνπκε δεη κέρξη ηψξα, ε θαηεγνξηνπνίεζε ησλ θεηκέλσλ βαζίδεηαη ζηνλ ππνιν-

γηζκφ ηεο νκνηφηεηάο ηνπο θαη ζηελ ζχγθξηζή ηνπο. Γηα λα ζπγθξίλνπκε, φκσο, δχν έγ-

γξαθα ζα πξέπεη λα ηα αλαπαξαζηήζνπκε κε κηα θνηλή κνξθή, κηα καζεκαηηθή νληφηε-

ηα. Η νληφηεηα απηή είλαη ην διάνςζμα ζςσνόηηηαρ όπων (term frequency vector). Γηα

λα ηα πάξνπκε, φκσο, απφ ηελ αξρή, ζα πξέπεη λα πνχκε φηη πξηλ ηα δηαλχζκαηα φξσλ

δεκηνπξγείηαη έλα δηάλπζκα ην νπνίν νλνκάδεηαη λεξικό (dictionary). Απηφ ην δηάλπζκα

πεξηέρεη φινπο ηνπο φξνπο (ιέγνληαο φξνπο ελλννχκε ηηο ιέμεηο) πνπ ππάξρνπλ ζε φια

ηα θείκελα ηνπ training set. Άξα ν αξηζκφο δηαζηάζεσλ ηνπ ιεμηθνχ είλαη ν αξηζκφο ησλ

κνλαδηθψλ ιέμεσλ φισλ ησλ θεηκέλσλ. Σηελ ζπλέρεηα, γηα θάζε έγγξαθν δεκηνπξγείηαη

έλα δηάλπζκα ίζσλ δηαζηάζεσλ κε ην ιεμηθφ. Δπίζεο, θάζε δηάζηαζε αληηζηνηρεί ζε έ-

λαλ ζπγθεθξηκέλν φξν. Γηα παξάδεηγκα, αλ ζηελ πέκπηε δηάζηαζε ηνπ ιεμηθνχ βξίζθε-

ηαη ν φξνο „automobile‟ ηφηε θαη ζηα ππφινηπα δηαλχζκαηα ησλ εγγξάθσλ ε πέκπηε

δηάζηαζε ζα αληηζηνηρεί ζηνλ φξν απηφλ. Μεηά κεηξηνχληαη νη εκθαλίζεηο ηνπ θάζε φ-

ξνπ ζε θάζε έγγξαθν θαη ελεκεξψλνληαη αληίζηνηρα ηα δηαλχζκαηα ζπρλνηήησλ. Γε-

ιαδή, αλ ε φξνο „automobile‟ εκθαλίδεηαη εθηά θνξέο ζε έλα έγγξαθν, ηφηε ζην δηάλπ-

ζκα ζπρλνηήησλ απηνχ ηνπ εγγξάθνπ ε πέκπηε δηάζηαζε ζα έρεη ηελ ηηκή 7, ελψ αλ ζε

Page 11: svd diplomatiki

-5-

θάπνην άιιν έγγξαθν ε ιέμε απηή δελ εκθαλίδεηαη θαζφινπ, ηφηε ην αληίζηνηρν δηάλπ-

ζκα ζα έρεη ηηκή 0 ζηελ πέκπηε δηάζηαζε. Οη ηηκέο απηέο νλνκάδνληαη ζπρλφηεηεο ή

βάξε ησλ φξσλ. Γηα λα γίλνπλ πην θαηαλνεηά ηα πξνεγνχκελα, αθνινπζεί έλα κηθξφ

παξάδεηγκα. Έζησ φηη έρνπκε ηξία έγγξαθα ηα νπνία, γηα ιφγνπο απιφηεηαο θαη επθν-

ιίαο, απνηεινχληαη κφλν απφ κηα πξφηαζε:

Έγγξαθν 1: The Sun is a star.

Έγγξαθν 2: The Earth is a planet.

Έγγξαθν 3: The Earth is smaller than the Sun.

Τν δηάλπζκα ηνπ ιεμηθνχ πνπ δεκηνπξγείηαη απφ απηά ηα έγγξαθα είλαη (νη φξνη ηαμη-

λνκνχληαη ζε αιθαβεηηθή ζεηξά, αλ θαη δελ είλαη απαξαίηεην θάηη ηέηνην):

Λεμηθφ = [a, Earth, is, planet, smaller, star, Sun, than, the]

πσο κπνξεί λα δεη θαλείο, ην κήθνο ηνπ είλαη 9. Τα δηαλχζκαηα ζπρλνηήησλ γηα θάζε

έγγξαθν είλαη ηα εμήο:

Έγγξαθν 1 = [1, 0, 1, 0, 0, 1, 1, 0, 1]

Έγγξαθν 2 = [1, 1, 1, 1, 0, 0, 0, 0, 1]

Έγγξαθν 3 = [0, 1, 1, 0, 1, 0, 1, 1, 2]

Δπεηδή ηα ηξία έγγξαθα είλαη πνιχ κηθξά, νη φξνη δελ επαλαιακβάλνληαη ζην ίδην έγ-

γξαθν θαη νη ηηκέο ησλ ζπρλνηήησλ είλαη είηε 0 είηε 1, κε κφλε εμαίξεζε ηελ ηηκή 2

ζηελ ηειεπηαία δηάζηαζε φπνπ ν φξνο „the‟ ππάξρεη δπν θνξέο ζην έγγξαθν 3. Κάπνηνη

φξνη ππάξρνπλ ζε φια ηα έγγξαθα ή ζε ζρεδφλ φια. Τέηνηνη φξνη είλαη ιέμεηο πνπ ρξε-

ζηκνπνηνχληαη πνιχ ζπρλά, φπσο „a‟, „is‟ θαη „the‟. Απηνί νη φξνη δελ πξνζθέξνπλ θά-

πνηα ρξήζηκε πιεξνθνξία γηα ηελ θαηεγνξηνπνίεζε ησλ εγγξάθσλ. Αλ αθαηξεζνχλ κε

θάπνην ηξφπν, είλαη πηζαλφ ε θαηεγνξηνπνίεζε λα γίλεη πην ζσζηά. Η αθαίξεζή ηνπο

κπνξεί λα επηηεπρζεί κε ηελ ρξήζε stop words, δειαδή κηα ιίζηα κε ιέμεηο νη νπνίεο ζα

αγλννχληαη θαηά ηελ αλάγλσζε ησλ εγγξάθσλ γηα ηελ δεκηνπξγία ηνπ ιεμηθνχ θαη ησλ

δηαλπζκάησλ ζπρλνηήησλ. Έλαο άιινο ηξφπνο είλαη ε κέζνδνο πνπ πεξηγξάθεηαη θαη

πξνηείλεηαη ζηελ παξνχζα δηπισκαηηθή εξγαζία, ε νπνία κέζνδνο ζπκππθλψλεη ηελ

πιεξνθνξία πνπ καο δίλνπλ ηα δηαλχζκαηα ζπρλνηήησλ θαη ζηελ ζπλέρεηα αθαηξεί δηα-

ζηάζεηο. Καη κε ηνπο δχν απηνχο ηξφπνπο κεηψλεηαη ην ππνινγηζηηθφ θφζηνο θαηά ηελ

ζχγθξηζε ησλ εγγξάθσλ, αθνχ νη δηαζηάζεηο ησλ δηαλπζκάησλ είλαη ιηγφηεξεο.

Page 12: svd diplomatiki

-6-

Η νκνηφηεηα ησλ εγγξάθσλ επηηπγράλεηαη ζπγθξίλνληαο ηα δηαλχζκαηα κε ην ζπλεκί-

ηνλν ηεο γσλίαο πνπ ζρεκαηίδνπλ (πεξηγξάθεηαη ζην θεθάιαην 2) ή κε θάπνηα άιιε ηε-

ρληθή.

1.2 Γομή επγαζίαρ

Η νξγάλσζε ηεο δηπισκαηηθήο εξγαζίαο έρεη σο εμήο: ζην δεχηεξν θεθάιαην παξνπ-

ζηάδνπκε ζπλαθείο κειέηεο (related work), δειαδή κεζφδνπο θαηεγνξηνπνίεζεο κε ηηο

νπνίεο ζπγθξίλεηαη ε ηερληθή SVD. Σην ηξίην θεθάιαην πεξηγξάθεηαη ε κέζνδνο SVD,

ηελ νπνία πξνηείλνπκε γηα ηελ θαηεγνξηνπνίεζε θεηκέλσλ βάζε αλαγλσζηκφηεηαο. Σην

ηέηαξην θεθάιαην αλαθεξφκαζηε ζηελ γελλήηξηα θεηκέλσλ πνπ πινπνηήζεθε ζηα πιαί-

ζηα ηεο δηπισκαηηθήο εξγαζίαο, θαζψο θαη ζηελ ζπιινγή δεδνκέλσλ Reuters-21578.

Σην πέκπην θεθάιαην παξνπζηάδνληαη ηα απνηειέζκαηα ησλ πεηξακάησλ πνπ έγηλαλ

θαη ε ζχγθξηζε ηεο απφδνζεο ησλ αιγνξίζκσλ. Σην έθην θαη ηειεπηαίν θεθάιαην ζπ-

λνςίδνπκε ηελ εξγαζία θαη αλαθεξφκαζηε ζε κειινληηθή έξεπλα πνπ κπνξεί λα γίλεη.

Τέινο, ζην παξάξηεκα παξαζέηνπκε νδεγίεο ρξήζεο ηνπ θψδηθα ηεο εξγαζίαο θαη ηεο

γελλήηξηαο θεηκέλσλ.

Page 13: svd diplomatiki

-7-

2 Καηηγοπιοποίηζη κειμένων - Μέθοδοι

Σε απηφ ην θεθάιαην πεξηγξάθνληαη νη κέζνδνη κε ηηο νπνίεο ζπγθξίζεθε ν αιγφξηζκνο

πνπ πξνηείλεηαη κέζα απφ απηή ηελ εξγαζία. Γηα λα πξαγκαηνπνηεζεί ε αμηνιφγεζε

ησλ απνηειεζκάησλ, πινπνηήζεθαλ νη αιγφξηζκνη ηεο νκνηφηεηαο ζπλεκηηφλνπ θαη ηνπ

SVD-Aggregation.

2.1 Flesh

Τν Flesh είλαη έλα ηεζη αλαγλσζηκφηεηαο πνπ ζρεδηάζηεθε κε ζθνπφ λα ππνδεηθλχεη

ηελ δπζθνιία θαηαλφεζεο θεηκέλσλ γξακκέλσλ ζε ζχγρξνλε αγγιηθή γιψζζα. Υπάξ-

ρνπλ δχν εηδψλ ηεζη Flesh, ην Flesh Reading Ease θαη ην Flesh-Kincaid Grade Level.

Παξφιν πνπ ρξεζηκνπνηνχλ θαη βαζίδνληαη ζηηο ίδηεο κεηξηθέο, δειαδή ην κήθνο ησλ

ιέμεσλ θαη ην κήθνο ησλ πξνηάζεσλ, έρνπλ δηαθνξεηηθνχο παξάγνληεο βάξνπο, κε ζπ-

λέπεηα ηα απνηειέζκαηά ηνπο λα ζπζρεηίδνληαη πεξίπνπ αληίζηξνθα. Με άιια ιφγηα,

έλα θείκελν κε ζρεηηθά πςειή βαζκνινγία ζην Flesh Reading Ease ζα πξέπεη λα έρεη

ρακειφηεξε βαζκνινγία ζην Flesh-Kincaid Grade Level. Καη ηα δχν ηεζη επηλνήζεθαλ

απφ ηνλ Rudolf Flesh (ην δεχηεξν ζε ζπλεξγαζία κε ηνλ J. Peter Kincaid), ζπγγξαθέα

θαη εηδηθφ ζηελ αλαγλσζηκφηεηα.

Τν Flesh-Kincaid Grade Level αλαπηχρζεθε ην 1975 γηα ην Πνιεκηθφ Ναπηηθφ ησλ

Ηλσκέλσλ Πνιηηεηψλ απφ ηνλ J. Peter Kincaid θαη ηελ νκάδα ηνπ θαη απφ ηνλ Rudolf

Flesh. Η θφξκνπια ηνπ Flesh Reading Ease ρξεζηκνπνηήζεθε γηα πξψηε θνξά ην 1978

απφ ηνλ ακεξηθαληθφ ζηξαηφ γηα ηελ αμηνιφγεζε ηεο δπζθνιίαο ηερληθψλ εγρεηξηδίσλ.

Η Κνηλνπνιηηεία ηεο Πελζπιβάληα ήηαλ ε πξψηε πνιηηεία ησλ ΗΠΑ πνπ απαίηεζε ε

δπζθνιία ηεο γιψζζαο ησλ αζθαιηζηεξίσλ ζπκβνιαίσλ απηνθηλήησλ λα κελ μεπεξλάεη

ηνλ έλαην βαζκφ ηνπ Flesh Reading Ease. Απηφ απνηειεί ζήκεξα ζπλεζηζκέλε απαίηε-

ζε ζε πνιιέο άιιεο πνιηηείεο θαη γηα άιια λνκηθά έγγξαθα φπσο ηα αζθαιηζηήξηα

ζπκβφιαηα.

Ο ππνινγηζκφο ηνπ Flesh Reading Ease βαζίδεηαη ζε ηξία κεγέζε: ην ζχλνιν ησλ ζπι-

ιαβψλ ζην θείκελν, ην ζχλνιν ησλ ιέμεσλ θαη ην ζχλνιν ησλ πξνηάζεσλ. ζν πςειφ-

Page 14: svd diplomatiki

-8-

ηεξε είλαη ε βαζκνινγία ελφο θεηκέλνπ ηφζν πην εχθνιν είλαη ζηελ αλάγλσζε ην θείκε-

λν απηφ. Ο ηχπνο ππνινγηζκνχ ηεο βαζκνινγίαο είλαη ν εμήο:

Μεγαιχηεξνο αξηζκφο ιέμεσλ αλά πξφηαζε θαζψο θαη πεξηζζφηεξεο ζπιιαβέο αλά ιέ-

με ζεκαίλνπλ κεγαιχηεξε δπζθνιία θαη κηθξφηεξε βαζκνινγία θαη ην αληίζεην.

Η πςειφηεξε δπλαηή βαζκνινγία (πνπ ζπλεπάγεηαη κε ηελ κεγαιχηεξε δπλαηή επθνιί-

α) είλαη 120, φπνπ θάζε πξφηαζε απνηειείηαη κφλν απφ δχν ιέμεηο κηαο ζπιιαβήο. Κά-

ησ φξην ζεσξεηηθά δελ ππάξρεη, αθνχ δελ ππάξρεη άλσ φξην ζηνλ αξηζκφ ησλ ιέμεσλ

αλά πξφηαζε, νχηε θαη ζηνλ αξηζκφ ησλ ζπιιαβψλ αλά ιέμε. Σηελ ζπλέρεηα παξνπζηά-

δεηαη ε επεμήγεζε ηεο βαζκνιφγεζεο απφ ην 0 κέρξη ην 100 κε ηε κνξθή πίλαθα.

Πίνακαρ 1: Δπεμήγεζε ηεο βαζκνιφγεζεο ηνπ Flesh Reading Ease

Βαθμολογία Flesh

Reading Ease

Επίπεδο αναγνωςιμό-

τητασ

90-100 Πνιχ εχθνιν

80-89 Δχθνιν

70-79 Αξθεηά εχθνιν

60-69 Μέηξην

50-59 Αξθεηά δχζθνιν

30-49 Γχζθνιν

0-29 Πνιχ δχζθνιν

Αθνινπζεί έλαο κηθξφηεξνο πίλαθαο πνπ επεμεγεί ην ζθνξ ηεο κεζφδνπ κε δηαθνξεηηθφ

ηξφπν.

Page 15: svd diplomatiki

-9-

Πίνακαρ 2: Δλλαιαθηηθή επεμήγεζε ηεο βαζκνινγίαο ηνπ Flesh Reading Ease

Βαθμολογία Περιγραφή

90-100 Δχθνια θαηαλνεηφ θείκελν απφ έλαλ κέζν εληεθάρξνλν κα-

ζεηή

60-70 Δχθνια θαηαλνεηφ θείκελν απφ έλαλ κέζν δεθαηξηάρξνλν-

δεθαπεληάρξνλν καζεηή

0-30 Καιχηεξα θαηαλνεηφ θείκελν απφ καζεηέο ιπθείνπ ή θνη-

ηεηέο

Γηα λα δψζνπκε έλα παξάδεηγκα, έζησ φηη έρνπκε ην παξαθάησ θείκελν απφ ηνλ ζχλ-

δεζκν http://en.wikipedia.org/wiki/Alan_Turing πνπ αλαθέξεηαη ζηνλ Alan Turing:

“Alan Mathison Turing, OBE, FRS (pronounced TEWR-ing; 23 June 1912 – 7 June

1954), was an English mathematician, logician, cryptanalyst and computer scientist. He

was highly influential in the development of computer science, providing a formaliza-

tion of the concepts of "algorithm" and "computation" with the Turing machine, which

played a significant role in the creation of the modern computer. During the Second

World War, Turing worked for the Government Code and Cypher School at Bletchley

Park, Britain's code breaking center. For a time he was head of Hut 8, the section re-

sponsible for German naval cryptanalysis. He devised a number of techniques for break-

ing German ciphers, including the method of the bombe, an electromechanical machine

that could find settings for the Enigma machine. After the war he worked at the Nation-

al Physical Laboratory, where he created one of the first designs for a stored-program

computer, the ACE.”

Σχλνιν ζπιιαβψλ: 256

Σχλνιν ιέμεσλ: 144

Σχλνιν πξνηάζεσλ: 7

Αληηθαζηζηψληαο ζηνλ ηχπν ππνινγηζκνχ ηνπ Flesh Reading Ease βξίζθνπκε ην ζθνξ

ηνπ θεηκέλνπ:

Page 16: svd diplomatiki

-10-

Η βαζκνινγία ηνπ Flesh Reading Easy απηήο ηεο παξαγξάθνπ είλαη 35.56 πνπ ζεκαίλεη

φηη είλαη θαηάιιειν γηα καζεηέο ιπθείνπ ή θαη γηα θνηηεηέο.

Η ρξήζε απηήο ηεο θιίκαθαο είλαη ηφζν ζπλεζηζκέλε πνπ έρεη ζπκπεξηιεθζεί ζε δεκν-

θηιή πξνγξάκκαηα επεμεξγαζίαο θεηκέλνπ φπσο Microsoft Office Word, KWord,

WordPro, IBM Lotus Symphony, Abiword θαη WordPerfect.

Σηελ παξνχζα εξγαζία δνθηκάδεηαη θαη ζπγθξίλεηαη κε ηηο ππφινηπεο κεζφδνπο κφλν ην

Flesh Reading Ease. Σηα επφκελα θεθάιαηα, γηα ζπληνκία, αλαθεξφκαζηε ζην Flesh

Reading Ease κφλν κε ηελ ιέμε Flesh.

2.2 Ομοιόηηηα ζςνημιηόνος

Η νκνηφηεηα ζπλεκηηφλνπ είλαη κηα κεηξηθή νκνηφηεηαο κεηαμχ δχν δηαλπζκάησλ ε ν-

πνία κεηξά ην ζπλεκίηνλν ηεο γσλίαο πνπ ζρεκαηίδνπλ. Με άιια ιφγηα, καο δείρλεη θα-

ηά πφζν ηα δχν δηαλχζκαηα δείρλνπλ πξνο ηελ ίδηα θαηεχζπλζε. Τν απνηέιεζκα ηεο

ζπλάξηεζεο ζπλεκηηφλνπ παίξλεη ηηκέο απφ -1 έσο 1. ηαλ ε γσλία είλαη 0˚, ην ζπλεκί-

ηνλν ηεο γσλίαο είλαη 1, πνπ ζεκαίλεη φηη ηα δηαλχζκαηα είλαη παλνκνηφηππα. ηαλ ε

γσλία είλαη 90˚ ην ζπλεκίηνλν παίξλεη ηηκή 0 θαη απηφ κεηαθξάδεηαη σο αλεμαξηεζία,

δειαδή ηα δηαλχζκαηα είλαη αλεμάξηεηα. Η ηξίηε πεξίπησζε είλαη ηα δηαλχζκαηα λα

ζρεκαηίδνπλ γσλία 180˚ φπνπ ην απνηέιεζκα ηεο ζπλάξηεζεο ζπλεκηηφλνπ είλαη -1.

ηαλ ζπκβαίλεη απηφ, ηα δπν δηαλχζκαηα είλαη αληίζεηα θαη αλνκνηφκνξθα. Οη ππφινη-

πεο ελδηάκεζεο ηηκέο δειψλνπλ θάπνην βαζκφ νκνηφηεηαο (αλ είλαη ζεηηθέο) ή αλνκνηφ-

ηεηαο (αλ είλαη αξλεηηθέο).

Σηελ πεξίπησζε ηεο ζχγθξηζεο δηαλπζκάησλ εγγξάθσλ, νη ηηκέο πνπ δίλεη ε ζπλάξηεζε

ζπλεκηηφλνπ θπκαίλνληαη απφ 0 έσο 1, δηφηη νη ζπρλφηεηεο ησλ φξσλ δελ κπνξεί λα εί-

λαη αξλεηηθέο. Η γσλία κεηαμχ ησλ δχν εγγξάθσλ δελ κπνξεί λα είλαη κεγαιχηεξε απφ

90˚.

Η κέζνδνο ππνινγηζκνχ ηεο νκνηφηεηαο ζπλεκηηφλνπ πξνθχπηεη απφ ηνλ νξηζκφ ηνπ

εζσηεξηθνχ γηλνκέλνπ δχν δηαλπζκάησλ. Τν εζσηεξηθφ γηλφκελν δπν δηαλπζκάησλ

θαη είλαη:

Page 17: svd diplomatiki

-11-

φπνπ θαη ηα κέηξα ησλ δηαλπζκάησλ θαη αληίζηνηρα θαη θ ε γσλία πνπ

ζρεκαηίδνπλ. Δπνκέλσο, αλ έρνπκε δπν δηαλχζκαηα ζπρλνηήησλ A θαη B, ε νκνηφηεηα

ζπλεκηηφλνπ ησλ αληίζηνηρσλ εγγξάθσλ ζα ππνινγηζηεί απφ ηνλ ηχπν:

Σηελ Δηθφλα 1 θαίλεηαη ε γξαθηθή αλαπαξάζηαζε δπν δηαλπζκάησλ ζηνλ δπζδηάζηαην

ρψξν θαη ε γσλία θ πνπ ζρεκαηίδνπλ.

Εικόνα 1: Η γσλία θ πνπ ζρεκαηίδνπλ δπν δηαλίζκαηα

Γηα λα ηα δνχκε θαη ζηελ πξάμε, παίξλνπκε ην παξάδεηγκα ηνπ πξψηνπ θεθαιαίνπ κε

ηα ηξία έγγξαθα:

Έγγξαθν 1: The Sun is a star.

Έγγξαθν 2: The Earth is a planet.

Έγγξαθν 3: The Earth is smaller than the Sun.

Τν ιεμηθφ είλαη:

Λεμηθφ = [a, Earth, is, planet, smaller, star, Sun, than, the]

Καη ηα δηαλχζκαηα ζπρλνηήησλ:

Έγγξαθν 1 = [1, 0, 1, 0, 0, 1, 1, 0, 1]

Έγγξαθν 2 = [1, 1, 1, 1, 0, 0, 0, 0, 1]

Έγγξαθν 3 = [0, 1, 1, 0, 1, 0, 1, 1, 2]

Page 18: svd diplomatiki

-12-

Έζησ φηη ππάξρεη έλα ηέηαξην έγγξαθν, γηα ην νπνίν πξέπεη λα ππνινγηζζεί ε νκνηφηε-

ηα ζπλεκηηφλνπ κε ηα πξνεγνχκελα ηξία:

Έγγξαθν 4: The Sun is not a planet.

Με δηάλπζκα:

Έγγξαθν 4 = [1, 0, 1, 1, 0, 0, 1, 0, 1]

Τα πξψηα ηξία έγγξαθα απνηεινχλ ην training set θαη ην ηέηαξην ην test set. Ο ιφγνο

πνπ πξέπεη λα ππνινγηζζεί ε νκνηφηεηα ζπλεκηηφλνπ ηνπ ηεηάξηνπ εγγξάθνπ κε ηα π-

πφινηπα ηξία είλαη γηα λα βξεζεί ζε πνηα θαηεγνξία αλήθεη. Υπνζέηνπκε φηη ηα πξψηα

ηξία έγγξαθα αλήθνπλ ζε δηαθνξεηηθέο θαηεγνξίεο. Θα κπνξνχζακε, επίζεο, λα ππνζέ-

ζνπκε φηη δπν απφ απηά ηα έγγξαθα αλήθνπλ ζηελ ίδηα θαηεγνξία. Έηζη, κε φπνην απφ

ηα ηξία έγγξαθα ππάξρεη κεγαιχηεξε νκνηφηεηα, ζε απηή ηελ θαηεγνξία αλήθεη θαη ην

ηέηαξην έγγξαθν. Οη νκνηφηεηεο είλαη:

Έγγξαθν 1 κε Έγγξαθν 4:

Έγγξαθν 2 κε Έγγξαθν 4:

Έγγξαθν 3 κε Έγγξαθν 4:

Τν Έγγξαθν 4 ηπραίλεη λα έρεη ίδηα νκνηφηεηα κε ηα Έγγξαθα 1 θαη 2 αιιά παξνπζηάδεη

κεγαιχηεξε νκνηφηεηα κε ην Έγγξαθν 3. Άξα αλ ην Έγγξαθν 3 αλήθεη ζε κηα θαηεγν-

ξία Κ, ηφηε θαηαιήγνπκε φηη θαη ην Έγγξαθν 4 αλήθεη ζε απηή ηελ θαηεγνξία.

Σηελ παξνχζα δηπισκαηηθή ν αιγφξηζκνο ηεο νκνηφηεηαο ζπλεκηηφλνπ πνπ πινπνηήζε-

θε ιεηηνπξγεί σο εμήο: θάζε έγγξαθν απφ ην test set ζπγθξίλεηαη κε φια ηα έγγξαθα ηνπ

training set απφ ηα νπνία θξαηηνχληαη ηα πέληε θαιχηεξα (κε ηελ κεγαιχηεξε νκνηφηε-

ηα). Η θαηεγνξία ζηελ νπνία θαηαηάζζεηαη ην test έγγξαθν πξνθχπηεη απφ ηηο θαηεγν-

ξίεο ζηηο νπνίεο αλήθνπλ ηα πέληε train έγγξαθα. Δπηιέγεηαη ε θαηεγνξία ζηελ νπνία

αλήθνπλ ηα πεξηζζφηεξα απφ ηα πέληε training έγγξαθα. Γηα παξάδεηγκα, αλ ηξία απφ

ηα πέληε training έγγξαθα αλήθνπλ ζε κηα θαηεγνξία Κ1, ηφηε θαη ην test έγγξαθν θα-

ηαηάζζεηαη ζε απηήλ. Σε πεξίπησζε ηζνβαζκίαο, δειαδή δπν έγγξαθα λα αλήθνπλ ζηελ

θαηεγνξία Κ1, δπν ζηελ Κ2 θαη ην ηειεπηαίν ζηελ Κ3, ηφηε επηιέγεηαη ε θαηεγνξία

Page 19: svd diplomatiki

-13-

ζηελ νπνία αλήθεη ην έγγξαθν κε ηελ κεγαιχηεξε νκνηφηεηα ζπλεκηηφλνπ. Απηή ε δηα-

δηθαζία επαλαιακβάλεηαη γηα θάζε έγγξαθν ηνπ test set.

2.3 SVD και Aggregation

Ο ζπλδπαζκφο ηεο ηερληθήο Singular Value Decomposition κε θάπνηα ζπλάξηεζε ζπ-

λάζξνηζεο (Aggregation) είλαη κηα παξαιιαγή/επέθηαζε ηoy αιγνξίζκνπ πνπ πξνηείλε-

ηαη ζηελ παξνχζα εξγαζία. Η ηερληθή SVD πεξηγξάθεηαη αλαιπηηθά ζην επφκελν θε-

θάιαην, γηα απηφ ηνλ ιφγν εδψ αλαθέξνληαη κφλν ηα βαζηθά ηεο.

πσο θαη κε ηελ κέζνδν ηεο νκνηφηεηαο ζπλεκηηφλνπ, έηζη θαη εδψ έρνπκε training set

θαη test set. Με ηα δηαλχζκαηα ζπρλνηήησλ ησλ εγγξάθσλ ηνπ training set ζρεκαηίδεηαη

έλαο πηλάθαο ηνπ νπνίνπ ε θάζε ζεηξά είλαη θαη έλα δηάλπζκα ζπρλνηήησλ (Πίλαθαο 3).

Πίνακαρ 3: Η κνξθή ηνπ πίλαθα κε ηα δηαλχζκαηα ζπρλνηήησλ ησλ εγγξάθσλ

ξνο 1 ξνο 2 …. ξνο n

Έγγξαθν 1

Έγγξαθν 2

Έγγξαθν m

Τν ζχλνιν ησλ εγγξάθσλ ηνπ training set νξίδεη ηνλ αξηζκφ ησλ γξακκψλ ηνπ πίλαθα

ελψ ν αξηζκφο ησλ ζηειψλ νξίδεηαη απφ ην κέγεζνο ηνπ ιεμηθνχ. Ολνκάδνπκε απηφλ

ηνλ πίλαθα .

Η κέζνδνο SVD δηαζπάεη ηνλ πίλαθα ζε ηξεηο πίλαθεο:

Ο πίλαθαο U απνηειείηαη απφ νξζνθαλνληθέο ζηήιεο νη νπνίεο νξίδνπλ έλα ρψξν δηαλπ-

ζκάησλ πνπ εθθξάδεη ζχλνια φξσλ. Δπνκέλσο θάζε θείκελν νξίδεηαη σο γξακκηθφο

ζπλδπαζκφο θάπνησλ ζπλφισλ φξσλ. Τα ζχλνια απηά είλαη γξακκηθά αλεμάξηεηα (α-

θνχ νη ζηήιεο είλαη θάζεηεο κεηαμχ ηνπο) θαη κπνξνχκε λα πνχκε φηη ην θαζέλα νξίδεη

θαη κηα θαηεγνξία δηαθνξεηηθή απφ ηηο άιιεο.

Σηελ ζπλέρεηα απφ θάζε ζηήιε i ηνπ πίλαθα δεκηνπξγείηαη έλαο πίλαθαο

(1≤i≤m) πνπ θαιείηαη πίλαθαο απνζηάζεσλ, δηφηη πεξηέρεη ηηο απνζηάζεηο (δειαδή ηελ

Page 20: svd diplomatiki

-14-

δηαθνξά) θάζε ηηκήο ηεο ζπγθεθξηκέλεο ζηήιεο ηνπ U απφ ηηο ππφινηπεο ηηκέο ηεο ζηή-

ιεο απηήο. Ο έρεη m ζηήιεο άξα νη πίλαθεο απνζηάζεσλ είλαη m ζην ζχ-

λνιφ ηνπο. Ο Πίλαθαο 4 δείρλεη ηελ κνξθή απηψλ ησλ πηλάθσλ νη νπνίνη είλαη ζπκκε-

ηξηθνί κε κεδεληθά ζηελ δηαγψλην (αθνχ κηα ηηκή έρεη απφζηαζε 0 απφ ηνλ εαπηφ ηεο).

Πίνακαρ 4: Η κνξθή πνπ έρεη έλαο πίλαθαο απνζηάζεσλ

Έγγξαθν 1 Έγγξαθν 2 … Έγγξαθν m

Έγγξαθν 1 0

Έγγξαθν 2 0

⁞ 0

Έγγξαθν m 0

Οη ηηκέο ησλ πηλάθσλ απνζηάζεσλ θαλνληθνπνηνχληαη κε ηνλ ηχπν:

φπνπ x ε ηηκή πνπ θαλνληθνπνηείηαη, ε κέζε ηηκή ησλ ηηκψλ ηνπ πίλαθα θαη s ε

ηππηθή απφθιηζε πνπ ππνινγίδεηαη απφ ηνλ ηχπν:

φπνπ νη ηηκέο ηνπ πίλαθα ζηνλ νπνίν γίλεηαη ε θαλνληθνπνίεζε

θαη Ν ην πιήζνο απηψλ ησλ ηηκψλ.

Μεηά ηελ θαλνληθνπνίεζε ησλ πηλάθσλ κε ηηο απνζηάζεηο, νη πίλαθεο απηνί ζπλαζξνί-

δνληαη γηα λα δεκηνπξγεζεί ν πίλαθαο ζπλάζξνηζεο (aggregated matrix) . Γηα ηελ

έλσζε ησλ πηλάθσλ D ρξεζηκνπνηείηαη κηα απφ ηηο ζπλαξηήζεηο ζπλάζξνηζεο πνπ π-

πάξρνπλ. Μεξηθέο απφ απηέο είλαη ε ειάρηζηε ηηκή, ε κέγηζηε ηηκή, ν κέζνο φξνο, ε

δηάκεζνο θαη ην άζξνηζκα. Σηελ πινπνίεζε ηνπ αιγνξίζκνπ ρξεζηκνπνηήζεθε ε ζπλάξ-

ηεζε ηνπ αζξνίζκαηνο. Απηφ ζεκαίλεη φηη ε ηηκή ελφο θειηνχ ηνπ πίλαθα M είλαη ην ά-

ζξνηζκα ησλ ηηκψλ ησλ αληίζηνηρσλ θειηψλ ησλ πηλάθσλ D. Με άιια ιφγηα, ε ηηκή ζην

πξψην θειί ηνπ M είλαη ην άζξνηζκα ησλ ηηκψλ ησλ πξψησλ θειηψλ φισλ ησλ πηλάθσλ

Page 21: svd diplomatiki

-15-

D, ε ηηκή ζην δεχηεξν θειί ηνπ M ην άζξνηζκα ησλ δεχηεξσλ θειηψλ ησλ D θαη νχησ

θαζεμήο. Έηζη, ν πίλαθαο M είλαη νπζηαζηηθά έλαο ζπκκεηξηθφο πίλαθαο (αθνχ θαη νη

πίλαθεο D είλαη ζπκκεηξηθνί) πνπ δείρλεη ηηο απνζηάζεηο θάζε εγγξάθνπ κε φια ηα ππφ-

ινηπα ιακβάλνληαο ππφςε φια ηα δηαλχζκαηα (ζηήιεο) ηνπ πίλαθα U.

Η αμηνιφγεζε γίλεηαη ζπγθξίλνληαο θάζε έγγξαθν ηνπ test set κε ηα έγγξαθα ηνπ train-

ing set. Αξρηθά γηα ην test έγγξαθν ππνινγίδεηαη έλα δηάλπζκα κε δηαζηάζεηο m:

Οη δηαζηάζεηο ησλ πηλάθσλ V θαη S αιιάδνπλ φηαλ ππάξρνπλ θαη αθαηξνχληαη κεδελη-

θέο ζηήιεο απφ ηνλ S (νη ζηήιεο δειαδή πνπ δελ “ζπκκεηέρνπλ” ζηελ δηαγψλην). Αλ

αθαηξέζνπκε θαη άιιεο ζηήιεο απφ ηνλ S ηφηε ε ηειεπηαία εμίζσζε γίλεηαη:

Τν λέν δηάλπζκα αλήθεη ζηνλ ρψξν δηαζηάζεσλ c, φπνπ ην c είλαη ν αξηζκφο ησλ ζηε-

ιψλ πνπ έρνπλ απνκείλεη ζηνλ S. Σηελ ζπλέρεηα, ην δηάλπζκα doc_new ζπγθξίλεηαη κε

φιεο ηηο γξακκέο ηνπ πίλαθα U. Κάζε γξακκή ηνπ U αληηζηνηρεί θαη ζε έλα έγγξαθν ηνπ

training set. Η ζχγθξηζε γίλεηαη κε ηνλ ππνινγηζκφ ηεο νκνηφηεηαο ζπλεκηηφλνπ. Αθνχ

βξεζεί ην δηάλπζκα-γξακκή κε ηελ κεγαιχηεξε νκνηφηεηα, βξίζθνπκε ζηνλ πηλάθα M

ηα πέληε έγγξαθα πνπ έρνπλ ηελ κηθξφηεξε απφζηαζε (άξα θαη κεγαιχηεξε νκνηφηεηα)

απφ ην έγγξαθν πνπ αληηζηνηρεί ζε απηή ηελ γξακκή. Ο πξνζδηνξηζκφο ηεο θαηεγνξίαο

ηνπ εγγξάθνπ εμαξηάηαη απφ ηηο θαηεγνξίεο ησλ πέληε απηψλ εγγξάθσλ. Δπηιέγεηαη ε

επηθξαηέζηεξε θαηεγνξία ζηα πέληε έγγξαθα.

Γηα λα γίλνπλ πην θαηαλνεηά ηα πξνεγνχκελα, αθνινπζεί έλα παξάδεηγκα. Ο Πίλαθαο 5

πεξηέρεη ηα δηαλχζκαηα ζπρλνηήησλ δέθα εγγξάθσλ. πσο θαίλεηαη, ην ιεμηθφ απνηε-

ιείηαη απφ δψδεθα φξνπο. Τα πξψηα πέληε έγγξαθα αλήθνπλ ζηελ ίδηα θαηεγνξία, ηελ

νπνία νλνκάδνπκε Κ1, θαη ηα ππφινηπα πέληε ζε κηα άιιε θαηεγνξία Κ2.

Δθαξκφδνληαο ηελ κέζνδν SVD ζηνλ πίλαθα απηφλ, παίξλνπκε ηνπο ηξεηο πίλαθεο

, θαη (πην αλαιπηηθή επεμήγεζε γηα ην βήκα απηφ ππάξρεη ζην

Κεθάιαην 3).

Page 22: svd diplomatiki

-16-

Πίνακαρ 5: Γηαλχζκαηα ζπρλνηήησλ δέθα εγγξάθσλ

Ο1 Ο2 Ο3 Ο4 Ο5 Ο6 Ο7 Ο8 Ο9 Ο10 Ο11 Ο12

Δ1 4 2 6 5 2 1 0 0 1 1 2 2

Δ2 3 5 4 1 1 3 1 0 0 0 0 0

Δ3 0 3 5 3 0 0 1 1 0 0 1 1

Δ4 6 1 0 4 2 1 0 0 2 2 3 4

Δ5 5 0 2 0 1 0 3 0 0 1 5 0

Δ6 2 6 3 3 1 1 0 2 0 2 3 3

Δ7 0 0 2 3 5 4 6 1 1 0 4 3

Δ8 1 1 1 2 4 2 3 1 2 2 5 1

Δ9 2 2 0 5 3 6 1 2 0 0 2 6

Δ10 3 0 1 1 4 4 0 1 1 2 4 2

Γηα θαιχηεξε απφδνζε, απνθαζίδνπκε λα ρξεζηκνπνηήζνπκε ην 75% ηεο πιεξνθνξίαο

απηψλ ησλ πηλάθσλ. Τν πην πηζαλφ είλαη ην ππφινηπν 25% λα πεξηέρεη πεξηζζφηεξν ζφ-

ξπβν παξά ρξήζηκε πιεξνθνξία πνπ ζα βνεζήζεη ζηνλ δηαρσξηζκφ ησλ δχν θαηεγν-

ξηψλ. Οη ηηκέο ζηελ δηαγψλην ηνπ S είλαη ζε θζίλνπζα ζεηξά, πνπ ζεκαίλεη φηη νη ζεκα-

ληηθφηεξεο ζηήιεο (κε ηηο κεγαιχηεξεο ηηκέο) είλαη νη πξψηεο. Γηα απηφ ηνλ ιφγν, αθαη-

ξνχληαη ζηήιεο απφ ην ηέινο ηνπ πίλαθα. Τν 75% είλαη ην πνζνζηφ πνπ θξαηάκε απφ ην

άζξνηζκα απηψλ ησλ ηηκψλ. Τν απνηέιεζκα είλαη λα κείλνπλ νη πξψηεο ηέζζεξηο ζηήιεο

ηνπ πίλαθα S θαη λα αθαηξεζνχλ νη αληίζηνηρεο ζηήιεο θαη γξακκέο απφ ηνπο U θαη V.

Οη ηξεηο λένη πίλαθεο U, S θαη είλαη νη εμήο:

Page 23: svd diplomatiki

-17-

Απφ ηηο ζηήιεο ηνπ U δεκηνπξγνχληαη νη πίλαθεο απνζηάζεσλ . Σην παξάδεηγκά καο

έρνπκε ηέζζεξηο ζηήιεο, άξα ζα πξνθχςνπλ ηέζζεξηο πίλαθεο απνζηάζεσλ. Οη δηαζηά-

ζεηο ησλ πηλάθσλ απηψλ ζα είλαη 1010 αθνχ θάζε ζηήιε έρεη δέθα ηηκέο. Δδψ δεί-

ρλνπκε κφλν ηνλ πξψην πίλαθα κηαο θαη δελ ππάξρεη ιφγνο λα δείμνπκε ηνπο ππφινη-

πνπο:

Οη ηηκέο ζηνλ πίλαθα δελ έρνπλ θαλνληθνπνηεζεί αθφκα. Οπφηε ην επφκελν βή-

κα είλαη ε θαλνληθνπνίεζε ησλ ηηκψλ θαη ζηνπο ηέζζεξηο πίλαθεο. Αθνχ γίλεη απηφ,

ηνπο πξνζζέηνπκε θαη παίξλνπκε ηνλ πίλαθα M:

Page 24: svd diplomatiki

-18-

Πίνακαρ 6: Ο πίλαθαο ζπλάζξνηζεο Μ

E1 E2 E3 E4 E5 E6 E7 E8 E9 E10

E1 0 -0.79 -0.14 -0.6 0.21 -1.88 0.36 -0.46 0.3 -0.71

E2 -0.79 0 -1.86 0.81 -0.35 -1.2 0.81 -0.32 1.52 0.01

E3 -0.14 -1.86 0 1.45 0.27 -0.65 0.84 0.2 2.07 0.65

E4 -0.6 0.81 1.45 0 0.34 -0.27 0.89 -0.33 0.12 -0.95

E5 0.21 -0.35 0.27 0.34 0 0.31 1.36 -0.45 1.5 -0.39

E6 -1.88 -1.2 -0.65 -0.27 0.31 0 0.23 -0.36 0.21 -0.69

E7 0.36 0.81 0.84 0.89 1.36 0.23 0 -0.69 0.23 -0.09

E8 -0.46 -0.32 0.2 -0.33 -0.45 -0.36 -0.69 0 0.47 -1.62

E9 0.3 1.52 2.07 0.12 1.5 0.21 0.23 0.47 0 -0.36

E10 -0.71 0.01 0.65 -0.95 -0.39 -0.69 -0.09 -1.62 -0.36 0

Ο πίλαθαο M είλαη ζπκκεηξηθφο δηφηη είλαη ζπκκεηξηθνί θαη νη πίλαθεο απνζηάζεσλ .

Η ηηκή κεδέλ ζε απηφλ ηνλ πίλαθα ζεκαίλεη φηη δχν έγγξαθα ηαηξηάδνπλ απφιπηα. Γηα

απηφ ηνλ ιφγν ε δηαγψληνο απνηειείηαη κφλν απφ κεδεληθά. ζν γηα ηηο ππφινηπεο ηη-

κέο, φζν πην θνληά είλαη ζην κεδέλ, ηφζν κηθξφηεξε απφζηαζε έρνπλ ηα δχν έγγξαθα,

άξα θαη κεγαιχηεξε νκνηφηεηα.

Έζησ φηη έρνπκε έλα έγγξαθν, ην νλνκάδνπκε test, ην νπνίν πξέπεη λα ην θαηαηάμνπκε

ζε κηα απφ ηηο δχν θαηεγνξίεο:

Σηελ ζπλέρεηα, πξέπεη λα ην ζπγθξίλνπκε κε ηα ππφινηπα έγγξαθα γηα λα βξνχκε κε

πνην έρεη ηελ κεγαιχηεξε νκνηφηεηα. Γηα λα γίλεη απηφ, ζα πξέπεη ην δηάλπζκα ζπρλν-

ηήησλ ηνπ εγγξάθνπ λα ην θέξνπκε ζηηο ηέζζεξηο δηαζηάζεηο:

Τν απνηέιεζκα απηή ηεο πξάμεο είλαη:

Τν λέν απηφ δηάλπζκα αληηπξνζσπεχεη ην test έγγξαθν ζηηο ηέζζεξηο δηαζηάζεηο. Τα

δηαλχζκαηα ησλ training εγγξάθσλ βξίζθνληαη ζηνλ πίλαθα U. Έηζη, γηα λα ζπγθξίλνπ-

Page 25: svd diplomatiki

-19-

κε ην λέν έγγξαθν κε ηα πξνεγνχκελα, πξέπεη λα ζπγθξηζεί ην δηάλπζκα κε ηηο

γξακκέο ηνπ πίλαθα U. Η ζχγθξηζε γίλεηαη κε ππνινγηζκφ ηεο νκνηφηεηαο ζπλεκηηφλνπ

κεηαμχ ησλ δηαλπζκάησλ. Οη νκνηφηεηα ηνπ κε ηα ππφινηπα έγγξαθα θαίλεηαη

ζηνλ πίλαθα πνπ αθνινπζεί:

Πίνακαρ 7: Οκνηφηεηα ησλ δέθα εγγξάθσλ κε ην λέν έγγξαθν

Έγγραφο Ομοιότητα με το

Ε1 0.4667

Ε2 0.2153

Ε3 0.0500

Ε4 0.6460

Ε5 0.0165

Ε6 0.5662

Ε7 0.2792

Ε8 0.3283

Ε9 0.7906

Ε10 0.7395

Η κεγαιχηεξε νκνηφηεηα είλαη κε ην έγγξαθν Δ9. Δπηζηξέθνπκε ζηνλ πίλαθα Μ θαη

βξίζθνπκε κε πνηα πέληε έγγξαθα έρεη ηελ κεγαιχηεξε νκνηφηεηα, ή αιιηψο, ηελ κηθξφ-

ηεξε απφζηαζε. Οη πέληε ηηκέο πνπ είλαη πην θνληά ζην κεδέλ (εθηφο απφ ην 0 ηεο δηα-

γσλίνπ) είλαη 0.3091, 0.1200, 0.2141, 0.2338 θαη -0.3612. Οη ηηκέο απηέο αληηζηνηρνχλ

ζηα έγγξαθα Δ1, Δ4, Δ6, Δ7 θαη Δ10. Πξηλ αλαθέξακε φηη ηα έγγξαθα απφ Δ1 έσο Δ5 αλή-

θνπλ ζηελ θαηεγνξία Κ1, ελψ ηα Έ6 έσο Δ10 ζηελ θαηεγνξία Κ2. Άξα έρνπκε δχν θν-

ξέο ηελ Κ1 θαη ηξεηο θνξέο ηελ Κ2. Σε απηφ ην ζεκείν ζπκπεξαίλνπκε φηη ην αξρείν test

αλήθεη ζηελ θαηεγνξία Κ2. Αλ ε Κ1 εκθαληδφηαλ πεξηζζφηεξεο θνξέο ζε απηά ηα πέληε

έγγξαθα, ηφηε ζα επηιέγακε απηήλ. Απηφ ην παξάδεηγκα ήηαλ κε δχν θαηεγνξίεο. πσο

ζα δνχκε θαη ζηα πεηξάκαηα ηνπ θεθαιαίνπ 5, ε κέζνδνο απηή αμηνινγείηαη ζε δεδνκέ-

λα πνπ ρσξίδνληαη ζε ηξεηο θαηεγνξίεο. Τέινο, δελ ππάξρεη πεξηνξηζκφο ζηνλ αξηζκφ

ησλ θαηεγνξηψλ.

Page 26: svd diplomatiki

-20-

Page 27: svd diplomatiki

-21-

3 Singular Value Decomposition

Σε απηφ ην θεθάιαην πεξηγξάθεηαη ε κέζνδνο Singular Value Decomposition (SVD),

αλαθέξεηαη ην θίλεηξν γηα ηελ ρξήζε ηεο θαη ηέινο ππάξρεη έλα παξάδεηγκα (toy exam-

ple) γηα ηνλ ηξφπν ρξήζεο ηεο κεζφδνπ.

3.1 Κίνηηπο

Σηνλ ηνκέα ηεο εμφξπμεο δεδνκέλσλ πάληα κηιάκε γηα κεγάια ζχλνια δεδνκέλσλ. Έηζη

θαη ζηελ θαηεγνξηνπνίεζε θεηκέλσλ, ην πιήζνο ησλ εγγξάθσλ είλαη αξθεηά κεγάιν.

Δπίζεο, ην πιήζνο ησλ μερσξηζηψλ ιέμεσλ πνπ πεξηέρνπλ απηά ηα έγγξαθα είλαη αθφκα

κεγαιχηεξν. Απηφ ζπλεπάγεηαη έλα ηεξάζηην ιεμηθφ θαη θαηά ζπλέπεηα ηεξάζηην δηάλπ-

ζκα ζπρλνηήησλ γηα θάζε έγγξαθν. Η ζχγθξηζε δχν δηαλπζκάησλ κε ηφζεο πνιιέο δηα-

ζηάζεηο απαηηεί πνιιέο πξάμεηο θαη φηαλ ηα δηαλχζκαηα απηά είλαη ρηιηάδεο, ηφηε ην

ππνινγηζηηθφ θφζηνο κπνξεί λα γίλεη θαη απαγνξεπηηθφ. Δδψ έξρεηαη ε κέζνδνο SVD, ε

νπνία επηηξέπεη ηελ αλαπαξάζηαζε ησλ εγγξάθσλ κε δηαλχζκαηα πνιχ ιηγφηεξσλ δηα-

ζηάζεσλ.

Έλα άιιν πξφβιεκα πνπ απνηειεί εκπφδην ζηελ θαηεγνξηνπνίεζε θεηκέλσλ είλαη νη

φξνη (ιέμεηο) πνπ είηε απιά δελ βνεζνχλ είηε εκπνδίδνπλ ηελ ζσζηή θαηεγνξηνπνίεζε.

Σηελ πξψηε πεξίπησζε ηέηνηνη φξνη είλαη ζπρλέο ιέμεηο φπσο “a”, “on”, “in”, “and”,

“is”, “are” θαη άιια πνπ ππάξρνπλ ζε φια ηα έγγξαθα, ελψ ε δεχηεξε πεξίπησζε πεξη-

ιακβάλεη φξνπο πνπ πεξηγξάθνπλ κηα ζπγθεθξηκέλε θαηεγνξία αιιά ππάξρνπλ ζε έγ-

γξαθα πνπ αλήθνπλ ζε άιιε θαηεγνξία (ηέηνηνη φξνη είλαη θαη ιέμεηο κε δηαθνξεηηθέο

ζεκαζίεο, φπσο ε ιέμε “θφκκα” πνπ κπνξεί λα αλαθέξεηαη ζε πνιηηηθφ θφκκα ή ζην

ζεκείν ζηίμεο). Με θάπνην ηξφπν ζα πξέπεη απηνί νη φξνη λα αθαηξεζνχλ. Οη ζπρλέο

ιέμεηο, αλ θαη δελ επεξεάδνπλ πνιχ ηελ αθξίβεηα ησλ απνηειεζκάησλ, είλαη ζηελ νπζία

άρξεζηεο θαη απμάλνπλ ην ππνινγηζηηθφ θφζηνο. Αλ δελ ιάβνπκε ππφςε καο απηνχο

ηνπο φξνπο ζηελ θαηεγνξηνπνίεζε ησλ θεηκέλσλ δελ ζα έρνπκε θάπνηα απψιεηα. Αλ,

φκσο, αθαηξέζνπκε φξνπο πνπ ζπκβάινπλ ζε ιάζνο θαηεγνξηνπνίεζε, ηφηε απνηειέ-

ζκαηα ζα είλαη θαιχηεξα. Έλαο εχθνινο ηξφπνο λα αληηκεησπηζηεί ην πξφβιεκα ησλ

ζπρλψλ ιέμεσλ είλαη ηα stop words, δειαδή κηα ιίζηα κε ιέμεηο νη νπνίεο ζα αγλννχ-

Page 28: svd diplomatiki

-22-

ληαη θαηά ηελ δεκηνπξγία ηνπ ιεμηθνχ θαη ησλ δηαλπζκάησλ ζπρλνηήησλ. Γηα ηελ δεχ-

ηεξε πεξίπησζε ηα πξάγκαηα δελ είλαη ηφζν απιά. Η ηερληθή SVD έρεη ηελ δπλαηφηεηα

κείσζεο ησλ δηαζηάζεσλ ησλ δηαλπζκάησλ πνπ αλαπαξηζηνχλ ηα έγγξαθα, κεηψλνληαο

έηζη ην ππνινγηζηηθφ θφζηνο. Δπίζεο, νη δηαζηάζεηο πνπ αθαηξνχληαη είλαη απηέο πνπ

πξνζθέξνπλ ηελ ιηγφηεξε ρξήζηκε πιεξνθνξία γηα ηελ θαηεγνξηνπνίεζε, ιχλνληαο

έηζη θαη ην δεχηεξν πξφβιεκα. Η ρξήζηκε απηή πιεξνθνξία πνπ ράλεηαη είλαη πνιχ

ιηγφηεξε απφ ηνλ ζφξπβν πνπ αθαηξείηαη. Τν εξψηεκα πνπ πξνθχπηεη είλαη πφζεο δηα-

ζηάζεηο πξέπεη λα αθαηξεζνχλ. ζν ιηγνζηεχεη ν αξηζκφο ησλ δηαζηάζεσλ ηφζν απμά-

λεηαη ε απψιεηα ηεο ρξήζηκεο πιεξνθνξίαο. Η απάληεζε είλαη φηη πξέπεη λα βξεζεί κηα

ρξπζή ηνκή, θάηη ην νπνίν κπνξεί λα γίλεη κφλν κε πεηξάκαηα.

3.2 Πεπιγπαθή ηηρ μεθόδος SVD

Με ηελ κέζνδν Singular Value Decomposition (SVD), ή αιιηψο “δηάζπαζε ηδηφκνξθσλ

ηηκψλ”, κπνξνχκε λα πεηχρνπκε ηξία πξάγκαηα. Πξψηνλ, κπνξνχκε λα κεηαηξέςνπκε

κεηαβιεηέο πνπ ζπζρεηίδνληαη, ζε έλα ζχλνιν αζπζρέηηζησλ κεηαβιεηψλ ην νπνίν δεί-

ρλεη θαιχηεξα ηηο δηάθνξεο ζρέζεηο κεηαμχ ησλ αξρηθψλ δεδνκέλσλ. Γεχηεξνλ, κε ηελ

κέζνδν απηή κπνξνχκε λα πξνζδηνξίζνπκε θαη λα ηαμηλνκήζνπκε ηηο δηαζηάζεηο κεηα-

μχ ησλ ζεκείσλ ζηα δεδνκέλα, πνπ παξνπζηάδνπλ ηελ κεγαιχηεξε δηαθχκαλζε. Καη

ηξίηνλ, αθνχ εληνπίζνπκε πνχ ππάξρεη ε κεγαιχηεξε δηαθχκαλζε, είλαη δπλαηφ λα

βξνχκε ηελ θαιχηεξε πξνζέγγηζε ησλ αξρηθψλ δεδνκέλσλ ρξεζηκνπνηψληαο ιηγφηεξεο

δηαζηάζεηο. Ωο εθ ηνχην, ην SVD κπνξεί λα ζεσξεζεί κία κέζνδνο κείσζεο ησλ δεδν-

κέλσλ.

Γηα ηελ θαιχηεξε θαηαλφεζε ηεο κεζφδνπ, αο θάλνπκε κηα γξαθηθή αλαπαξάζηαζε.

Θεσξνχκε φηη ηα δεδνκέλα καο είλαη ηα ζεκεία ζηνλ δηζδηάζηαην ρψξν ζηελ Δηθφλα 2.

Η επζεία παιηλδξφκεζεο πνπ ηα δηαπεξλάεη δείρλεη ηελ θαιχηεξε πξνζέγγηζε ησλ αξ-

ρηθψλ δεδνκέλσλ κε κηα κφλν δηάζηαζε (ηελ δηάζηαζε ηεο επζείαο). Δίλαη ε θαιχηεξε

πξνζέγγηζε κε ηελ έλλνηα φηη ε ίδηα ε επζεία ειαρηζηνπνηεί ηελ απφζηαζε κεηαμχ θάζε

αξρηθνχ ζεκείνπ θαη ηεο επζείαο. Αλ ζρεδηάδακε κηα θάζεηε γξακκή απφ θάζε ζεκείν

ζηελ γξακκή παιηλδξφκεζεο θαη παίξλακε ηηο ηνκέο απηψλ ησλ γξακκψλ σο ηελ πξν-

ζέγγηζε ησλ αξρηθψλ ζεκείσλ, ηφηε ζα είρακε κηα κεησκέλε αλαπαξάζηαζε ησλ αξρη-

θψλ δεδνκέλσλ πνπ ζπιιακβάλεη φζν γίλεηαη πεξηζζφηεξν ηελ αξρηθή δηαθχκαλζε.

Page 29: svd diplomatiki

-23-

Εικόνα 2: Δπζεία παιηλδξφκεζεο

Υπάξρεη θαη κηα δεχηεξε επζεία παιηλδξφκεζεο, θάζεηε ζηελ πξψηε, πνπ θαίλεηαη

ζηελ Δηθφλα 3. Απηή ε επζεία ζπιιακβάλεη φζν γίλεηαη πεξηζζφηεξν ηελ δηαθχκαλζε

θαηά κήθνο ηεο δεχηεξεο δηάζηαζεο ηνπ αξρηθνχ ζπλφινπ δεδνκέλσλ. Η πξνζέγγηζε,

φκσο, ησλ αξρηθψλ δεδνκέλσλ είλαη ρεηξφηεξε δηφηη αληηζηνηρεί ζε κηα δηάζηαζε πνπ

δείρλεη κηθξφηεξε δηαθχκαλζε. Απηέο ηηο επζείεο παιηλδξφκεζεο κπνξνχλ λα ρξεζηκν-

πνηεζνχλ γηα λα παξαρζνχλ αζπζρέηηζηα ζεκεία δεδνκέλσλ πνπ ζα δείρλνπλ ππννκά-

δεο ζηα αξρηθά δεδνκέλα, νη νπνίεο κπνξεί λα κελ ήηαλ αληηιεπηά κε κηα πξψηε καηηά.

Εικόνα 3: Δπζεία παιηλδξφκεζεο θάζεηε ζηελ πξνεγνχκελε

Page 30: svd diplomatiki

-24-

Απηφ είλαη ην βαζηθφ λφεκα πίζσ απφ ηελ κέζνδν SVD, ε κεηαηξνπή ελφο πνιχ κεηα-

βιεηνχ θαη πνιιψλ δηαζηάζεσλ ζπλφινπ δεδνκέλσλ ζε έλαλ ρψξν ιηγφηεξσλ δηαζηά-

ζεσλ πνπ εθζέηεη ηελ ππνδνκή ησλ αξρηθψλ δεδνκέλσλ πην θαζαξά θαη ηα δηαηάζζεη

απφ ην πην κεηαβιεηφ ζην ιηγφηεξν κεηαβιεηφ.

3.2.1 Παπάδειγμα ςπολογιζμού SVD

Η κέζνδνο SVD βαζίδεηαη ζε κηα ζεσξία ηεο γξακκηθήο άιγεβξαο ζχκθσλα κε ηελ ν-

πνία έλαο πίλαθαο Α κεγέζνπο mn, κπνξεί λα αλαιπζεί ζε γηλφκελν ηξηψλ πηλάθσλ:

έλαλ νξζνγψλην πίλαθα U κεγέζνπο mm πνπ νλνκάδεηαη πίλαθαο αξηζηεξψλ ηδηνδηα-

λπζκάησλ, έλαλ δηαγψλην πίλαθα S κεγέζνπο mn ηνπ νπνίνπ ηα ζηνηρεία ηεο θπξίαο

δηαγσλίνπ είλαη νη ηδηνηηκέο ηνπ A, θαη ν αλάζηξνθνο ελφο νξζνγψληνπ πίλαθα V, κεγέ-

ζνπο nn. Ο ηχπνο είλαη:

φπνπ θαη . Οη ζηήιεο ηνπ U είλαη νξζνθαλνληθά ηδηνδηαλχζκαηα ηνπ

, νη ζηήιεο ηνπ V είλαη νξζνθαλνληθά ηδηνδηαλχζκαηα ηνπ , θαη ν S πεξηέρεη ηηο

ηεηξαγσληθέο ξίδεο ησλ ηδηνηηκψλ απφ ηνπο U θαη V ζε θζίλνπζα ζεηξά. Φξεζηκνπνηψ-

ληαο ηνπο πίλαθεο U, S θαη κπνξνχκε λα αλαθαηαζθεπάζνπκε ηνλ πίλαθα A ρσξίο

θαλέλα ιάζνο.

Σην παξάδεηγκα πνπ αθνινπζεί εθαξκφδεηαη απηή ε κέζνδνο ζε έλα κηθξφ πίλαθα πξν-

θεηκέλνπ λα ππνινγηζζεί ην SVD ηνπ. Ο πίλαθαο είλαη ν εμήο:

Γηα λα βξεζεί ν U μεθηλάκε κε ηνλ . Ο αλάζηξνθνο ηνπ A είλαη:

Οπφηε

Page 31: svd diplomatiki

-25-

Σηελ ζπλέρεηα πξέπεη λα βξεζνχλ νη ηδηνηηκέο θαη ηα αληίζηνηρα ηδηνδηαλχζκαηα ηνπ

. Τα ηδηνδηαλχζκαηα νξίδνληαη απφ ηελ εμίζσζε ηελ νπνία αλ εθαξκφ-

ζνπκε ζηνλ ζα καο δψζεη:

Μεηαηξέπνληαο ηελ ζρέζε απηή ζε εμηζψζεηο, έρνπκε:

Καη κεηά απφ αλαδηάηαμε:

Λχλνκε σο πξνο λ ζέηνληαο ηελ νξίδνπζα ηνπ πίλαθα ζπληειεζηψλ ζε κεδέλ:

ην νπνίν ιχλεηαη σο εμήο:

δίλνληάο καο ηηο δχν ηδηνηηκέο λ=10 θαη λ=12. Αληηθαζηζηψληαο ην λ ζηηο αξρηθέο εμη-

ζψζεηο παίξλνπκε ηα ηδηνδηαλχζκαηα. Γηα λ=10 παίξλνπκε:

ην νπνίν ηζρχεη γηα πνιιέο ηηκέο. Γηα επθνιία επηιέγνπκε θαη Έηζη

έρνπκε ην ηδηνδηάλπζκα [1,-1] πνπ αληηζηνηρεί ζηελ ηδηνηηκή λ=10. Γηα λ=12 έρνπκε

Page 32: svd diplomatiki

-26-

θαη πάιη γηα επθνιία επηιέγνπκε κηθξέο ηηκέο θαη , δειαδή γηα λ=12 έ-

ρνπκε ην ηδηνδηάλπζκα [1,1]. Απηά ηα ηδηνδηαλχζκαηα γίλνληαη ζηήιεο ζε πίλαθα κε

ζεηξά αλάινγα κε ηελ αληίζηνηρε ηδηνηηκή. Με άιια ιφγηα, ην ηδηνδηάλπζκα ηεο κεγα-

ιχηεξεο ηδηνηηκήο απνηειεί ηελ πξψηε ζηήιε, ην ηδηνδηάλπζκα ηεο επφκελεο κεγαιχηε-

ξεο ηδηνηηκήο απνηειεί ηελ δεχηεξε ζηήιε θαη νχησ θαζεμήο, κέρξη λα κπεη ην ηδηνδηά-

λπζκα ηεο κηθξφηεξεο ηδηνηηκήο σο ηειεπηαία ζηήιε. Σηνλ παξαθάησ πίλαθα, ην ηδην-

δηάλπζκα γηα ην λ=12 είλαη ε πξψηε ζηήιε θαη ην ηδηνδηάλπζκα γηα ην λ=10 ε δεχηεξε

ζηήιε:

Τέινο, ν πίλαθαο απηφο πξέπεη λα κεηαηξαπεί ζε νξζνγψλην πίλαθα εθαξκφδνληαο ηελ

δηαδηθαζία νξζνγσληνπνίεζεο Gram-Schmidt ζηηο ζηήιεο ηνπ. Ξεθηλάκε κε ηελ θαλν-

ληθνπνίεζε ηνπ :

Υπνινγίδνπκε

θαη θαλνληθνπνηνχκε

γηα λα καο δψζεη

Ο ππνινγηζκφο ηνπ V είλαη παξφκνηνο. Ο V βαζίδεηαη ζηνλ , άξα

Page 33: svd diplomatiki

-27-

Βξίζθνπκε ηηο ηδηνηηκέο ηνπ απφ ηελ ζρέζε

ε νπνία αληηπξνζσπεχεη ην ζχζηεκα εμηζψζεσλ

Μεηά απφ αλαδηάηαμε, νη ηειεπηαίεο εμηζψζεηο γξάθνληαη σο εμήο

θαη ιχλνληαη ζέηνληαο

Απφ ην ηειεπηαίν βξίζθνπκε ηα λ

Γειαδή λ=0, λ=10 θαη λ=12 είλαη νη ηδηνηηκέο γηα ηνλ . Αληηθαζηζηψληαο ην λ ζηηο

αξρηθέο εμηζψζεηο βξίζθνπκε ηα αληίζηνηρα ηδηνδηαλχζκαηα. Γηα λ=12 έρνπκε

Page 34: svd diplomatiki

-28-

Άξα γηα λ=12, . Γηα λ=10 έρνπκε

πνπ ζεκαίλεη φηη γηα λ=10, . Γηα λ=0 έρνπκε

πνπ ζεκαίλεη φηη γηα λ=0, . Φξεζηκνπνηψληαο σο ζηήιεο ηα , θαη

θαη ηνπνζεηψληαο ηα ζχκθσλα κε ην κέγεζνο ησλ αληίζηνηρσλ ηδηνηηκψλ δεκηνπξ-

γείηαη ν πίλαθαο

Page 35: svd diplomatiki

-29-

θαη κε ηελ δηαδηθαζία νξζνγσληνπνίεζεο Gram-Schmidt κεηαηξέπεηαη ζε νξζνθαλνλη-

θφ πίλαθα:

ια απηά καο δίλνπλ ηνλ πίλαθα V:

Αιιά εκείο ρξεηαδφκαζηε ηνλ αλάζηξνθφ ηνπ:

Γηα ηνλ S παίξλνπκε ηηο ηεηξαγσληθέο ξίδεο ησλ κε κεδεληθψλ ηδηνηηκψλ θαη κε απηέο

δεκηνπξγνχκε ηελ δηαγψλην ηνπ πίλαθα, βάδνληαο ηελ κεγαιχηεξε ζηελ ζέζε , ηελ

επφκελε κεγαιχηεξε ζηελ ζέζε θαη νχησ θαζεμήο κέρξη ε κηθξφηεξε ηηκή λα κπεη

ζηελ ζέζε . Οη κε κεδεληθέο ηδηνηηκέο ησλ U θαη V είλαη πάληα ίδηεο (ζην παξά-

δεηγκά καο λ=10 θαη λ=12), γη‟απηφ δελ έρεη ζεκαζία απφ πνηνλ πίλαθα ζα ηηο πάξνπκε.

Δπεηδή εθαξκφδνπκε πιήξεο SVD, αληί ηνπ κεησκέλνπ SVD πνπ ζα δείμνπκε ζηελ ζπ-

λέρεηα, πξέπεη λα πξνζζέζνπκε κηα ζηήιε κεδεληθψλ ζηνλ S γηα λα απνθηήζεη ηηο θα-

Page 36: svd diplomatiki

-30-

ηάιιειεο δηαζηάζεηο ψζηε λα επηηξέπεηαη ν πνιιαπιαζηαζκφο ηνπ κε ηνπο U θαη V. Οη

δηαγψληεο θαηαρσξήζεηο ζηνλ S είλαη νη ηδηφκνξθεο ηηκέο ηνπ A, νη ζηήιεο ηνπ U νλν-

κάδνληαη αξηζηεξά ηδηφκνξθα δηαλχζκαηα θαη νη ζηήιεο ηνπ V νλνκάδνληαη δεμηά ηδηφ-

κνξθα δηαλχζκαηα.

Έρνληαο ππνινγίζεη φινπο ηνπο πίλαθεο κπνξνχκε λα θάλνπκε αληηθαηάζηαζε ζηελ

αξρηθή ζρέζε:

3.2.2 Παπάδειγμα μείωζηρ διαζηάζεων

Τν κεησκέλν SVD είλαη καζεκαηηθή ηερληθή πνπ απνηειεί κέξνο ηεο κεζφδνπ ππνινγη-

ζκνχ νκνηφηεηαο ιέμεσλ θαη αλάθηεζεο εγγξάθσλ κε φλνκα Latent Semantic Indexing

(LSI) ή Latent Semantic Analysis. Με ηελ ρξήζε ηνπ SVD ζηνλ ππνινγηζκφ νκνηφηε-

ηαο ιέμεσλ θαη ζηελ αλάθηεζε εγγξάθσλ, ηα αξρηθά δεδνκέλα πνπ ζπλήζσο έρνπλ ηελ

κνξθή πίλαθα ιέμεηοέγγξαθα, δηαζπφληαη ζε γξακκηθά αλεμάξηεηεο ζπληζηψζεο. Απ-

ηέο νη ζπληζηψζεο θαηά θάπνηα έλλνηα αθαηξνχλ ηηο ζπζρεηίζεηο πνπ απνηεινχλ ζφξπβν

ζηα αξρηθά δεδνκέλα θαη θξαηνχλ ηα ζχλνια ηηκψλ πνπ πξνζεγγίδνπλ θαιχηεξα ηελ

βαζηθή δνκή ηνπ ζπλφινπ δεδνκέλσλ θαηά κήθνο ηεο θάζε δηάζηαζεο μερσξηζηά. Δ-

πεηδή ε πιεηνλφηεηα απηψλ ησλ ζπληζησζψλ είλαη πνιχ κηθξέο, κπνξνχλ λα αγλνεζνχλ

δίλνληάο καο κηα πξνζέγγηζε ησλ δεδνκέλσλ πνπ πεξηέρεη ιηγφηεξεο δηαζηάζεηο απφ ηα

Page 37: svd diplomatiki

-31-

αξρηθή. Τν φθεινο απφ ηελ ρξήζε ηνπ SVD είλαη φηη ζηελ δηαδηθαζία κείσζεο ησλ δηα-

ζηάζεσλ ε αλαπαξάζηαζε ησλ ζηνηρείσλ πνπ έρνπλ ηελ ίδηα ππνδνκή γίλνληαη πεξηζ-

ζφηεξν φκνηα κεηαμχ ηνπο, ελψ ηα αλφκνηα ζηνηρεία κπνξεί λα γίλνπλ αθφκα πεξηζζφ-

ηεξν αλφκνηα. Σε πξαθηηθφ επίπεδν, απηφ ζεκαίλεη φηη ηα έγγξαθα πνπ αλήθνπλ ζηελ

ίδηα νκάδα γίλνληαη πεξηζζφηεξν φκνηα αθφκα θαη φηαλ δελ εκθαλίδνληαη νη ίδηεο αθξη-

βψο ιέμεηο ζε φια απηά ηα έγγξαθα.

πσο είδακε ζην πξνεγνχκελν παξάδεηγκα, μεθηλάκε κε έλαλ πίλαθα. Δδψ ν πίλαθαο Α

πνπ αθνινπζεί είλαη ηεο κνξθήο ιέμεηοέγγξαθα.

πσο θαη πξηλ, γηα λα ππνινγίζνπκε ην SVD ηνπ πίλαθα A ρξεηαδφκαζηε ην γηλφκελν

ηξηψλ πηλάθσλ:

φπνπ νη U θαη V είλαη νξζνθαλνληθνί θαη ν S δηαγψληνο. Οη ζηήιεο ηνπ U είλαη ηα νξζν-

θαλνληθά ηδηνδηαλχζκαηα ηνπ , θαη βξίζθνληαη ζε δηάηαμε απφ αξηζηεξά πξνο ηα

δεμηά μεθηλψληαο απφ ηελ κεγαιχηεξε αληίζηνηρε ηδηνηηκή πξνο ηελ κηθξφηεξε.

Ο είλαη πίλαθαο ηνπ νπνίνπ νη ηηκέο είλαη ην εζσηεξηθφ γηλφκελν φισλ ησλ φξσλ

(ιέμεσλ), δειαδή είλαη έλα είδνο πίλαθα δηαζπνξάο ησλ φξσλ φισλ ησλ εγγξάθσλ. Οη

ηδηνηηκέο ηνπ είλαη

θαη ρξεζηκνπνηνχληαη γηα ηνλ ππνινγηζκφ ηνπ πίλαθα U

Page 38: svd diplomatiki

-32-

Απηφ νπζηαζηηθά καο δίλεη έλαλ πίλαθα ζηνλ νπνίν νη ιέμεηο αλαπαξηζηψληαη σο ζηή-

ιεο-δηαλχζκαηα πνπ πεξηέρνπλ γξακκηθά αλεμάξηεηεο ζπληζηψζεο. Μεξηθά πξφηππα

ζηηο εκθαλίζεηο ησλ ιέμεσλ ππνδεηθλχνληαη απφ ηα πξφζεκα ησλ ζπληειεζηψλ ζηνλ U.

Γηα παξάδεηγκα, ηα πξφζεκα ζηελ πξψηε ζηήιε είλαη φια αξλεηηθά, ππνδεηθλχνληαο

ηελ γεληθή ηαπηφρξνλε εκθάληζε ιέμεσλ θαη εγγξάθσλ. Σηελ δεχηεξε ζηήιε ηνπ U π-

πάξρνπλ δχν νκάδεο, δχν αξλεηηθά πξφζεκα θαη ηξία ζεηηθά. Απηφ ζεκαίλεη πσο νη ιέ-

μεηο πνπ αληηζηνηρνχλ ζηα δχν αξλεηηθά πξφζεκα εκθαλίδνληαη καδί ζηα έγγξαθα. Τν

ίδην ηζρχεη θαη γηα ηα ηξία ζεηηθά πξφζεκα ζηελ ηξίηε ζηήιε θαη νχησ θαζεμήο.

Ο ππνινγηζκφο ηνπ πίλαθα V είλαη παξφκνηνο. Οη ηηκέο ηνπ πξνέξρνληαη απφ ηδηνδηαλχ-

ζκαηα ηνπ δηαηεηαγκέλα απφ αξηζηεξά πξνο ηα δεμηά απφ ηελ κεγαιχηεξε πξνο ηελ

κηθξφηεξε αληίζηνηρε ηδηνηηκή.

Ο πεξηέρεη ην εζσηεξηθφ γηλφκελν φισλ ησλ εγγξάθσλ. Δθαξκφδνληαο ηελ κέζνδν

Gram-Schmidt παίξλνπκε ηνλ αλάζηξνθν ηνπ V:

Ο S πεξηέρεη ηηο ηεηξαγσληθέο ξίδεο ησλ ηδηάδνπζσλ ηηκψλ δηαηεηαγκέλεο απφ ηελ κεγα-

ιχηεξε πξνο ηελ κηθξφηεξε θαηά κήθνο ηεο δηαγσλίνπ ηνπ. Απηέο νη ηηκέο ππνδεηθλχ-

νπλ ηελ δηαθχκαλζε ησλ γξακκηθά αλεμάξηεησλ ζπληζησζψλ θαηά κήθνο ηεο θάζε

δηάζηαζεο. Πξνθεηκέλνπ λα αλαπαξαζηήζνπκε ηελ επίδξαζε ηεο κείσζεο ησλ δηαζηά-

ζεσλ ηνπ ζπλφινπ δεδνκέλσλ, πεξηνξίδνπκε ηνλ πίλαθα S κφλν ζηηο πξψηεο ηξεηο ηηκέο

ηνπ:

Γηα λα κπνξέζεη λα πξνρσξήζεη ν πνιιαπιαζηαζκφο ησλ πηλάθσλ, πξέπεη λα αθαηξε-

ζνχλ νη αληίζηνηρεο ζηήιεο ηνπ U θαη ηηο αληίζηνηρεο γξακκέο ηνπ γηα λα πάξνπκε

Page 39: svd diplomatiki

-33-

κηα πξνζέγγηζε ηνπ πίλαθα A ρξεζηκνπνηψληαο ηηο ηξεηο απφ ηηο πέληε αξρηθέο δηαζηά-

ζεηο.

Πξαθηηθά, σζηφζν, ν ζηφρνο δελ είλαη αθξηβψο λα αλαθαηαζθεπαζηεί ν αξρηθφο πίλα-

θαο αιιά λα ρξεζηκνπνηεζεί ε κεησκέλε αλαπαξάζηαζε ησλ δηαζηάζεσλ γηα λα ελην-

πηζηνχλ φκνηεο ιέμεηο θαη έγγξαθα.

Τν παξάδεηγκα απηφ είλαη απφ ην “Singular Value Decomposition Tutorial” ηνπ Kirk

Baker, 2005.

3.3 Toy Example

πσο πξναλαθέξακε, ε κέζνδνο SVD κπνξεί λα ρξεζηκνπνηεζεί ζηελ θαηεγνξηνπνίε-

ζε θεηκέλσλ. Αθνινπζεί παξάδεηγκα πνπ εμεγεί πσο αθξηβψο γίλεηαη απηφ.

Έρνπκε έλαλ πίλαθα ηνπ νπνίνπ νη γξακκέο είλαη δηαλχζκαηα ζπρλνηήησλ (Πίλαθαο 8).

Τα έγγξαθα είλαη ελλέα ζην ζχλνιφ ηνπο θαη ρσξίδνληαη ζε ηξεηο θαηεγνξίεο. Οη θαηε-

γνξίεο απηέο είλαη: δεκνηηθφ, γπκλάζην θαη ιχθεην θαη αληηπξνζσπεχνπλ ηελ αλαγλσ-

ζηκφηεηαο πνπ αληηζηνηρεί ζηα ηξία απηά επίπεδα ηεο ειιεληθήο εθπαίδεπζεο. Τα πξψ-

ηα ηξία έγγξαθα (Δ1-Δ3) αλήθνπλ ζηελ θαηεγνξία ηνπ δεκνηηθνχ, ηα απφκελα ηξία (Δ4-

Δ6) ζηελ θαηεγνξία ηνπ γπκλαζίνπ θαη ηα ηειεπηαία ηξία (Δ7-Δ9) ζηελ θαηεγνξία ηνπ

ιπθείνπ. Οη κνλαδηθνί φξνη (άξα θαη ην κήθνο ηνπ ιεμηθνχ) είλαη δέθα ζπλνιηθά (Ο1-

Ο10). Οη πξψηνη ηξεηο φξνη πεξηγξάθνπλ ηελ πξψηε θαηεγνξία, γη‟απηφ έρνπλ θαη ζρεηη-

θά κεγάιεο ζπρλφηεηεο ζηα πξψηα ηξία έγγξαθα. Οη επφκελνη ηξεηο φξνη (Ο4-Ο6) πεξη-

γξάθνπλ ηελ δεχηεξε θαηεγνξία θαη έρνπλ κεγάιεο ζπρλφηεηεο ζηα έγγξαθα E4, E5 θαη

E6. Τέινο, νη φξνη Ο7, Ο8 θαη Ο9 πεξηγξάθνπλ ηελ ηξίηε θαηεγνξία θαη έρνπλ πεξηζζφ-

ηεξεο εκθαλίζεηο ζηα Δ7, Δ8 θαη Δ9. Ο ηειεπηαίνο φξνο Ο10 δελ πξνζδηνξίδεη θάπνηα ζπ-

Page 40: svd diplomatiki

-34-

γθεθξηκέλε θαηεγνξία. Να πνχκε εδψ φηη ηα ελλέα απηά έγγξαθα απνηεινχλ ην training

set.

Πίνακαρ 8: Πίλαθαο κε δηαλχζκαηα ζπρλνηήησλ ελλέα εγγξάθσλ

Ο1 Ο2 Ο3 Ο4 Ο5 Ο6 Ο7 Ο8 Ο9 Ο10

Δ1 4 6 2 3 3 1 1 1 0 1

Δ2 5 5 3 1 1 2 3 3 2 1

Δ3 2 3 4 0 0 0 2 1 2 0

Δ4 2 2 3 5 6 4 3 2 1 0

Δ5 1 0 1 2 3 2 2 0 2 1

Δ6 3 2 0 5 6 5 4 3 0 0

Δ7 0 0 2 3 2 3 5 4 6 1

Δ8 2 3 3 0 0 3 5 5 4 0

Δ9 1 1 0 3 3 2 4 3 3 1

Δθαξκφδνληαο ηελ κέζνδν SVD ζηα δεδνκέλα ηνπ Πίλαθα 8 παίξλνπκε ηνπο έμεο ηξεηο

πίλαθεο U, S θαη V (ππελζπκίδνπκε φηη ζηνλ ππνινγηζκφ ηνπ αξρηθνχ πίλαθα ρξεζηκν-

πνηνχκε ηνλ αλάζηξνθν ηνπ V, δειαδή ηνλ ):

Page 41: svd diplomatiki

-35-

Η ηειεπηαία ζηήιε ηνπ πίλαθα έρεη κφλν κεδεληθά θαη πξέπεη λα αθαηξεζεί γηα λα

κπνξνχλ λα γίλνπλ ζηελ ζπλέρεηα θάπνηεο πξάμεηο. Με ηελ αθαίξεζε απηήο ηεο ζηήιεο

δελ ράλεηαη θακία πιεξνθνξία. Δπίζεο, “θφβνπκε” θαη κηα ζηήιε απφ ηνλ (ή

αιιηψο κηα γξακκή απφ ηνλ ) γηα λα κπνξεί λα πνιιαπιαζηαζηεί κε ηνλ S. Οχηε εδψ

ράλεηαη θάπνηα πιεξνθνξία αθνχ ε ζηήιε απηή πνιιαπιαζηάδεηαη κε ηελ κεδεληθή ζηε

ηνπ S θαη δελ επεξεάδεη ην απνηέιεζκα έηζη θη αιιηψο. Οη πίλαθεο S θαη V είλαη πιένλ

απηνί:

Έζησ φηη έρνπκε έλα έγγξαθν, ην νλνκάδνπκε test, πνπ αλήθεη ζηελ πξψηε θαηεγνξία

κε δηάλπζκα ζπρλνηήησλ:

Page 42: svd diplomatiki

-36-

Απηφ ην έγγξαθν είλαη νπζηαζηηθά ην test set. Οη ηηκέο ησλ ηξηψλ πξψησλ δηαζηάζεσλ

επηβεβαηψλνπλ φηη ην έγγξαθν αλήθεη ζηελ θαηεγνξία “δεκνηηθφ”. Γηα λα βξνχκε ζε

πνηα θαηεγνξία ζα ην θαηαηάμεη ε κέζνδνο SVD ζα πξέπεη λα ην ζπγθξίλνπκε κε ηα

έγγξαθα ηνπ training set. Πξψηα, φκσο, ζα πξέπεη λα ην αλαπαξαζηήζνπκε κε έλα θα-

ηάιιειν δηάλπζκα (πνπ νλνκάδνπκε test_new) ην νπνίν ππνινγίδεηαη κε ηνλ εμήο ηξφ-

πν:

Τν απνηέιεζκα είλαη:

Σηελ ζπλέρεηα, ε ζχγθξηζε απηνχ ηνπ εγγξάθνπ κε ηα ελλέα έγγξαθα ηνπ training set

γίλεηαη ππνινγίδνληαο ηελ νκνηφηεηα ηνπ δηαλχζκαηνο κε ηα δηαλχζκαηα-γξακκέο ηνπ

πίλαθα . Η νκνηφηεηα ηνπ test_new κε ηελ πξψηε γξακκή ηνπ U είλαη ε νκνηφηεηα

ηνπ εγγξάθνπ test κε ην έγγξαθν Δ1, κε ηελ δεχηεξε γξακκή είλαη κε ην Δ2, θαη νχησ

θαζεμήο. Ο ππνινγηζκφο ηεο νκνηφηεηαο γίλεηαη κε ηελ κέζνδν ηνπ ζπλεκηηφλνπ. Ο Πί-

λαθαο 9 πεξηέρεη ηελ νκνηφηεηα ηνπ εγγξάθνπ test κε ηα έγγξαθα Δ1 έσο Δ9.

Πίνακαρ 9: Οκνηφηεηα ηνπ test κε ηα ππφινηπα έγγξαθα

Έγγραφο Ομοιότητα με το

έγγραφο test

Ε1 -0.14

Ε2 0.53

Ε3 -0.33

Ε4 0.57

Ε5 -0.32

Ε6 -0.38

Ε7 0.02

Ε8 -0.13

Ε9 0.03

Page 43: svd diplomatiki

-37-

Η κεγαιχηεξε νκνηφηεηα είλαη κε ην έγγξαθν Δ4 ην νπνίν αλήθεη ζηελ δεχηεξε θαηεγν-

ξία. κσο, ην έγγξαθν test αλήθεη ζηελ πξψηε θαηεγνξία. Τν πξφβιεκα απηφ αληηκε-

ησπίδεηαη ιακβάλνληαο ππφςε ηα Φ έγγξαθα κε ηελ κεγαιχηεξε νκνηφηεηα. Γειαδή λα

επηιέγεηαη ε θαηεγνξία κε ηελ κεγαιχηεξε ζπρλφηεηα ζηα Φ έγγξαθα. Σηελ πινπνίεζε

ηεο κεζφδνπ έρνπκε επηιέμεη ν αξηζκφο Φ λα είλαη ην 5. Σην παξάδεηγκά καο, φκσο, ην 5

είλαη πνιχ κεγάινο αξηζκφο, αθνχ ε θάζε θαηεγνξία πεξηέρεη κφλν ηξία έγγξαθα. Αλ

πάξνπκε εδψ ηα ηξία έγγξαθα κε ηελ θαιχηεξε νκνηφηεηα, δειαδή ηα Δ2, Δ4 θαη Δ9 ην

απνηέιεζκα δελ αιιάδεη δηφηη θαη ηα ηξία αληηπξνζσπεχνπλ δηαθνξεηηθή θαηεγνξία. Σε

πεξίπησζε “ηζνπαιίαο” φπσο απηή, επηιέγνπκε ηελ θαηεγνξία πνπ πεξηέρεη ην έγγξαθν

κε ηελ κεγαιχηεξε ζπρλφηεηα, δειαδή ην Δ4.

Γηα λα επηηεπρζεί θαιχηεξν απνηέιεζκα πξέπεη λα γίλεη κείσζε δηαζηάζεσλ φπσο πεξη-

γξάθηεθε πην πάλσ. Πξέπεη, φκσο πξψηα λα απνθαζηζηεί πφζεο δηαζηάζεηο ζα αθαηξε-

ζνχλ. Έζησ φηη απνθαζίδνπκε λα θξαηήζνπκε κφλν ην 80% ηεο πιεξνθνξίαο. Ο ππν-

ινγηζκφο ηνπ αξηζκνχ ησλ ζηειψλ πνπ ζα αθαηξεζνχλ γίλεηαη κε ηελ βνήζεηα ηνπ πίλα-

θα S. Η ηηκέο ζηελ δηαγψληφ ηνπ είλαη ζε θζίλνπζα ζεηξά. ζν κηθξφηεξε ε ηηκή, ηφζν

ιηγφηεξε ρξήζηκε πιεξνθνξία πξνζθέξεη ε ζπγθεθξηκέλε δηάζηαζε. Έηζη, ε αθαίξεζε

ησλ δηαζηάζεσλ γίλεηαη απφ ην ηέινο (απφ ηα δεμηά ηνπ πίλαθα) γηα λα κείλνπλ νη πξψ-

ηεο ζηήιεο κε ηηο κεγάιεο ηηκέο. Αξρηθά πξνζζέηνπκε φιεο ηηο ηηκέο ηεο δηαγσλίνπ.

Σηελ πεξίπησζή καο ην άζξνηζκα ηνπο είλαη 51.85. Σηελ ζπλέρεηα πνιιαπιαζηάδνπκε

ην άζξνηζκα απηφ κε ην πνζνζηφ πνπ επηζπκνχκε λα θξαηήζνπκε, άξα κε 0.8:

Δπφκελν βήκα είλαη ε δηαδνρηθή πξφζζεζε ησλ ηηκψλ ηεο δηαγσλίνπ ηνπ S απφ ηα αξη-

ζηεξά πξνο ηα δεμηά ή κε άιια ιφγηα απφ ηηο κεγαιχηεξεο πξνο ηηο κηθξφηεξεο. Τν ά-

ζξνηζκα πνπ πξνθχπηεη θάζε θνξά δελ ζα πξέπεη λα μεπεξλάεη ην 41.48. Οη ηξεηο πξψ-

ηεο ηηκέο έρνπλ άζξνηζκα 41.19, άξα ζηακαηάκε εδψ δηφηη αλ πξνζζέζνπκε θαη ηελ ηέ-

ηαξηε ην άζξνηζκα γίλεηαη 45.04 ην νπνίν είλαη κεγαιχηεξν ηνπ 41.48. Κξαηψληαο κφ-

λν ηξεηο δηαζηάζεηο, αθαηξνχληαη νη αληίζηνηρεο ζηήιεο θαη ζηνπο ππφινηπνπο πίλαθεο,

κε απνηέιεζκα νη λένη πίλαθεο U, S θαη V είλαη:

Page 44: svd diplomatiki

-38-

Αθνχ έρεη αιιάμεη ν πίλαθαο U ζα πξέπεη λα θέξνπκε θαη ην δηάλπζκα test_new ζηηο

αλάινγεο δηαζηάζεηο γηα λα κπνξεί λα γίλεη ν ππνινγηζκφο ηεο νκνηφηεηαο:

Οη ηηκέο ζην δηάλπζκα test_new δελ έρνπλ αιιάμεη, απιά έρνπλ κεησζεί νη δηαζηάζεηο

ηνπ δηαλχζκαηνο. Δπαλαυπνινγίδνληαο ηελ νκνηφηεηα ζπλεκηηφλνπ ηνπ εγγξάθνπ test

(κέζσ ηνπ δηαλχζκαηνο test_new) κε ηα ελλέα έγγξαθα ηνπ training set παίξλνπκε ηνλ

λέν πίλαθα νκνηνηήησλ (Πίλαθαο 10). Απηή ηελ θνξά ην απνηέιεζκα είλαη πνιχ πην

ζσζηφ. Η κεγαιχηεξε νκνηφηεηα είλαη κε ην έγγξαθν Δ1 πνπ αλήθεη ζηελ ίδηα θαηεγν-

ξία κε ην test. Δπίζεο, αλ κεηξήζνπκε ηα ηξία έγγξαθα κε ηηο κεγαιχηεξεο νκνηφηεηεο

φπσο πξηλ, δειαδή ηα Δ1, Δ2 θαη Δ3, βιέπνπκε φηη ην απνηέιεζκα φρη κφλν είλαη ζσζηφ

αιιά επηβεβαηψλεηαη θαη απφ ηα ηξία έγγξαθα. Υπελζπκίδνπκε φηη ζηελ πινπνίεζε ηεο

κεζφδνπ SVD ε θαηεγνξηνπνίεζε γίλεηαη βάζε ησλ 5 θαιχηεξσλ εγγξάθσλ σο πξνο

Page 45: svd diplomatiki

-39-

ηελ νκνηφηεηα. Τν θαιχηεξν απνηέιεζκα εδψ νθείιεηαη ζηελ κείσζε ησλ δηαζηάζεσλ

κε ηελ νπνία αθαηξέζεθε πιεξνθνξία πνπ ήηαλ ζηελ πξαγκαηηθφηεηα ζφξπβνο.

Πίνακαρ 10: Οκνηφηεηα ηνπ εγγξάθνπ test κε ηα ππφινηπα έγγξαθα κεηά ηελ κείσζε ησλ

δηαζηάζεσλ

Έγγραφο Ομοιότητα με το

έγγραφο test

Ε1 0.97

Ε2 0.87

Ε3 0.69

Ε4 0.37

Ε5 -0.8

Ε6 0.26

Ε7 -0.67

Ε8 0.2

Ε9 -0.16

Page 46: svd diplomatiki

-40-

Page 47: svd diplomatiki

-41-

4 Γεννήηπια κειμένων και ζςλ-λογή Reuters

Γηα ηελ αμηνιφγεζε ηεο απφδνζεο ηνπ αιγνξίζκνπ SVD, αιιά θαη ηελ ζχγθξηζή ηνπ κε

ηηο ππφινηπεο κεζφδνπο, ρξεζηκνπνηήζεθε ε ζπιινγή Reuters-21578 θαη κηα γελλήηξηα

θεηκέλσλ πνπ πινπνηήζεθε ζηα πιαίζηα ηεο παξνχζαο δηπισκαηηθήο εξγαζίαο. Η πιν-

πνίεζή ηεο ήηαλ αλαγθαία δηφηη δελ ππάξρεη θάπνην ζχλνιν δεδνκέλσλ ζην νπνίν ηα

θείκελα λα ρσξίδνληαη ζε θαηεγνξίεο πνπ εθθξάδνπλ ηνλ βαζκφ δπζθνιίαο ηεο αλα-

γλσζηκφηεηαο.

4.1 Γεννήηπια κειμένων

Η γελλήηξηα θεηκέλσλ ρξεζηκνπνηείηαη γηα ηελ δεκηνπξγία θεηκέλσλ πνπ θαηαηάζζν-

ληαη ζε ηξεηο θαηεγνξίεο αλάινγα κε ηελ δπζθνιία αλαγλσζηκφηεηάο. Οη θαηεγνξίεο

απηέο είλαη ηξεηο. Η πξψηε αληηπξνζσπεχεη ηελ δπζθνιία αλαγλσζηκφηεηαο ζε θείκελα

ηνπ δεκνηηθνχ, ε δεχηεξε ζε θείκελα ηνπ γπκλαζίνπ θαη ε ηξίηε ζε θείκελα ηνπ ιπθεί-

νπ.

Ο θψδηθαο ηεο γελλήηξηαο ρξεζηκνπνηεί ηξία αξρεία κε νλφκαηα easy.txt, medium.txt

θαη hard.txt. Τα αξρεία απηά πεξηέρνπλ ιέμεηο ή φξνπο πνπ ρξεζηκνπνηνχληαη γηα ηελ

δεκηνπξγία ησλ θεηκέλσλ. Τα νλφκαηά ηνπο ππνδεηθλχνπλ ηελ δπζθνιία ησλ φξσλ απ-

ηψλ. Έηζη, ην αξρείν easy.txt πεξηέρεη εχθνιεο ιέμεηο επηπέδνπ δεκνηηθνχ, ην medi-

um.txt πεξηέρεη κεζαίαο δπζθνιίαο ιέμεηο επηπέδνπ γπκλαζίνπ θαη ην hard.txt πεξηέρεη

δχζθνιεο ιέμεηο επηπέδνπ ιπθείνπ (αθφκα θαη παλεπηζηεκίνπ). Σηα αξρεία απηά κπνξεί

θαλείο λα πξνζζέζεη ή λα αθαηξέζεη φζεο ιέμεηο επηζπκεί, αξθεί νη ιέμεηο λα ρσξίδνληαη

κε έλαλ ή πεξηζζφηεξνπο ραξαθηήξεο θελνχ ή λέαο γξακκήο. Γελ ππάξρεη πεξηνξηζκφο

ζηνλ αξηζκφ ησλ θεηκέλσλ πνπ ζα δεκηνπξγεζνχλ. Ο ειάρηζηνο αξηζκφο είλαη ηξία, δε-

ιαδή έλα θείκελν αλά θαηεγνξία. Τέινο, ππάξρεη θαη ε δπλαηφηεηα πξνζζήθεο ζνξχ-

βνπ ζηα θείκελα.

Τξέρνληαο ηελ γελλήηξηα, ην πξψην κήλπκα πνπ βιέπεη ν ρξήζηεο θαίλεηαη ζηελ Δηθφ-

λα 4. Ο ρξήζηεο εηζάγεη ηνλ αξηζκφ ησλ εγγξάθσλ πνπ επηζπκεί λα δεκηνπξγεζνχλ γηα

Page 48: svd diplomatiki

-42-

θάζε θαηεγνξία. Γηα παξάδεηγκα, αλ εηζάγεη ηνλ αξηζκφ 100, ζα δεκηνπξγεζνχλ 300

έγγξαθα, δειαδή 100 έγγξαθα γηα θάζε θαηεγνξία, αθνχ νη θαηεγνξίεο είλαη ηξεηο.

Εικόνα 4: Δηζαγσγή αξηζκνχ θεηκέλσλ αλά θαηεγνξία

Έζησ φηη εηζάγεη 5 (είλαη πνιχ κηθξφο ν αξηζκφο γηα έλα ζχλνιν δεδνκέλσλ κε ην νπνίν

ζα αμηνινγεζνχλ αιγφξηζκνη, αιιά ν ζθνπφο εδψ είλαη απιά λα δείμνπκε έλα παξά-

δεηγκα). Σηελ ζπλέρεη εκθαλίδεηαη ην κήλπκα ηεο Δηθφλαο 5.

Εικόνα 5: Δηζαγσγή αξηζκνχ ιέμεσλ αλά θείκελν

Δδψ ν ρξήζηεο πξνζδηνξίδεη ην κέγεζνο ησλ εγγξάθσλ, δειαδή απφ πφζεο ιέμεηο ζα

απνηειείηαη ην θάζε έγγξαθν. Απηφ ηζρχεη γηα ηα έγγξαθα θαη ησλ ηξηψλ θαηεγνξηψλ.

Καη πάιη γηα ιφγνπο απιφηεηαο, έζησ φηη πιεθηξνινγεί 10. Η ηειεπηαία πιεξνθνξία

πνπ απαηηείηαη γηα ηελ δεκηνπξγία ησλ θεηκέλσλ είλαη ην πνζνζηφ ηνπ ζνξχβνπ (Δηθφλα

6).

Page 49: svd diplomatiki

-43-

Εικόνα 6: Δηζαγσγή ζνξχβνπ

Ο ηξφπνο πξνζδηνξηζκνχ ηνπ ζνξχβνπ γίλεηαη κε ηελ κνξθή θιάζκαηνο 1/x. Η ηηκή πνπ

ζα πιεθηξνινγήζεη ν ρξήζηεο ζα αληηθαηαζηήζεη ην „x‟ ζην θιάζκα. Γηα παξάδεηγκα,

αλ πιεθηξνινγήζεη ηελ ηηκή 5, ηφηε ην θιάζκα ζα γίλεη 1/5 πνπ ηζνδπλακεί κε 0.2, δε-

ιαδή 20% ζφξπβν. Απηφ ζεκαίλεη φηη θαηά ηελ δεκηνπξγία ελφο θεηκέλνπ, θάζε ιέμε

πνπ ζα εηζάγεηαη ζην θείκελν ζα έρεη 20% πηζαλφηεηα λα είλαη ζφξπβνο. Λέγνληαο ζφ-

ξπβν, ελλννχκε φηη ιέμεηο απφ ηηο άιιεο δχν θαηεγνξίεο. Γειαδή, ζηα θείκελα επηπέδνπ

δεκνηηθνχ, φπνπ νη ιέμεηο αληινχληαη απφ ην αξρείν easy.txt, ν ζφξπβνο ζα είλαη ιέμεηο

απφ ηα αξρεία medium.txt θαη hard.txt. Τν ίδην ηζρχεη θαη γηα ηηο άιιεο δπν θαηεγνξίεο.

Σηα θείκελα επηπέδνπ γπκλαζίνπ, ν ζφξπβνο ζα είλαη απφ ηα αξρεία easy.txt θαη

hard.txt, θαη ζηα θείκελα επηπέδνπ ιπθείνπ απφ ηα easy.txt θαη medium.txt. Καηά ηελ

δεκηνπξγία ησλ εγγξάθσλ, φηαλ νξηζηεί φηη κηα ιέμε ζα είλαη ζφξπβνο, ηφηε ππάξρεη

50% λα αλήθεη ζηελ κία θαηεγνξία ζνξχβνπ θαη 50% ζηελ άιιε. Γηα παξάδεηγκα, φηαλ

εηζάγεηαη ιέμε ζνξχβνπ ζε έλα έγγξαθν δεκνηηθνχ, ηφηε ε πηζαλφηεηα απηή ε ιέμε λα

είλαη επηπέδνπ γπκλαζίνπ είλαη 50% θαη ε πηζαλφηεηα λα είλαη επηπέδνπ ιπθείνπ πάιη

50%. Έζησ φηη εδψ ν ρξήζηεο δίλεη ηελ ηηκή 4 πνπ αληηζηνηρεί ζε πνζνζηφ ζνξχβνπ

25%. Μφιηο δεκηνπξγεζνχλ ηα έγγξαθα, εκθαλίδεηαη ην κήλπκα “ok” ζηελ νζφλε θαη ν

ρξήζηεο κπνξεί λα θιείζεη ηελ εθαξκνγή πιεθηξνινγψληαο νπνηνλδήπνηε ραξαθηήξα

θαη παηψληαο “Enter” (Δηθφλα 7). Τα αξρεία πνπ δεκηνπξγήζεθαλ είλαη 15 ζην ζχλνιφ

ηνπο. Τα νλφκαηά ηνπο είλαη αξηζκνί απφ ην 1 κέρξη ην 15, πνπ δειψλνπλ ηελ ζεηξά κε

ηελ νπνία δεκηνπξγήζεθαλ (Δηθφλα 8).

Page 50: svd diplomatiki

-44-

Εικόνα 7: Μήλπκα «ok» πνπ ζεκαίλεη φηη δεκηνπξγήζεθαλ ηα αξρεία

Εικόνα 8: Τα 15 αξρεία πνπ δεκηνπξγιεζεθαλ κε ηελ γελλήηξηα

Τα πξψηα πέληε αξρεία (1-5) είλαη έγγξαθα θαηεγνξίαο δεκνηηθνχ, ηα επφκελα πέληε

(6-10) θαηεγνξίαο γπκλαζίνπ θαη ηα ηειεπηαία θαηεγνξίαο ιπθείνπ (11-15). Οη θαηεγν-

ξίεο απηέο δειψλνληαη ζηελ αξρή θάζε εγγξάθνπ, κε ηελ πξψηε ιέμε ησλ θεηκέλσλ δε-

Page 51: svd diplomatiki

-45-

κνηηθνχ λα είλαη ην γξάκκα “E” (απφ ηελ ιέμε “easy”), ησλ θεηκέλσλ γπκλαζίνπ ην

γξάκκα “M” (απφ ηελ ιέμε “medium”) θαη ησλ θεηκέλσλ ιπθείνπ ην γξάκκα “H” (απφ

ηελ ιέμε “hard”). Δπίζεο, επεηδή ε κέζνδνο Flesh απαηηεί ηελ χπαξμε πξνηάζεσλ γηα

ηνλ ππνινγηζκφ ηνπ βαζκνχ αλαγλσζηκφηεηαο, ε γελλήηξηα πξνζέηεη ηειείεο ζηα θείκε-

λα. Σηελ θαηεγνξία ηνπ δεκνηηθνχ, κεηά απφ θάζε ιέμε ππάξρεη πηζαλφηεηα 1/10

(10%) λα πξνζηεζεί θαη κηα ηειεία. Τν απνηέιεζκα είλαη λα δεκηνπξγνχληαη πξνηάζεηο

πνπ ζα έρνπλ 10 ιέμεηο αλά πξφηαζε θαηά κέζν φξν. Σηελ θαηεγνξία ηνπ γπκλαζίνπ ην

πνζνζηφ απηφ είλαη 1/15 (6.67%) πνπ ζπλεπάγεηαη 15 ιέμεηο αλά πξφηαζε θαηά κέζν

φξν. Σηε ηειεπηαία θαηεγνξία, ε πηζαλφηεηα είλαη 1/20 (5%), δειαδή 20 ιέμεηο αλά

πξφηαζε. Σηηο δπζθνιφηεξεο θαηεγνξίεο, ε πηζαλφηεηα εκθάληζεο ηειείαο είλαη κηθξφ-

ηεξε, δηφηη νη κεγαιχηεξεο πξνηάζεηο ζεκαίλνπλ κεγαιχηεξε δπζθνιία αλάγλσζεο.

Υπνζέηνπκε, γηα ιφγνπο απιφηεηαο, φηη ηα αξρεία easy.txt, medium.txt θαη hard.txt έ-

ρνπλ απφ ηξεηο ιέμεηο. Τν easy.txt πεξηέρεη ηηο ιέμεηο “easy1”, “easy2” θαη “easy3”, ην

medium.txt ηηο ιέμεηο “medium1”, “medium2” θαη “medium3”, ελψ ην hard.txt ηηο ιέ-

μεηο “hard1”, “hard2” θαη “hard3”. Σε θάζε θαηεγνξία, νη αληίζηνηρεο ιέμεηο έρνπλ ίδηα

πηζαλφηεηα εκθάληζεο. Γηα παξάδεηγκα, ζηελ θαηεγνξία δεκνηηθνχ, νη ιέμεηο easy1,

easy2 θαη easy3 έρνπλ ίδηα πηζαλφηεηα εκθάληζεο. Οη επφκελεο ηξεηο εηθφλεο (9, 10 θαη

11) δείρλνπλ έλα αξρείν απφ θάζε θαηεγνξία, δεκηνπξγεκέλν ζχκθσλα κε ηηο επηινγέο

πνπ έγηλαλ πην πάλσ.

Σηελ Δηθφλα 9 βιέπνπκε έλα αξρείν επηπέδνπ δεκνηηθνχ. Σηελ αξρή βξίζθεηαη ην

γξάκκα “E” πνπ δείρλεη ηελ θαηεγνξία. Απφ ηηο ππφινηπεο δέθα ιέμεηο, νη ηξεηο είλαη

ζφξπβνο (ην πνζνζηφ ζνξχβνπ πνπ νξίζηεθε πην πάλσ είλαη 25%). Υπάξρεη θαη κηα ηε-

ιεία, ινγηθφ αθνχ ζηηο δέθα ιέμεηο πεξίπνπ αληηζηνηρεί θαη κηα ηειεία.

Εικόνα 9: Αξρείν επηπέδνπ δεκνηηθνχ

Η Δηθφλα 10 δείρλεη έλα απφ ηα αξρεία επηπέδνπ γπκλαζίνπ. Η πξψηε ιέμε είλαη ε “M”

γηα ηελ κεζαία θαηεγνξία. Καη εδψ ν ζφξπβνο είλαη ηξεηο ιέμεηο. Αλ θαη ε πηζαλφηεηα

εκθάληζεο ηειείαο ζε απηή ηελ θαηεγνξία είλαη κηθξφηεξε απφ ηελ πξνεγνχκελε, εδψ

έηπρε λα εκθαληζηνχλ δχν ηειείεο.

Page 52: svd diplomatiki

-46-

Εικόνα 10: Αξρείν επηπέδνπ γπκλαζίνπ

Έγγξαθν απφ ηελ ηειεπηαία θαηεγνξία απεηθνλίδεηαη ζηελ Δηθφλα 11. Δδψ έηπρε ν ζφ-

ξπβνο λα απνηειείηε απφ δπν ζηηο δέθα ιέμεηο. Δπίζεο, δελ έρεη εκθαληζηεί ηειεία, θάηη

αλακελφκελν αθνχ ε πηζαλφηεηα εκθάληζήο ηεο είλαη αλά είθνζη ιέμεηο.

Εικόνα 11: Αξρείν επηπέδνπ ιπθείνπ

Σε πξαγκαηηθέο ζπλζήθεο, ππάξρνπλ ιέμεηο πνπ εκθαλίδνληαη πην ζπρλά απφ ηηο ππφ-

ινηπεο, φπσο νη “a”, “the”, “on”, “in”, “is”, “are” θαη “and”. Έλαο ηξφπνο λα απμεζεί ε

πηζαλφηεηα εκθάληζήο ηνπο είλαη λα επαλαιεθζνχλ αξθεηέο θνξέο ζηα αξρεία easy.txt,

medium.txt θαη hard.txt.

4.2 ςλλογή Reuters

Η αμηνιφγεζε θαη ε ζχγθξηζε ηνπ πξνηεηλφκελνπ αιγνξίζκνπ θαη ησλ ππφινηπσλ κε-

ζφδσλ δελ κπνξεί λα ζηεξηρζεί κφλν ζηελ ζπιινγή εγγξάθσλ πνπ παξάγεηαη απφ ηελ

γελλήηξηα. Πξέπεη λα δηαπηζησζεί ε απφδνζή ηνπο θαη ζε πξαγκαηηθά δεδνκέλα. Γηα

ηνλ ζθνπφ απηφ επηιέρζεθε ε ζπιινγή Reuters-21578.

4.2.1 Ιζηοπικά ζηοισεία

Η Reuters-21578 απνηειείηαη απφ άξζξα εηδήζεσλ πνπ δεκνζηεχηεθαλ ην 1987 απφ ην

παγθφζκην πξαθηνξείν εηδήζεσλ Reuters ην νπνίν εδξεχεη ζην Λνλδίλν ηεο Αγγιίαο.

Τα έγγξαθα ζπγθεληξψζεθαλ θαη θαηαηάρζεθαλ ζε θαηεγνξίεο απφ πξνζσπηθφ ηνπ

Reuters Ltd. (Sam Dobbbins, Mike Topliss, Steve Weinstein) θαη ηεο Carnegie Group,

Inc. (Peggy Andersen, Monica Cellio, Phil Haeys, Laura Knecht, Irene Nirenburg) ην

Page 53: svd diplomatiki

-47-

1987. Τν 1990, ηα έγγξαθα απηά έγηλαλ δηαζέζηκα απφ ην Reuters θαη ηελ CGI γηα ε-

ξεπλεηηθνχο ζθνπνχο ζην Δξγαζηήξην Αλάθηεζεο Πιεξνθνξίαο (κε δηεπζπληή ηνλ W.

Bruce Croft) ηνπ Τκήκαηνο Πιεξνθνξηθήο θαη Δπηζηήκεο Υπνινγηζηψλ ηνπ Παλεπη-

ζηεκίνπ ηεο Μαζαρνπζέηεο ζηελ πφιε Amherst. Η κνξθνπνίεζε ησλ εγγξάθσλ θαη ε

παξαγσγή ζπλαθψλ δεδνκέλσλ έγηλε ην 1990 απφ ηνλ Davis D. Lewis θαη ηνλ Stephen

Harding ζην Δξγαζηήξην Αλάθηεζεο Πιεξνθνξίαο. Δπηπιένλ κνξθνπνίεζε θαη αξρεία

πξνζηέζεθε ην 1991 θαη ην 1992 απφ ηνλ David D. Lewis θαη ηνλ Peter Shoemaker ζην

Κέληξν Σπνπδψλ Πιεξνθνξίαο θαη Γισζζψλ ζην Παλεπηζηήκην ηνπ Σηθάγν. Απηή ε

έθδνζε ηεο ζπιινγήο έγηλε δηαζέζηκε ηνλ Ιαλνπάξην ηνπ 1993 σο “Reuters-22173, Dis-

tribution 1.0”. Απφ ην 1993 έσο ην 1996, ε Distribution 1.0 ήηαλ δηαζέζηκε απφ κηα

ζεηξά FTP ηζηνζειίδσλ ηηο νπνίεο ζπληεξνχζε ην Κέληξν Δπθπνχο Αλάθηεζεο Πιεξν-

θνξίαο ηνπ Τκήκαηνο Δπηζηήκεο Υπνινγηζηψλ ηνπ Παλεπηζηεκίνπ ηεο Μαζαρνπζέηεο

ζην Amherst. Τνλ Αχγνπζην ηνπ 1996 ζην ζπλέδξην ACM SIGIR, κηα νκάδα εξεπλε-

ηψλ ζηνλ ηνκέα ηεο θαηεγνξηνπνίεζεο θεηκέλσλ ζπδήηεζαλ γηα ην πσο δεκνζηεπκέλα

απνηειέζκαηα ζην Reuters-22173 ζα κπνξνχζαλ λα γίλνπλ πεξηζζφηεξν ζπγθξίζηκα ζε

φιεο ηηο κειέηεο. Απνθαζίζηεθε φηη κηα λέα έθδνζε ηεο ζπιινγήο ζα έπξεπε λα δεκη-

νπξγεζεί κε ιηγφηεξν αζαθή κνξθνπνίεζε, πνπ ζα πεξηιακβάλεη ηεθκεξίσζε κε θαζη-

εξσκέλεο κεζφδνπο ρξήζεο ηεο ζπιινγήο. Ήηαλ θαη κηα επθαηξία λα δηνξζσζνχλ δηά-

θνξα ηππνγξαθηθά θαη άιια ιάζε ζηελ θαηεγνξηνπνίεζε θαη κνξθνπνίεζε ηεο ζπιιν-

γήο. Ο Steve Finch θαη ν David D. Lewis αζρνιήζεθαλ κε απηή ηελ εθθαζάξηζε ηεο

ζπιινγήο απφ ηνλ Σεπηέκβξην σο ηνλ Ννέκβξην ηνπ 1996, βαζηδφκελνη ζε κεγάιν βαζ-

κφ έθδνζε ηεο ζπιινγήο ηνπ Finch απφ παιαηφηεξε κειέηε, ε νπνία έθδνζε πεξηείρε

εηηθέηεο SGML. Έλα απφ ηα απνηειέζκαηα ηεο επαλεμέηαζεο ηεο ζπιινγήο ήηαλ ε α-

θαίξεζε ησλ 595 εγγξάθσλ, ηα νπνία ήηαλ αθξηβή αληίγξαθα άιισλ εγγξάθσλ ηεο

ζπιινγήο. Ωο εθ ηνχηνπ ε λέα ζπιινγή είρε πιένλ 21578 έγγξαθα, θαη γη‟απηφ νλνκά-

ζηεθε Reuters-21578. Έγηλαλ θαη άιιεο αιιαγέο ζηελ κεηαηξνπή ηνπ Reuters-22173 ζε

Reuters-21578 φπσο:

Σηα έγγξαθα πξνζηέζεθαλ εηηθέηεο (tags) SGML θαη δεκηνπξγήζεθε έλα

SGML πξφηππν, ψζηε ηα φξηα ζεκαληηθψλ ηκεκάησλ ησλ εγγξάθσλ (φπσο ηα

πεδία θαηεγνξηψλ) λα είλαη ζαθή θαη μεθάζαξα.

Πξνζδηνξίζηεθε ην ζχλνιν ησλ θαηεγνξηψλ πνπ αληηζηνηρνχλ ζε θάζε έλα απφ

ηα πέληε ειεγρφκελα πεδία ιεμηθνχ. ια ηα νλφκαηα θαηεγνξηψλ πνπ αληηζηνη-

Page 54: svd diplomatiki

-48-

ρνχζαλ ιαλζαζκέλα ζε θάπνην πεδίν είηε δηνξζψζεθαλ, είηε άιιαμαλ πεδίν, είηε

αθαηξέζεθαλ εληειψο.

Σηα έγγξαθα δφζεθαλ λένη αξηζκνί ηαπηφηεηαο (ID), ζε ρξνλνινγηθή ζεηξά, θαη

ρσξίζηεθαλ ζε 1000 αλά αξρείν αλάινγα κε ηα ID ηνπο (άξα ζε ρξνλνινγηθή

ζεηξά).

4.2.2 Μοπθοποίηζη

Η ζπιινγή Reuters-21578 είλαη θαηαλεκεκέλε ζε 22 αξρεία. Κάζε έλα απφ ηα πξψηα

21 αξρεία (reut2-000.sgm έσο reut2-020.sgm) πεξηέρεη 1000 έγγξαθα, ελψ ην ηειεπηαίν

(reut2-021.sgm) πεξηέρεη 578 έγγξαθα. Τα αξρεία είλαη ζε SGML κνξθή.

Οη εηηθέηεο πνπ έρεη θάζε άξζξν είλαη:

reuters: απηή ε εηηθέηα πεξηέρεη πέληε ραξαθηεξηζηηθά:

o topics: παίξλεη ηηο ηηκέο yes, no θαη bypass, αλάινγα αλ ην άξζξν βξη-

ζθφηαλ ζηα αξρηθά δεδνκέλα ή φρη, ή αλ δελ είρε θαηαηαρζεί.

o lewissplit: νη πηζαλέο ηηκέο είλαη training, test θαη not-used. Η ηηκή train-

ing ζεκαίλεη φηη ην άξζξν ρξεζηκνπνηήζεθε ζην training set ζηα πεηξά-

καηα ηνπ David D. Lewis ζηηο κειέηεο ηνπ “Representation and learning

in information retrieval”, “An evaluation of phrasal and clustered repre-

sentations on a text categorization task”, “Feature selection an feature ex-

traction for text categorization” θαη “A comparison of two learning algo-

rithms for text categorization”. Η ηηκή test ζεκαίλεη φηη ην άξζξν ρξεζη-

κνπνηήζεθε ζην test set ζε απηά ηα πεηξάκαηα θαη ε ηηκή non-used φηη

δελ ρξεζηκνπνηήζεθε θαζφινπ.

o cgisplit: παίξλεη ηηο ηηκέο training-set θαη published-testset πνπ ππνδεη-

θλχνπλ αλ ην άξζξν ρξεζηκνπνηήζεθε ζην training set ή ζην test set ζηα

πεηξάκαηα ηνπ Philip J. Hayes ζηηο κειέηεο “A shell for content-based

text categorization” θαη “A system for content-based indexing of a data-

base of news stories”.

o oldid: ν αξηζκφο ηαπηφηεηα (ID) ηνπ άξζξνπ ζηελ έθδνζε Reuters-

22173.

o newid: ν αξηζκφο ηαπηφηεηα (ID) ηνπ άξζξνπ ζηελ έθδνζε Reuters-

21578.

date: ε εκεξνκελία θαη ψξα ηνπ άξζξνπ.

Page 55: svd diplomatiki

-49-

mknote: ζεκεηψζεηο ζε δηνξζψζεηο πνπ έγηλαλ απφ ηνλ Steve Finch ζηελ αξρηθή

ζπιινγή.

topics: ε ιίζηα κε ηηο θαηεγνξίεο “topics” ζηηο νπνίεο αλήθεη ην άξζξν (κπνξεί

λα αλήθεη ζε πεξηζζφηεξεο απφ κηα θαηεγνξίεο).

places: ίδην κε ην topics αιιά γηα “places” θαηεγνξίεο.

people: ίδην κε ην topics αιιά γηα “people” θαηεγνξίεο.

orgs: ίδην κε ην topics αιιά γηα “orgs” θαηεγνξίεο.

exchange: ίδην κε ην topics αιιά γηα “exchange” θαηεγνξίεο.

companies: απηή ε εηηθέηα είλαη πάληα άδεηα δηφηη δελ ππάξρνπλ θαηεγνξίεο ε-

ηαηξηψλ ζηελ ζπιινγή.

unknown: απηή ε εηηθέηα εζσθιείεη ραξαθηήξεο πνπ ζεσξνχληαη ζφξπβνο ζην

ζψκα ηνπ άξζξνπ.

text: απηή ε εηηθέηα πεξηέρεη ηηο εμήο εηηθέηεο:

o author: ν ζπγγξαθέαο ηνπ άξζξνπ.

o dateline: ε ηνπνζεζία φπνπ έγηλε ηεο είδεζεο πνπ πεξηγξάθεηαη ζην άξ-

ζξν, θαζψο θαη ε εκεξνκελία.

o title: ν ηίηινο ηνπ άξζξνπ.

o body: ην ζψκα ηνπ άξζξνπ.

4.2.3 Καηηγοπίερ

Σηελ ζπιινγή Reuters-21578 ππάξρνπλ πέληε ζχλνια θαηεγνξηψλ: exchanges, orgs,

people, places θαη topics. Κάζε έλα απφ απηά ηα ζχλνια πεξηέρεη θαηεγνξίεο ζρεηηθέο

κε ην πεξηερφκελν ησλ άξζξσλ. Γηα θάζε έγγξαθν, ε απφθαζε ζε πνηεο θαηεγνξίεο ζα

θαηαηαρζεί έρεη γίλεη απφ άλζξσπν.

Πίνακαρ 11: Τν πιήζνο ησλ θαηεγνξηψλ ζε θάζε ζχλνιν θαηεγνξηψλ

Σύνολο κατηγοριών Πλήθοσ κατηγοριών

Exchanges 39

Orgs 56

People 267

Places 175

Topics 135

Page 56: svd diplomatiki

-50-

Ο Πίλαθαο 11 δείρλεη πφζεο θαηεγνξίεο πεξηέρεη ην θάζε ζχλνιν. Τν ζχλνιν “topics”

πεξηέρεη θαηεγνξίεο νηθνλνκηθνχ ηχπνπ. Μεξηθά παξαδείγκαηα είλαη “coconut”, “gold”,

“inventories” θαη “money-supply". Απηφ ην ζχλνιν θαηεγνξηψλ έρεη ρξεζηκνπνηεζεί ζε

ζρεδφλ φιεο ηηο κειέηεο πνπ έρνπλ γίλεη κε ηελ ζπιινγή Reuters. Οη θαηεγνξίεο πνπ

αλήθνπλ ζηα “exchanges”, “orgs”, “people” θαη “places” αληηζηνηρνχλ ζε νλνκαζηηθέο

νληφηεηεο ηνπ ζπγθεθξηκέλνπ ηχπνπ. Παξαδείγκαηα είλαη νη θαηεγνξίεο “nastag” (ex-

changes), “gatt (orgs), “perez-de-cuellar (people) θαη “australia” (places). Σπλήζσο, ην

φλνκα ηεο θαηεγνξάο ζηελ νπνία αλήθεη έλα έγγξαθν, ππάξρεη ζην ζψκα ηνπ εγγξάθνπ

σο ιέμε ζε θάπνηα κνξθή (απηφ δελ ηζρχεη κφλν γηα ηηο θαηεγνξίεο πνπ αλήθνπλ ζην

ζχλνιν “topics”). Ωζηφζν, φηαλ κηα ιέμε ζε έλα έγγξαθν ηπραίλεη λα είλαη φλνκα θα-

ηεγνξίαο, δελ ζεκαίλεη φηη ην έγγξαθν απηφ αλήθεη ζε απηή ηελ θαηεγνξία. Απηφ ζπκ-

βαίλεη δηφηη ε ιέμε απηή πξέπεη λα εζηηάδεη ζην ζέκα ηεο είδεζεο. Έηζη, ε αλάζεζε απ-

ηψλ ησλ θαηεγνξηψλ ζηα έγγξαθα δελ είλαη εχθνιε ππφζεζε θαη κπνξεί λα γίλεη κφλν

απφ άλζξσπν.

Page 57: svd diplomatiki

-51-

5 Πειπαμαηική Αξιολόγηζη

Σε απηφ ην θεθάιαην αμηνινγείηαη ε κέζνδνο SVD βάζε πεηξακάησλ θαη ζπγθξίλεηαη ε

απφδνζή ηεο κε ηηο ππφινηπεο κεζφδνπο Flesh, SVD-Aggregation θαη νκνηφηεηα ζπλε-

κηηφλνπ. Σηελ αξρή αλαθέξνληαη νη κεηξηθέο κε ηηο νπνίεο κεηξήζεθε ε απφδνζε ησλ

αιγνξίζκσλ, ελψ ζηελ ζπλέρεηα παξνπζηάδνληαη ηα απνηειέζκαηα ησλ πεηξακάησλ ζε

δεδνκέλα ηεο γελλήηξηαο θεηκέλσλ κε δηάθνξα επίπεδα ζνξχβνπ, θαζψο θαη ζηελ ζπι-

ινγή Reuters.

Σηελ ζπλέρεηα, ζα αλαθεξφκαζηε ζηηο ηέζζεξηο κεζφδνπο κε ηνλ εμήο ηξφπν:

Cosine: νκνηφηεηα ζπλεκηηφλνπ

Flesh: Flesh Reading Ease

SVD-Cos: Η κέζνδνο SVD πνπ πεξηγξάθεηαη ζην Κεθάιαην 3 ζπλδπαζκέλε κε

απιή νκνηφηεηα ζπλεκηηφλνπ

Agg-SVD: Aggregated SVD (ππνθεθάιαην 2.3)

5.1 Μεηπικέρ

Οη κεηξηθέο κε ηηο νπνίεο κεηξήζεθε ε απφδνζε ησλ αιγνξίζκσλ ππνινγίδνληαη κε ηελ

βνήζεηα ηεζζάξσλ κεηαβιεηψλ. Οη κεηαβιεηέο απηέο ππνινγίδνληαη γηα θάζε θαηεγν-

ξία μερσξηζηά:

Μεηαβιεηή a: ην πιήζνο ησλ εγγξάθσλ πνπ αλαηέζεθαλ ζσζηά ζηελ ζπγθεθξη-

κέλε θαηεγνξία

Μεηαβιεηή b: ην πιήζνο ησλ εγγξάθσλ πνπ αλαηέζεθαλ ιαλζαζκέλα ζηελ ζπ-

γθεθξηκέλε θαηεγνξία (δειαδή αλήθνπλ ζε άιιε θαηεγνξία)

Μεηαβιεηή c: ην πιήζνο ησλ εγγξάθσλ πνπ απνξξίθζεθαλ ιαλζαζκέλα απφ ηελ

ζπγθεθξηκέλε θαηεγνξία (δειαδή αλήθνπλ ζηελ ζπγθεθξηκέλε θαηεγνξία αιιά

απνξξίθζεθαλ)

Μεηαβιεηή d: ην πιήζνο ησλ εγγξάθσλ πνπ απνξξίθζεθαλ ζσζηά απφ ηελ ζπ-

γθεθξηκέλε θαηεγνξία (δειαδή αλήθνπλ ζε άιιε θαηεγνξία, άξα ε απφξξηςή

ηνπο απφ ηελ ζπγθεθξηκέλε είλαη ζσζηή)

Page 58: svd diplomatiki

-52-

Με απηέο ηηο ηέζζεξηο κεηαβιεηέο ππνινγίδνληαη νη κεηξηθέο Recall, Precision, Fallout,

Accuracy θαη Error κε ηνλ εμήο ηξφπν:

Recall = a/(a+c) αλ a+c > 0 αιιηψο δελ ππνινγίδεηαη

Precision = a/(a+b) αλ a+b > 0 αιιηψο δελ ππνινγίδεηαη

Fallout = b/(b+d) αλ b+d > 0 αιιηψο δελ ππνινγίδεηαη

Accuracy = (a+d)/n φπνπ n = a+b+c+d > 0

Error = (b+c)/n φπνπ n = a+b+c+d > 0

Οη κεηξηθέο Accuracy θαη Error είλαη ζπκπιεξσκαηηθέο. Φξεζηκνπνηήζεθε αθφκα κηα

κεηξηθή, ε αξκνληθή κέζε ηηκή (F-measure), ε νπνία είλαη θαη ε πην ζεκαληηθή θαη π-

πνινγίδεηαη ζπλδπάδνληαο ηελ Recall θαη ηελ Precision:

5.2 Πειπάμαηα ζε ζύνολο δεδομένων με 0% θόπςβο

Αξρηθά νη αιγφξηζκνη δνθηκάζηεθαλ ζε δεδνκέλα ρσξίο ζφξπβν. Απηφ ζεκαίλεη φηη θά-

ζε έγγξαθν πεξηέρεη κφλν φξνπο πνπ πεξηγξάθνπλ ηελ θαηεγνξία ζηελ νπνία αλήθεη.

Τα δεδνκέλα απηά δεκηνπξγήζεθαλ κε ηελ γελλήηξηα θεηκέλσλ πνπ παξνπζηάζηεθε ζην

Κεθάιαην 4 θαη απνηεινχληαη απφ έγγξαθα ησλ δηαθνζίσλ ιέμεσλ.

Γηα ην ζπγθεθξηκέλν πείξακα δελ ζα δείμνπκε πίλαθεο κε ηηο απνδφζεηο ησλ κεζφδσλ

δηφηη φιεο νη κέζνδνη είραλ επηηπρία 100% ζηελ κεηξηθή F, θάηη ινγηθφ αθνχ απνπζηά-

δεη πιήξσο ν ζφξπβνο. Η κφλε εμαίξεζε κε ιίγν κηθξφηεξε απφδνζε ήηαλ ε κέζνδνο

Flesh επεηδή ε απφδνζή ηεο δελ εμαξηάηαη απφ ηνλ ζφξπβν κε ηνλ ηξφπν πνπ γίλεηαη

ζηηο ππφινηπεο κεζφδνπο. Με άιια ιφγηα, δελ εμαξηάηαη απφ ηελ κνλαδηθφηεηα ησλ ιέ-

μεσλ, αιιά απφ ηα ραξαθηεξηζηηθά ηνπο (ζπιιαβέο αλά ιέμε, ιέμεηο αλά πξφηαζε).

Η κνλαδηθή εηθφλα πνπ ζα δείμνπκε γηα ην πείξακα απηφ είλαη ε Δηθφλα 12, ε νπνία

δείρλεη ην heat-map ηνπ πίλαθα ζπλάζξνηζεο απνζηάζεσλ ηεο κεζφδνπ Aggregated

SVD (ζην παξάδεηγκα ηνπ δεχηεξνπ θεθαιαίνπ ν πίλαθαο Μ) θαη ζπγθεθξηκέλα ηνπ

Agg-SVD 30%. Τα ηεηξάγσλα πνπ ζρεκαηίδνληαη ζηελ δηαγψλην είλαη νη θαηεγνξίεο

πνπ μερσξίδνληαη. Ίζσο λα πεξίκελε θαλείο φηη ην ζρήκα απηφ ζα ήηαλ πνιχ πην “θαζα-

ξφ” αθνχ δελ ππάξρεη ζφξπβνο ζηα έγγξαθα θαη ε απφδνζε ηεο ζπγθεθξηκέλεο κεζφδνπ

είλαη 100%. Γελ είλαη έηζη δηφηη o πίλαθαο ζπλάζξνηζεο απνζηάζεσλ θαη θαη‟επέθηαζε

ην heat-map δελ δείρλνπλ ην ηειηθφ απνηέιεζκα ηεο θαηεγνξηνπνίεζεο αιιά πφζν “ν-

Page 59: svd diplomatiki

-53-

ξαηέο” είλαη νη ηξεηο θαηεγνξίεο ζην training set βάζε ησλ απνζηάζεσλ κεηαμχ ησλ εγ-

γξάθσλ (ν πίλαθαο απνζηάζεσλ ζρεκαηίδεηαη κφλν απφ ηα έγγξαθα ηνπ training set).

Εικόνα 12: Heat-map ηνπ ζπλνιηθνχ πίλαθα απνζηάζεσλ ηεο κεζφδνπ Aggregated SVD

Τν πείξακα απηφ κε data set ρσξίο ζφξπβν δελ είλαη ξεαιηζηηθφ αιιά έγηλε γηα λα δηα-

πηζησζεί ε ζπκπεξηθνξά ησλ αιγνξίζκσλ ζε δηάθνξεο ζπλζήθεο.

5.3 Πειπάμαηα ζε ζύνολο δεδομένων με 25% θόπς-βο

Τν δεχηεξν πείξακα έγηλε ζε δεδνκέλα κε ζφξπβν 25%. Τα δεδνκέλα απηά απνηεινχ-

ληαη απφ θείκελα ησλ δηαθνζίσλ ιέμεσλ πνπ δεκηνπξγήζεθαλ κε ρξήζε ηεο γελλήηξηαο

θεηκέλσλ. Ο Πίλαθαο 12 δείρλεη ηα απνηειέζκαηα γηα ηελ θαηεγνξία “δεκνηηθφ”. Καη

εδψ ε νκνηφηεηα ζπλεκηηφλνπ έρεη απφδνζε 100%, θαζψο θαη ε κέζνδνο ηνπ απινχ

SVD (SVD-Cos) κε πνζνζηφ πιεξνθνξίαο 70%, 50% θαη 30%, αιιά θαη ε Aggregated

SVD κε πνζνζηφ πιεξνθνξίαο 70% θαη 30%. Τα απνηειέζκαηα απηά δελ είλαη παξά-

μελα δηφηη ην πνζνζηφ ηνπ ζνξχβνπ είλαη ζρεηηθά κηθξφ.

Page 60: svd diplomatiki

-54-

Πίνακαρ 12: Απνηειέζκαηα γηα ηελ θαηεγνξία «δεκνηηθφ»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 100% 100% 0% 100% 0% 100%

Flesh 42% 100% 0% 80% 19% 60%

SVD-Cos 100% 29% 80% 3% 73% 26% 42%

Agg-SVD 100% 79% 42% 53% 57% 42% 55%

SVD-Cos 70% 100% 100% 0% 100% 0% 100%

Agg-SVD 70% 100% 60% 32% 79% 21% 76%

SVD-Cos 50% 100% 93% 3% 98% 2% 97%

Agg-SVD 50% 86% 92% 3% 93% 7% 89%

SVD-Cos 30% 100% 100% 0% 100% 0% 100%

Agg-SVD 30% 100% 100% 0% 100% 0% 100%

Πίνακαρ 13: Απνηειέζκαηα γηα ηελ θαηεγνξία «γπκλάζην»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 100% 100% 0% 100% 0% 100%

Flesh 64% 50% 32% 66% 33% 56%

SVD-Cos 100% 93% 65% 25% 80% 19% 76%

Agg-SVD 100% 36% 83% 35% 76% 23% 50%

SVD-Cos 70% 100% 100% 0% 100% 0% 100%

Agg-SVD 70% 57% 89% 3% 83% 16% 70%

SVD-Cos 50% 93% 100% 0% 98% 2% 96%

Agg-SVD 50% 93% 87% 7% 93% 7% 90%

SVD-Cos 30% 100% 100% 0% 100% 0% 100%

Agg-SVD 30% 100% 100% 0% 100% 0% 100%

Σηηο πεξηπηψζεηο SVD-Cos 100% θαη Agg-SVD 100% ε απφδνζε είλαη κηθξφηεξε ιφ-

γσ ηνπ ζνξχβνπ, αιιά θαη ζηελ Agg-SVD 50% φπνπ κε ηελ κείσζε ησλ δηαζηάζεσλ

έηπρε λα αθαηξεζεί ρξήζηκε πιεξνθνξία. Ο Flesh ζεκεηψλεη κέηξηα απφδνζε.

Page 61: svd diplomatiki

-55-

Οη επφκελνη δχν πίλαθεο, 16 θαη 17, πνπ αληηζηνηρνχλ ζηηο άιιεο δχν θαηεγνξίεο έρνπλ

παξφκνηα απνηειέζκαηα. Γεληθά κπνξεί λα παξαηεξήζεη θαλείο φηη ζηελ θαηεγνξία

“γπκλάζην” ηα απνηειέζκαηα είλαη ιίγν ρεηξφηεξα ελψ ζηελ θαηεγνξία “ιχθεην” είλαη

ιίγν θαιχηεξα. Αθφκα, θαη ζηνπο ηξεηο πίλαθεο ηα Agg-SVD 30%, SVD-Cos 70% θαη

SVD-Cos 30% έρνπλ ηελ κέγηζηε απφδνζε.

Πίνακαρ 14: Απνηειέζκαηα γηα ηελ θαηεγνξία «ιχθεην»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 100% 100% 0% 100% 0% 100%

Flesh 92% 72% 17% 85% 14% 81%

SVD-Cos 100% 93% 76% 14% 88% 11% 84%

Agg-SVD 100% 57% 80% 7% 80% 19% 67%

SVD-Cos 70% 100% 100% 0% 100% 0% 100%

Agg-SVD 70% 71% 100% 0% 90% 9% 83%

SVD-Cos 50% 100% 100% 0% 100% 0% 100%

Agg-SVD 50% 100% 100% 0% 100% 0% 100%

SVD-Cos 30% 100% 100% 0% 100% 0% 100%

Agg-SVD 30% 100% 100% 0% 100% 0% 100%

Η Δηθφλα 13 είλαη ην ζπγθεληξσηηθφ δηάγξακκα κε ηηο ηηκέο ηεο κεηξηθήο F απφ ηνπο

ηξεηο ηειεπηαίνπο πίλαθεο. Βιέπνπκε φηη γεληθά ε νκνηφηεηα ζπλεκηηφλνπ θαη SVD-

Cos έρνπλ ηηο θαιχηεξεο απνδφζεηο. Δπίζεο, παξαηεξνχκε φηη, εηδηθά ζηελ Agg-SVD,

φζν κεηψλνληαη νη δηαζηάζεηο ηφζν απμάλεηαη ε απφδνζε.

Page 62: svd diplomatiki

-56-

Εικόνα 13: F-measure φισλ ησλ κεζφδσλ γηα ηηο ηξεηο θαηεγνξίεο

Τν ηειεπηαίν θαίλεηαη θαη ζηελ Δηθφλα 15, ελψ ζηελ Δηθφλα 14 βιέπνπκε ην αληίζηνηρν

γηα ηελ SVD-Cos, φπνπ ππάξρεη κηθξή πηψζε ζην SVD-Cos 50% ιφγσ αθαίξεζεο πιε-

ξνθνξίαο κε ηελ κείσζε ησλ δηαζηάζεσλ. Δδψ πξνθχπηεη ην εξψηεκα γηαηί δελ έρεη

πέζεη ε απφδνζε θαη ζην SVD-Cos 30% αθνχ θαη εδψ κεηψζεθαλ νη δηαζηάζεηο. Η α-

πάληεζε ζε απηφ είλαη φηη πηζαλφηαηα κε ηελ πεξαηηέξσ κείσζε δηαζηάζεσλ λα αθαη-

ξέζεθε ζρεδφλ φινο ν ζφξπβνο.

Εικόνα 14: F-measure γηα ηηο ηξεηο θαηεγνξίεο κφλν γηα ηελ SVD-Cos

Page 63: svd diplomatiki

-57-

Σηελ Δηθφλα 15 θαίλεηαη πσο ε κείσζε δηαζηάζεσλ αληηζηνηρεί κε ηελ κείσζε ηνπ ζν-

ξχβνπ.

Εικόνα 15: F-measure γηα ηηο ηξεηο θαηεγνξίεο κφλν γηα ηελ Agg-SVD

πσο θαη κε ην πξνεγνχκελν πείξακα, ε Δηθφλα 16 δείρλεη ην heat-map ηνπ πίλαθα ζπ-

λάζξνηζεο απνζηάζεσλ ηεο κεζφδνπ Aggregated SVD. Απηφ πνπ κπνξνχκε λα παξα-

ηεξήζνπκε ζε ζρέζε κε ην πξνεγνχκελν πείξακα είλαη φηη ν ζφξπβνο εδψ έρεη θάλεη

ηελ δηάθξηζε ησλ θαηεγνξηψλ πην ζνιή.

Εικόνα 16: Heat-map ηνπ ζπλνιηθνχ πίλαθα απνζηάζεσλ ηεο κεζφδνπ Aggregated SVD

Page 64: svd diplomatiki

-58-

5.4 Πειπάμαηα ζε ζύνολο δεδομένων με 50% θόπς-βο

Τν ηξίην θαη ηειεπηαίν πείξακα κε δεδνκέλα ηεο γελλήηξηαο θεηκέλσλ έγηλε κε έγγξαθα

ησλ δηαθνζίσλ ιέμεσλ θαη 50% ζφξπβν. Σηνλ Πίλαθα 15 κπνξεί λα δεη θαλείο ηα απν-

ηειέζκαηα γηα ηελ θαηεγνξία ηνπ δεκνηηθνχ. Τν θαιχηεξν απνηέιεζκα ζηελ θαηεγνξη-

νπνίεζε έρεη ε κέζνδνο SVD-Cos 30%. Αθνινπζνχλ νη Agg-SVD 30% θαη ε Cosine.

Βιέπνπκε φηη ε ρξήζε ιίγσλ δηαζηάζεσλ ζηελ SVD αξθεί γηα ηελ ζσζηή θαηεγνξην-

πνίεζε, ελψ ε ρξήζε φισλ ησλ δηαζηάζεσλ έρεη κέηξηα απνηειέζκαηα ιφγσ ζνξχβνπ.

Η απφδνζε ηνπ Flesh είλαη πνιχ ρεηξφηεξε απ‟φηη ζηα πξνεγνχκελα πεηξάκαηα. Απηφ

νθείιεηαη ζηελ αχμεζε ηνπ ζνξχβνπ. Υπελζπκίδνπκε εδψ φηη ν ζφξπβνο είλαη ιέμεηο

πνπ αλήθνπλ ζηηο άιιεο δπν θαηεγνξίεο. Η θαηεγνξία “δεκνηηθφ” πεξηέρεη ιέμεηο κε

ιίγεο ζπιιαβέο, ελψ νη άιιεο δχν, σο πην δχζθνιεο θαηεγνξίεο σο πξνο ηελ αλαγλσζη-

κφηεηα, πεξηέρνπλ ιέμεηο κε πεξηζζφηεξεο ζπιιαβέο. Η αχμεζε απηή ησλ ζπιιαβψλ

αλά ιέμε θάλεη ηνλ Flesh λα θαηαηάζζεη ηα θείκελα θπξίσο ζηελ δεχηεξε θαηεγνξία

(“γπκλάζην”) κε απνηέιεζκα λα έρεη πνιχ κηθξή απφδνζε ζηελ πξψηε θαηεγνξία.

Πίνακαρ 15: Απνηειέζκαηα γηα ηελ θαηεγνξία «δεκνηηθφ»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 92% 86% 7% 92% 7% 89%

Flesh 5% 3% 81% 15% 85% 2%

SVD-Cos 100% 71% 42% 50% 57% 42% 53%

Agg-SVD 100% 36% 33% 35% 55% 45% 34%

SVD-Cos 70% 99% 74% 17% 88% 11% 85%

Agg-SVD 70% 93% 52% 42% 69% 30% 67%

SVD-Cos 50% 99% 70% 21% 86% 14% 82%

Agg-SVD 50% 93% 59% 32% 76% 23% 72%

SVD-Cos 30% 99% 99% 0% 99% 0% 99%

Agg-SVD 30% 99% 88% 7% 95% 4% 93%

Page 65: svd diplomatiki

-59-

Πίνακαρ 16: Απνηειέζκαηα γηα ηελ θαηεγνξία «γπκλάζην»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 78% 78% 10% 85% 14% 78%

Flesh 92% 46% 53% 61% 38% 61%

SVD-Cos 100% 43% 55% 17% 69% 30% 48%

Agg-SVD 100% 29% 33% 28% 57% 42% 30%

SVD-Cos 70% 86% 99% 0% 95% 4% 92%

Agg-SVD 70% 38% 71% 71% 74% 26% 48%

SVD-Cos 50% 71% 90% 3% 88% 11% 80%

Agg-SVD 50% 43% 55% 17% 69% 30% 48%

SVD-Cos 30% 99% 78% 14% 90% 9% 88%

Agg-SVD 30% 86% 75% 14% 86% 14% 80%

Ο Πίλαθαο 16 πεξηέρεη ηα απνηειέζκαηα γηα ηελ θαηεγνξία ηνπ γπκλαζίνπ. Καη εδψ ε

ζεηξά κε ηελ νπνία ηαμηλνκνχληαη νη κέζνδνη αλάινγα κε ηελ απφδνζή ηνπο είλαη ίδηα

κε ηνλ πξνεγνχκελν πίλαθα. Πξψηε είλαη ε SVD-Cos, κεηά ε Agg-SVD, αθνινπζεί ε

Cosine θαη ηειεπηαία ν Flesh. Η δηαθνξά εδψ είλαη ζην πνζνζηφ κείσζεο ησλ δηαζηά-

ζεσλ ζηελ SVD-Cos. Τν πνζνζηφ κε ηελ θαιχηεξε απφδνζε είλαη ην 70% θαη φρη ην

30% φπσο πξηλ. Αληίζεηα ζηελ Agg-SVD ην 30% θαη ην 50% έρνπλ ηελ ίδηα απφδνζε

(κεηξηθή F) ε νπνία είλαη θαιχηεξε απφ ηα πνζνζηά 70% θαη 100%. Σηελ νκνηφηεηα

ζπλεκηηφλνπ ηα λνχκεξα έρνπλ πέζεη ιίγν. Σηνλ Flesh ε απφδνζε έρεη αλεβεί αξθεηά

αιιά παξακέλεη κέηξηα. Αλ θαη ζρεδφλ φια ηα έγγξαθα ηεο δεχηεξεο θαηεγνξίαο θαηα-

ηάρζεθαλ ζσζηά κε ηνλ Flesh, ε ηηκή ηνπ F-measure είλαη κέηξηα. Απηφ ζπκβαίλεη δηφηη

ζηελ δεχηεξε θαηεγνξία, εθηφο απφ ηα ζσζηά έγγξαθα, θαηαηάρζεθαλ θαη πνιιά απφ

ηηο άιιεο δχν θαηεγνξίεο θαη θπξίσο απφ ηελ πξψηε. ια απηά θαίλνληαη θαη απφ ηελ

πςειή ηηκή Recall, ε νπνία δείρλεη ηελ ζσζηή θαηάηαμε ησλ εγγξάθσλ ηεο δεχηεξεο

θαηεγνξίαο, θαη απφ ηελ ρακειή ηηκή Precision, ε νπνία δείρλεη ηελ ιάζνο αληηζηνίρε-

ζε ησλ εγγξάθσλ ησλ άιισλ δπν θαηεγνξηψλ ζηελ δεχηεξε. Δπίζεο, ηα έγγξαθα ηεο

δεχηεξεο θαηεγνξίαο θαηαηάρζεθαλ ζηελ ζσζηή θαηεγνξία επεηδή ν ζφξπβνο εμνπδε-

ηεξψλεη θαηά θάπνην ηξφπν ηνλ εαπηφ ηνπ. Με άιια ιφγηα, νη ιέμεηο ηεο πξψηεο θαηε-

γνξίαο είλαη ιίγσλ ζπιιαβψλ, ελψ νη ιέμεηο ηεο ηξίηεο θαηεγνξίαο είλαη πνιιψλ ζπι-

Page 66: svd diplomatiki

-60-

ιαβψλ. Αθνχ νη φξνη ηεο πξψηεο θαηεγνξίαο έρνπλ ίδηα πηζαλφηεηα εκθάληζεο κε ηνπο

φξνπο ηεο ηξίηεο, ν αξηζκφο ηνπο ζα είλαη πεξίπνπ ίδηνο. Έηζη, ν αξηζκφο ησλ ζπιιαβψλ

αλά ιέμε δελ ζα είλαη νχηε κεγάινο νχηε κηθξφο, αιιά κεζαίνο, φπσο είλαη δειαδή νη

ιέμεηο ηεο δεχηεξεο θαηεγνξίαο.

Πίνακαρ 17: Απνηειέζκαηα γηα ηελ θαηεγνξία «ιχθεην»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 85% 92% 35% 92% 7% 88%

Flesh 85% 85% 7% 90% 10% 85%

SVD-Cos 100% 36% 71% 71% 73% 26% 48%

Agg-SVD 100% 29% 27% 39% 50% 50% 28%

SVD-Cos 70% 79% 99% 0% 93% 7% 88%

Agg-SVD 70% 64% 90% 3% 86% 14% 75%

SVD-Cos 50% 71% 90% 3% 88% 11% 80%

Agg-SVD 50% 57% 89% 3% 83% 16% 70%

SVD-Cos 30% 71% 99% 0% 90% 9% 83%

Agg-SVD 30% 57% 80% 7% 80% 19% 67%

Ο ηειεπηαίνο πίλαθαο απηνχ ηνπ πεηξάκαηνο είλαη ν Πίλαθαο 17 θαη πεξηέρεη ηα απνηε-

ιέζκαηα ηεο απφδνζεο ησλ ηεζζάξσλ αιγνξίζκσλ γηα ηελ θαηεγνξία ηνπ ιπθείνπ. Η

νκνηφηεηα ζπλεκηηφλνπ έρεη πεξίπνπ ηελ ίδηα απφδνζε κε ηελ πξψηε θαηεγνξία. Ο

Flesh έρεη θαιχηεξε απφδνζε απ‟φηη ζηηο πξνεγνχκελεο δπν θαηεγνξίεο. Απφ ηελ ρα-

κειφηεξε ηηκή ηνπ Recall ζπκπεξαίλνπκε φηη θαηεγνξηνπνηήζεθαλ ζσζηά ιηγφηεξα έγ-

γξαθα ηεο ηξίηεο θαηεγνξίαο ζε ζρέζε κε ηελ δεχηεξε, αιιά απφ ηελ πςειφηεξε ηηκή

ηνπ Precision βιέπνπκε φηη θαηαηάρζεθαλ ιάζνο ζηελ ηξίηε θαηεγνξία ιηγφηεξα έγ-

γξαθα άιισλ θαηεγνξηψλ. Τέινο, ζηνπο ππφινηπνπο δχν αιγνξίζκνπο, ηα θαιχηεξα

απνηειέζκαηα είλαη ζηελ πεξίπησζε φπνπ έρεη θξαηεζεί ην 70% ηεο πιεξνθνξίαο θα-

ηεγνξηνπνίεζεο, αλ θαη ζην 30% ε δηαθνξά δελ είλαη κεγάιε.

Τν δηάγξακκα ηεο Δηθφλαο 17 δείρλεη ζπγθεληξσηηθά ηηο ηηκέο ηεο κεηξηθήο F φισλ ησλ

αιγνξίζκσλ γηα ηηο ηξεηο θαηεγνξίεο. Γεληθά ηελ θαιχηεξε απφδνζε έρεη ε ηερληθή

SVD-Cos. Σε ζχγθξηζε κε ηελ Agg-SVD, ε SVD-Cos έρεη θαιχηεξα απνηειέζκαηα

ζηηο ηξεηο θαηεγνξίεο ζε φιεο ηηο πεξηπηψζεηο κείσζεο δηαζηάζεσλ. Η νκνηφηεηα ζπλε-

Page 67: svd diplomatiki

-61-

κηηφλνπ πιεζηάδεη ηελ SVD-Cos, ελψ ν Flesh ζπκπεξηθέξεηαη εληειψο ιάζνο ζηελ

πξψηε θαηεγνξία.

Εικόνα 17: F-measure φισλ ησλ κεζφδσλ γηα ηηο ηξεηο θαηεγνξίεο

Εικόνα 18: F-measure γηα ηηο ηξεηο θαηεγνξίεο κφλν γηα ηελ SVD-Cos

Η Δηθφλα 18 δείρλεη ηελ κεηξηθή F γηα ηηο ηξεηο θαηεγνξίεο κφλν γηα ηελ SVD-Cos. Η

θαιχηεξε απφδνζε γηα ηελ πξψηε θαηεγνξία είλαη ζην 30% ηεο κείσζεο ησλ δηαζηά-

ζεσλ, ελψ γηα ηηο άιιεο δχν θαηεγνξίεο ε θαιχηεξε απφδνζε είλαη ζην 70%, αλ θαη ε

δηαθνξά κε ην 30% είλαη κηθξή. Σε πεξίπησζε πνπ ζα έπξεπε λα δηαιέμνπκε ην θαιχ-

Page 68: svd diplomatiki

-62-

ηεξν πνζνζηφ κείσζεο δηαζηάζεσλ, ε επηινγή καο ζα ήηαλ ην 30% δηφηη είλαη πνιχ θν-

ληά ζην θαιχηεξν 70% αιιά έρεη πνιχ κηθξφηεξν ππνινγηζηηθφ θφζηνο.

Σηε Δηθφλα 19 βιέπνπκε ηελ κεηξηθή F γηα ηελ κέζνδν Agg-SVD θαη ζηηο ηξεηο θαηε-

γνξίεο. Σην 100% ν ζφξπβνο είλαη πνιιήο θαη ε απφδνζε ρακειή. Σηα 70% θαη 50% ε

ζπκπεξηθνξά ηνπ αιγνξίζκνπ είλαη παξφκνηα. Η θαιχηεξε απφδνζε είλαη ζην 30% ησλ

δηαζηάζεσλ. Απηφ ζεκαίλεη φηη φζν κεηψλεηαη ν αξηζκφο ησλ δηαζηάζεσλ αθαηξείηαη

θαη πεξηζζφηεξνο ζφξπβνο.

Εικόνα 19: F-measure γηα ηηο ηξεηο θαηεγνξίεο κφλν γηα ηελ Agg-SVD

Εικόνα 20: Γηάγξακκα Recall-Precision γηα ηελ θαηεγνξία «δεκνηηθφ»

Page 69: svd diplomatiki

-63-

Οη Δηθφλεο 20, 21 θαη 22 είλαη δηαγξάκκαηα Recall-Precision ησλ ηεζζάξσλ κεζφδσλ.

Κάζε έλα απφ ηα ηξία δηαγξάκκαηα αληηζηνηρεί ζε κηα θαηεγνξία. Γηα ηηο κεζφδνπο

SVD-Cos θαη Agg-SVD έρνπκε δηαιέμεη ηα πνζνζηά κείσζεο δηαζηάζεσλ κε ηελ θαιχ-

ηεξε απφδνζε. Σην πξψην δηάγξακκα θάλεη εληχπσζε ν Flesh κε ηελ ρακειή απφδνζή

ηνπ. Σην δεχηεξν δηάγξακκα ηα πάεη θαιχηεξα, ελψ νη ππφινηπεο ηξεηο κέζνδνη είλαη

πνιχ θνληά. Σην ηξίην ν Flesh μεπεξλάεη ηνλ Agg-SVD, ελψ νη ππφινηπνη δπν είλαη αξ-

θεηά θνληά.

Εικόνα 21: Γηάγξακκα Recall-Precision γηα ηελ θαηεγνξία «γπκλάζην»

Εικόνα 22: Γηάγξακκα Recall-Precision γηα ηελ θαηεγνξία «ιχθεην»

Τν ηειεπηαίν δηάγξακκα ζηελ Δηθφλα 23 είλαη ν κέζνο φξνο ηνπ Recall θαη ηνπ Preci-

sion ησλ πξνεγνχκελσλ ηξηψλ δηαγξακκάησλ. Ξεθάζαξα πξψηνο είλαη ν αιγφξηζκνο

Page 70: svd diplomatiki

-64-

SVD-Cos, ελψ αθνινπζνχλ νη Agg-SVD θαη Cosine, νη νπνίνη βξίζθνληαη πάξα πνιχ

θνληά θαη νη θακπχιεο ηνπο ηέκλνληαη. Τειεπηαίνο κε δηαθνξά είλαη ν Flesh θπξίσο ιφ-

γσ ηεο εμαηξεηηθά ρακειήο απφδνζήο ηνπ ζηελ πξψηε θαηεγνξία.

Εικόνα 23: Μέζνο φξνο Recall-Precision ησλ ηξηψλ θαηεγνξηψλ

πσο θαη κε ηα πξνεγνχκελα δπν πεηξάκαηα, έηζη θαη εδψ παξαζέηνπκε ην heat-map

ηνπ πίλαθα ζπλάζξνηζεο απνζηάζεσλ ηεο κεζφδνπ Agg-SVD (Δηθφλα 24). Σπγθξίλν-

ληαο ην heat-map κε ηα δπν πξνεγνχκελα, ηα ηεηξάγσλα πνπ αληηζηνηρνχλ ζηηο θαηεγν-

ξίεο θαίλνληαη αθφκα ιηγφηεξν ιφγσ ηνπ κεγαιχηεξνπ πνζνζηνχ ζνξχβνπ.

Εικόνα 24: Heat-map ηνπ πίλαθα ζπλάζξνηζεο απνζηάζεσλ ηεο κεζφδνπ Aggregated SVD

Page 71: svd diplomatiki

-65-

5.5 Πειπάμαηα με ηο ζύνολο δεδομένων Reuters

Γηα ηελ αμηνιφγεζε ηνπ αιγνξίζκνπ καο δελ ζα κπνξνχζακε λα βαζηζηνχκε κφλν ζηα

έγγξαθα ηεο γελλήηξηαο θεηκέλσλ. Έηζη, γηα λα δνχκε ηελ ζπκπεξηθνξά ηνπ ζε πξαγκα-

ηηθά δεδνκέλα επηιέμακε ηελ ζπιινγή Reuters πνπ πεξηέρεη 21578 έγγξαθα. Τα έγγξα-

θα απηά, φκσο, δελ ρσξίδνληαη ζε θαηεγνξίεο βάζε ηεο αλαγλσζηκφηεηαο ηνπο. Γηα απ-

ηφ ηνλ ιφγν δελ είρε λφεκα λα ηξέμνπκε ηνλ αιγφξηζκν Flesh, ν νπνίνο δελ κπνξεί λα

δηαρσξίζεη ηα έγγξαθα κε άιια θξηηήξηα εθηφο ηεο αλαγλσζηκφηεηαο. Οη άιινη ηξεηο

αιγφξηζκνη, φκσο, κπνξνχλ λα δνθηκαζηνχλ θαη ζε άιινπ είδνπο θαηεγνξίεο εθηφο απφ

ηελ αλαγλσζηκφηεηα. Σπγθεθξηκέλα, παξνπζηάδνπκε εδψ ηα απνηειέζκαηα ησλ αιγν-

ξίζκσλ γηα ηξεηο θαηεγνξίεο, ηελ “coffee”, ηελ “gold” θαη ηελ “ship”. Οη ηξεηο απηέο

θαηεγνξίεο αλήθνπλ ζην ζχλνιν θαηεγνξηψλ “Topic” ηεο ζπιινγήο θαη πξνζδηνξίδνπλ

ην ζέκα ηνπ θεηκέλνπ. Γειαδή ηα θείκελα ηεο θαηεγνξίαο “coffee” έρνπλ λα θάλνπλ κε

ηελ βηνκεραλία ηνπ θαθέ, ηα θείκελα ηεο “gold” κε ηελ βηνκεραλία ηνπ ρξπζνχ θαη ηα

θείκελα ηεο “ship” κε κεηαθνξέο αγαζψλ.

Σηνλ Πίλαθα 18 βιέπνπκε ηα απνηειέζκαηα ησλ αιγνξίζκσλ γηα ηελ θαηεγνξία

“coffee”. Η κέζνδνο κε ηελ θαιχηεξε απφδνζε είλαη ε SVD-Cos 50%, ελψ θαη κε ην

30% ηεο πιεξνθνξίαο ην απνηέιεζκα είλαη πνιχ θνληά. Η Agg-SVD δελ ηα πάεη ηφζν

θαιά, κε ην θαιχηεξν ζθνξ ηεο λα είλαη ζην 30% ησλ δηαζηάζεσλ. Τέινο, ε νκνηφηεηα

ζπλεκηηφλνπ έρεη απιά ηθαλνπνηεηηθή απφδνζε.

Πίνακαρ 18: Απνηειέζκαηα γηα ηελ θαηεγνξία «coffee»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 95% 60% 48% 72% 27% 75%

SVD-Cos 100% 58% 94% 2% 80% 19% 71%

Agg-SVD 100% 85% 46% 74% 50% 49% 59%

SVD-Cos 70% 88% 92% 5% 92% 8% 90%

Agg-SVD 70% 69% 60% 34% 67% 32% 64%

SVD-Cos 50% 92% 98% 1% 97% 3% 96%

Agg-SVD 50% 77% 71% 22% 77% 22% 74%

SVD-Cos 30% 92% 96% 2% 95% 5% 94%

Agg-SVD 30% 69% 90% 5% 83% 16% 78%

Page 72: svd diplomatiki

-66-

Τα απνηειέζκαηα γηα ηελ θαηεγνξία “gold” είλαη παξφκνηα κε ηελ πξνεγνχκελε (Πί-

λαθαο 19). Ο Cosine έρεη ζρεδφλ ίδηα απφδνζε θαη ν SVD-Cos πεηπραίλεη θαη πάιη ην

θαιχηεξν απνηέιεζκα ζην 50% ησλ δηαζηάζεσλ. Ο Agg-SVD έρεη ηελ θαιχηεξε απφ-

δνζε ζην 70% ησλ δηαζηάζεσλ απηή ηελ θνξά.

Πίνακαρ 19: Απνηειέζκαηα γηα ηελ θαηεγνξία «gold»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 64% 84% 4% 86% 13% 73%

SVD-Cos 100% 97% 43% 52% 62% 37% 60%

Agg-SVD 100% 47% 62% 11% 77% 22% 53%

SVD-Cos 70% 88% 83% 6% 92% 8% 86%

Agg-SVD 70% 47% 80% 45% 82% 18% 59%

SVD-Cos 50% 94% 89% 45% 95% 5% 91%

Agg-SVD 50% 65% 55% 20% 75% 24% 59%

SVD-Cos 30% 88% 79% 9% 90% 10% 83%

Agg-SVD 30% 88% 68% 15% 85% 14% 77%

Πίνακαρ 20: Απνηειέζκαηα γηα ηελ θαηεγνξία «ship»

Column1 Recall Precision Fallout Accuracy Error F-measure

Cosine 22% 80% 2% 75% 24% 34%

SVD-Cos 100% 28% 97% 1% 79% 21% 43%

Agg-SVD 100% 25% 81% 2% 70% 29% 36%

SVD-Cos 70% 89% 89% 46% 93% 7% 89%

Agg-SVD 70% 78% 67% 16% 82% 18% 72%

SVD-Cos 50% 94% 89% 4% 95% 5% 92%

Agg-SVD 50% 44% 62% 11% 75% 24% 52%

SVD-Cos 30% 78% 82% 7% 89% 11% 80%

Agg-SVD 30% 67% 63% 16% 77% 21% 65%

Page 73: svd diplomatiki

-67-

Γηα ηα απνηειέζκαηα ηνπ Πίλαθα 20 γηα ηελ ηξίηε θαηεγνξία “ship” ηζρχνπλ απηά πνπ

είπακε γηα ηνλ Πίλαθα 19 κε εμαίξεζε ηνλ Cosine ηνπ νπνίνπ ε απφδνζε έπεζε πνιχ.

Εικόνα 25: F-measure φισλ ησλ κεζφδσλ γηα ηηο ηξεηο θαηεγνξίεο

Εικόνα 26: F-measure γηα ηηο ηξεηο θαηεγνξίεο κφλν γηα ηελ SVD-Cos

Σην δηάγξακκα ηεο Δηθφλαο 25 θαίλνληαη ζπγθεληξσηηθά νη ηηκέο ηεο F-measure φισλ

ησλ αιγνξίζκσλ γηα ηηο ηξεηο θαηεγνξίεο. Δίλαη αξθεηά νκνηνγελέο ην απνηέιεζκα κε

Page 74: svd diplomatiki

-68-

εμαίξεζε ηνλ SVD-Cos, ν νπνίνο μερσξίδεη απφ ηνπο ππφινηπνπο ζηα πνζνζηά δηαζηά-

ζεσλ 70%, 50% θαη 30%.

Τν δηάγξακκα ηεο Δηθφλαο 26 παξνπζηάδεη ηελ κεηξηθή F κφλν γηα ηνλ SVD-Cos. Σην

100% ησλ δηαζηάζεσλ ν ζφξπβνο πεξηνξίδεη πνιχ ηελ απφδνζε ηνπ αιγνξίζκνπ. Οη

ππφινηπεο πεξηπηψζεηο ζπλαγσλίδνληαη, κε ην πνζνζηφ ηνπ 50% λα έρεη έλα ειαθξχ

πξνβάδηζκα.

Τν αληίζηνηρν δηάγξακκα γηα ηελ κέζνδν Agg-SVD είλαη ζηελ Δηθφλα 27. Δδψ ηα

πξάγκαηα είλαη ιίγν δηαθνξεηηθά. Τν επίπεδν ησλ απνδφζεσλ είλαη ρακειφηεξν.

Αθφκα, κε ηελ κείσζε ησλ δηαζηάζεσλ αθαηξείηαη ν ζφξπβνε θαη απμάλεηαη ε απφδνζε

γηα ηηο θαηεγνξίεο “gold” θαη “ship”. Γηα ηελ “coffee” ην κεγαιχηεξν ζθνξ είλαη ζην

70% ηεο πιεξνθνξίαο.

Εικόνα 27: F-measure γηα ηηο ηξεηο θαηεγνξίεο κφλν γηα ηελ Agg-SVD

Οη ηξεηο Δηθφλεο 28, 29 θαη 30 πεξηέρνπλ δηαγξάκκαηα Recall-Precision, έλα γηα θάζε

κηα απφ ηηο ηξεηο θαηεγνξίεο. Καη ζηα ηξία ε θακπχιε ηεο κεζφδνπ SVD-Cos βξίζθεηαη

πςειφηεξα θαη δεμηφηεξα. Οη άιιεο δχν κέζνδνη, Agg-SVD θαη Cosine,

ζπλαγσλίδνληαη ζην χςνο (Precision) αιιά μεθάζαξα ε Agg-SVD έρεη γεληθά

κεγαιχηεξν Recall. Να πνχκε εδψ φηη γηα ηηο δπν ηερλθέο κε SVD έρνπκε δηαιέμεη ηηο

θαιχηεξεο πεξηπηψζεηο, φζνλ αθνξά ην πνζνζηφ ησλ δηαζηάζεσλ. Γειαδή 30% γηα ηελ

Agg-SVD θαη 50% γηα ηελ SVD-Cos.

Page 75: svd diplomatiki

-69-

Εικόνα 28: Γηάγξακκα Recall-Precision γηα ηελ θαηεγνξία «coffee»

Εικόνα 29: Γηάγξακκα Recall-Precision γηα ηελ θαηεγνξία «gold»

Τν ηειεπηαίν δηάγξακκα ηνπ πεηξάκαηνο, αιιά θαη ηνπ θεθαιαίνπ βξίζθεηαη ζηελ

Δηθφλα 31. Τν δηάγξακκα απηφ είλαη ν κέζνο φξνο Recall-Precision ησλ πξνεγνχκελσλ

ηξηψλ δηαγξακκάησλ, ζην νπνίν βιέπνπκε φηη ε ηερληθή SVD-Cos είλαη ν ληθεηήο

απηνχ ηνπ πεηξάκαηνο κε αξθεηή δηαθνξά. Οη θακπχιεο ησλ άιισλ δχν ηερληθψλ είλαη

ζρεηηθά θνληά κε ηελ θαιχηεξε λα αλήθεη ζηελ Agg-SVD.

Page 76: svd diplomatiki

-70-

Εικόνα 30: Γηάγξακκα Recall-Precision γηα ηελ θαηεγνξία «ship»

Εικόνα 31: Μέζνο φξνο Recall-Precision ησλ ηξηψλ θαηεγνξηψλ «coffee», «gold» θαη «ship»

Page 77: svd diplomatiki

-71-

6 ςμπεπάζμαηα και μελλονηι-κή έπεςνα

Σηελ παξνχζα δηπισκαηηθή εξγαζία εμεηάζακε ηελ εθαξκνγή ηεο εμφξπμεο δεδνκέλσλ

ζηνλ ηνκέα ηεο θαηεγνξηνπνίεζεο θεηκέλσλ. Σπγθεθξηκέλα, πξνηείλακε ηελ ηερληθή

Singular Value Decomposition (SVD) γηα ηελ θαηεγνξηνπνίεζε θεηκέλσλ βάζε ηνπ ε-

πηπέδνπ αλαγλσζηκφηεηάο ηνπο. Δπίζεο, ηελ ζπγθξίλακε κε άιιεο κεζφδνπο απφ ηνλ

ρψξν ηεο εμφξπμεο δεδνκέλσλ θαζψο θαη κε ηελ κέζνδν ππνινγηζκνχ αλαγλσζηκφηε-

ηαο Flesh Reading Ease.

Αξρηθά, ζηελ εξγαζία απηή πεξηγξάςακε ην πξφβιεκα θαη αλαθεξζήθακε ζε βαζηθέο

έλλνηεο φπσο ε εμφξπμε θεηκέλσλ, ε θαηεγνξηνπνίεζε θεηκέλσλ θαη ην κνληέιν δηαλπ-

ζκαηηθνχ ρψξνπ. Σηελ ζπλέρεηα παξνπζηάζηεθαλ νη αληαγσληζηηθέο κέζνδνη, δειαδή ε

κέζνδνο ππνινγηζκνχ αλαγλσζηκφηεηαο Flesh Reading Ease, ε ζχγθξηζε θεηκέλσλ κε

νκνηφηεηα ζπλεκηηφλνπ θαη ε Aggregated SVD. Οη δχν ηειεπηαίεο αλήθνπλ ζηελ επη-

ζηήκε ηεο εμφξπμεο δεδνκέλσλ, ελψ ε Flesh Reading Ease φρη. Δπίζεο, ε Aggregated

SVD, ε νπνία είλαη ζπλδπαζκφο SVD θαη Aggregation απνηειψληαο πξνέθηαζε ηεο

SVD, αλαπηχρζεθε θαη πινπνηήζεθε ζηα πιαίζηα ηεο απηήο ηεο εξγαζίαο, αιιά ηειηθά

παξνπζηάζηεθε σο αληαγσληζηηθή κέζνδνο δηφηη δελ είρε ηα αλακελφκελα απνηειέζκα-

ηα.

Μεηά ηελ παξνπζίαζε ησλ αληαγσληζηηθψλ κεζφδσλ, πεξηγξάςακε αλαιπηηθά ηνλ αι-

γφξηζκν πνπ πξνηείλνπκε γηα θαηεγνξηνπνίεζε θεηκέλσλ βάζε αλαγλσζηκφηεηαο, ηνλ

SVD ζε ζπλδπαζκφ κε νκνηφηεηα ζπλεκηηφλνπ. Έπεηηα αλαθεξζήθακε ζηνλ ηξφπν ιεη-

ηνπξγίαο ηεο γελλήηξηαο θεηκέλσλ πνπ πινπνηήζεθε ζηα πιαίζηα ηεο παξνχζαο εξγαζί-

αο, θαζψο θαη ζηελ δνκή ηνπ ζπλφινπ δεδνκέλσλ Reuters-21578.

Τα πεηξάκαηα πνπ ηξέμακε κπνξνχλ λα ρσξηζζνχλ ζε δπν είδε: ζηα πεηξάκαηα ζε δε-

δνκέλα ηεο γελλήηξηαο θεηκέλσλ θαη ζηα πεηξάκαηα ζε πξαγκαηηθά δεδνκέλα. Σηελ

πξψηε πεξίπησζε, ιέγνληαο δεδνκέλα ηεο γελλήηξηαο θεηκέλσλ ελλννχκε θείκελα πνπ

δεκηνπξγήζεθαλ κε ηελ γελλήηξηα θαη ηα νπνία ρσξίδνληαη ζε ηξεηο θαηεγνξίεο αλα-

γλσζηκφηεηαο: δεκνηηθφ, γπκλάζην θαη ιχθεην. Δπίζεο, δνθηκάζακε ηξεηο πεξηπηψζεηο,

κε 0%, 25% θαη 50% ζφξπβν. Σηελ πεξίπησζε ησλ πξαγκαηηθψλ δεδνκέλσλ, αλαθεξφ-

Page 78: svd diplomatiki

-72-

καζηε ζην ζχλνιν δεδνκέλσλ Reuters, ην νπνίν δελ ρσξίδεη ηα δεδνκέλα βάζεη ηεο α-

λαγλσζηκφηεηαο, αιιά ην επηιέμακε δηφηη δελ ππάξρεη απηή ηελ ζηηγκή θάπνην ζχλνιν

δεδνκέλσλ πνπ λα ρσξίδεηαη ζε θαηεγνξίεο αλαγλσζηκφηεηαο. Τα απνηειέζκαηα φισλ

ησλ πεηξακάησλ έδεημαλ φηη αιγφξηζκνο SVD πνπ πξνηείλνπκε έρεη ηελ θαιχηεξε απφ-

δνζε, κεξηθέο θνξέο κε αξθεηή δηαθνξά απφ ηνπο ππφινηπνπο θαη άιιεο θνξέο κε κη-

θξφηεξε.

Ωο κειινληηθή έξεπλα πξνηείλεηαη ν ζπλδπαζκφο ηεο ηερληθήο SVD κε άιιεο κεζφδνπο

θαηεγνξηνπνίεζεο. Δπίζεο, πξνηείλεηαη ε αληηθαηάζηαζε ηεο νκνηφηεηαο ζπλεκηηφλνπ

κε άιιεο ηερληθέο ζχγθξηζεο. Τέινο, πξνηείλεηαη ε δεκηνπξγία ζπλφινπ δεδνκέλσλ κε

πξαγκαηηθά δεδνκέλα, ζην νπνίν ζα ρσξίδνληαη ηα έγγξαθα βάζε ηεο αλαγλσζηκφηεηάο

ηνπο.

Page 79: svd diplomatiki

-73-

Page 80: svd diplomatiki
Page 81: svd diplomatiki

-75-

Βιβλιογπαθία

Baeza-Yates, R., Ribeiro-Neto B. (1999) Modern Information Retrieval, Addison

Weslay Longman Inc.

Baker, K. (2005) Singular Value Decomposition Tutorial, http://www.cs.wits.ac.za/

~michael/SVDTut.pdf

Balabanovic, M., Shoham, Y. (1997) Fab: Content-based, collaborative recommenda-

tion, ACM Communications, volume 40, number 3, pages 66-72

Bharat, K., Henzinger M. R. (1998) Improved Algorithms for Topic Distillation in a

Hyperlinked Enviroment, Proc. ACM Conf. Res. and Developments in Information Re-

trieval

Chakrabarti, S., Dom, B., Indyk, P. (1998) Enhanced Hypertext categorization Using

Hyperlinks, Proc. ACM SIGMOD international Conference on Management Data, vol-

ume 27, number 2, pages 307-318

Edelstein, H. (1999) Introduction to Data Mining and Knowledge Discovery. 3rd ed.,

Two Crows Corporation

Furnas, G., Deerwester, θαη άιινη (1988) Information retrieval using a singular value

decomposition model of latent semantic structure, SIGIR, pages 465-480

Guan, H., Zhou, J., Guo, M. (2009) A Class-Feature-Centroid Classifier for Text Cate-

gorization, WWW 2009, Madrid, pages 201-210

Han, J., Kamber, M. (2001) Data Mining: Concepts and Techniques. CA: Morgan

Kaufmann, San Francisco

Hans-Henning, G., Spiliopoulou, M., Nanopoulos, A. (2010) Eigenvector-Based Clus-

tering Using Aggregated Similarity Matrices. ACM SAC‟ 10, pages 1083-1087

Herlocker, J., Konstan, J., Terveen, L., Riedl, J. (2004) Evaluating Collaborative Filter-

ing Recommender System, ACM Trans. on Information Systems, volume 22, number 1,

pages 5-53

Page 82: svd diplomatiki

-76-

Joachims, T. (1998) Text categorization with support vector machines: Learning with

many relevant features, Springer Verlag, pages 137-142

Kim, H., Howland, P., Park H. (2006) Dimension Redeuction in Text Classificaton with

Support Vector Machines, Journal of machine Learning Research, volume 6, number 1,

pages 37-53

Lewis, D. D. (1991) Evaluating text categorization, HLT ‟91 Proceedings of the work-

shop on Speech and Natural Language, 312-318

Melville, P., Mooney, R. J., Nagarajan, R. (2002) Content-Boosted Collaborative filter-

ing for Improved Recommendations, AAAI, pages 187-192

Montanes, E., Diaz, I., Ranilla, J., Combarro, E. F., Fernandez J. (2005) Scoring and

selecting terms for text categorization, IEEE Intelligent Systems, volume 20, number 3,

pages 40-47

Papadimitriou, C. H., Raghavan, P., Tamaki, H., Vempala, S. (1998) Latent Semantic

Indexing: a Probabilistic Analysis, Proc. ACM Symposium on Pronciples of Database

systems, volume 61, number 2, pages 217-235

Pei, Z. L., Shi, X. H., Marchese, M., Liang, Y. C., (2007) An enhanced text categoriza-

tion method based on improved text frequency approach and mutual information algo-

rithm, Progress in Natural Science, volume 17, number 12, pages 1494-1500

Robertson, S. E., Spark Jones K. (1976) Relevance weighting of search terms, Journal

of the American Society for Information Sciences, volume 27, number 3, pages 129-146

Sabwar, B., Karypis, G., Konstan, J., Riedl, J. (2000) Application of dimensionality re-

duction in recommender system – A case study, ACM WebKDD Workshop, volume

1625, number 1, pages 285-295

Salton, G., Buckley, C., (1988) Term weighting approaches in automatic retrieval, In-

formation Processing & Management, volume 24, number 5, pages 513-523

Soucy, P., Mineau, G. W. (2003) Feature selection strategies for text categorization,

Advances in Artificial Intelligence, Proceedings, 2671, pages 505-509

Symeonidis, P. Content-based Dimensionality Reduction for Recommended System,

GfKl 2007, pages 619-626

Yang, Y., J. Pedersen, J.(1997) A comparative study on feature selection in text catego-

rization, In International Conference on Machine Learning (ICML), pages 412-420

Page 83: svd diplomatiki

-77-

Yang Y. (1997) An evaluation of statistical approaches to text categorization, Journal

Information Retrieval, volume 1, number 1-2, pages 69-90

Yang, B., Sun, J.T., Wang, T., Chen Z. (2009) Effective Multi-Label Active Learning for

Text Classification, ACM KDD ‟09, pages 917-926

Page 84: svd diplomatiki
Page 85: svd diplomatiki

-79-

Παπάπηημα 1: Δγσειπίδιο σπή-ζηρ

Σην παξάξηεκα απηφ πεξηγξάθνπκε ηα βήκαηα πνπ πξέπεη λα αθνινπζήζεη θαλείο γηα

λα ηξέμεη ηνλ θψδηθα ηεο εξγαζίαο θαη λα δεη ηα απνηειέζκαηα. Πξψηα απ‟φια λα πνχ-

κε φηη ε εθαξκνγή ππνινγηζκνχ ηνπ Flesh Reading Ease θαη ν πεγαίνο θψδηθάο ηεο π-

πάξρνπλ δηαζέζηκα πξνο θαηέβαζκα ζηνλ ηζηνζειίδα http://flesh.sourceforge.net (ππάξ-

ρνπλ θαη ζην ζπλνδεπηηθφ cd ζηνλ θάθειν “Flesh”). ινη νη ππφινηπνη αιγφξηζκνη πιν-

πνηήζεθαλ κε Microsoft Visual Studio 2008 θαη Matlab R2010a ζην ιεηηνπξγηθφ ζχ-

ζηεκα Windows 7.

Π1.1 Ππόγπαμμα Generator

Τν πξφγξακκα απηφ είλαη πινπνίεζε ηεο γελλήηξηαο θεηκέλσλ. Γηα λα ην ρξεζηκνπνηή-

ζνπκε, αληηγξάθνπκε ηνλ θάθειν “Generator” απφ ην ζπλνδεπηηθφ cd ζηνλ ζθιεξφ καο

δίζθν. Σηελ ζπλέρεηα αλνίγνπκε ην MS Visual Studio (έθδνζε 2008 ή λεφηεξε) θαη απφ

ην κελνχ επηιέγνπκε FileOpenProject/Solution. Σην παξάζπξν πνπ εκθαλίδεηαη

βξίζθνπκε ηνλ θάθειν “Generator” πνπ κφιηο αληηγξάςακε. Αλνίγνπκε ηνλ θάθειν θαη

επηιέγνπκε ην αξρείν “Generator.sln” πνπ ππάξρεη κέζα. Αθνχ παηήζνπκε Open, έρνπ-

κε αλνίμεη ην πξφγξακκα “Generator” θαη κπνξνχκε λα δνχκε ηνλ θψδηθά ηνπ. Γηα λα

ην ηξέμνπκε θαη λα δεκηνπξγήζνπκε έλα ζχλνιν δεδνκέλσλ παηάκε ην πιήθηξν F5. Σην

λέν παξάζπξν πνπ εκθαλίδεηαη ζε κνξθή θνλζφιαο, εηζάγνπκε ηηο πιεξνθνξίεο γηα ην

ζχλνιν δεδνκέλσλ πνπ ζα δεκηνπξγήζνπκε. Η δηαδηθαζία πεξηγξάθεηαη αλαιπηηθά ζην

ηέηαξην θεθάιαην. Έζησ φηη εδψ δεκηνπξγνχκε 90 έγγξαθα, 30 γηα θάζε θαηεγνξία, κε

150 ιέμεηο ζην θαζέλα θαη κε 50% ζφξπβν (Δηθφλα 32). Απηά ηα έγγξαθα απνηεινχλ ην

training set. Η εθαξκνγή δεκηνπξγεί ηα έγγξαθα ζηνλ θάθειν /Generator/Generator/

(ζηνλ θάθειν απηφ ππάξρνπλ θαη ηα ηξία αξρεία easy.txt, medium.txt θαη hard.txt φπνπ

κπνξνχκε λα πξνζζέζνπκε ιέμεηο γηα θάζε θαηεγνξία). Τα 90 αξρεία πνπ κφιηο δεκη-

νπξγήζακε ηα παίξλνπκε απφ εθεί θάλνληαο “Απνθνπή” (φρη “Αληηγξαθή” δηφηη δελ

πξέπεη λα κείλνπλ εθεί). Γεκηνπξγνχκε έλαλ λέν θάθειν φπνπ επηζπκνχκε (π.ρ. ζηελ

επηθάλεηα εξγαζίαο) δίλνληάο ηνπ έλα νπνηνδήπνηε φλνκα (π.ρ. training_set) θαη κεηα-

Page 86: svd diplomatiki

-80-

θέξνπκε ηα 90 αξρεία καο εθεί θάλνληαο “Δπηθφιιεζε” κέζα ζηνλ θάθειν. Τν training

set καο είλαη έηνηκν.

Εικόνα 32: Γεκηνπξγία 90 εγγξάθσλ γηα training set

Γηα λα δεκηνπξγήζνπκε ην test set μαλαηξέρνπκε ηελ γελλήηξηα (κε F5) θαη δεκηνπξ-

γνχκε, γηα παξάδεηγκα, 30 έγγξαθα - 10 γηα θάζε θαηεγνξία - θαη ζηα ππφινηπα ραξα-

θηεξηζηηθά εηζάγνπκε ηηο ίδηεο ηηκέο (Δηθφλα 33). πσο θαη πξηλ, ηα παίξλνπκε απφ ην

θάθειν /Generator/Generator/ κε “Απνθνπή” θαη ηα κεηαθέξνπκε ζε έλαλ λέν θάθειν

πνπ δεκηνπξγνχκε (π.ρ. ζηελ επηθάλεηα εξγαζίαο κε φλνκα test_set). Κάλνληαο απηφ

έρνπκε εηνηκάζεη θαη ην test set.

Εικόνα 33: Γεκηνπξγία 30 εγγξάθσλ γηα test set

Σε απηφ ην ζεκείν πξέπεη λα έρνπκε δπν θαθέινπο, έλαλ κε ηα έγγξαθα ηνπ training set

θαη έλαλ κε ηα έγγξαθα ηνπ test set. Oη δχν απηνί θάθεινη δελ πξέπεη λα πεξηέρνπλ άι-

ια αξρεία εθηφο απφ απηά πνπ δεκηνπξγήζακε. Σηελ ελφηεηα 1.3 απηνχ ηνπ παξαξηή-

καηνο εμεγνχκε πσο ρξεζηκνπνηνχληαη απηνί νη δπν θάθεινη.

Π1.2 Reuters

Γηα λα αμηνινγήζνπκε ηηο κεζφδνπο πνπ πεξηγξάθνληαη ζηελ παξνχζα εξγαζία κε

πξαγκαηηθά δεδνκέλα, κπνξνχκε λα ρξεζηκνπνηήζνπκε ην ζχλνιν δεδνκέλσλ Reuters.

Θα πξέπεη, φκσο, λα κεηαηξέςνπκε ηα αξρεία ηνπ ζε κνξθή ζπκβαηή κε ην δηθφ καο

πξφγξακκα. Πξηλ μεθηλήζνπκε, δεκηνπξγνχκε δχν θαθέινπο (π.ρ. ζηελ επηθάλεηα εξ-

γαζίαο) κε νλφκαηα training_set θαη test_set.

πσο αλαθέξακε ζην ηέηαξην θεθάιαην, ηα έγγξαθα ην Reuters απνηειείηαη απφ 22

αξρεία (reut2-000.sgm έσο reut2-021.sgm), 21 ησλ ρηιίσλ εγγξάθσλ θαη έλα κε 578 έγ-

γξαθα. Τα αξρεία απηά βξίζθνληαη ζηνλ θάθειν “Reuters21578”. Αλνίγνληαο (π.ρ. κε

Notepad++) έλα απφ απηά ηα 22 αξρεία βιέπνπκε φηη θάζε έγγξαθν πεξηγξάθεηαη κε

sgml tags. Έλα απφ απηά είλαη ην TOPIC ην νπνίν αλαθέξεηαη ζην ζέκα ηνπ θεηκέλνπ.

Page 87: svd diplomatiki

-81-

Γειαδή ην tag απηφ πεξηέρεη ηηο θαηεγνξίεο ησλ θεηκέλσλ βάζε ζέκαηνο. Οη θαηεγνξίεο

απηέο είλαη πνιιέο θαη ην πξφγξακκά καο κπνξεί λα ιεηηνπξγήζεη γηα ηξεηο. Γηα απηφ

ηνλ ιφγν επηιέγνπκε ηξεηο θαηεγνξίεο (φπσο π.ρ. ζην πέκπην θεθάιαην, φπνπ γηα ηα

πεηξάκαηα ηεο εξγαζίαο επηιέρζεθαλ νη θαηεγνξίεο “coffee”, “gold” θαη “ship”). Έζησ

εδψ φηη ε “earn” είλαη κηα απφ ηηο ηξεηο θαηεγνξίεο πνπ επηιέγνπκε. Αλνίγνπκε έλα απφ

ηα 22 αξρεία θαη κε ηελ βνήζεηα ηεο ιεηηνπξγίαο Find ηνπ θεηκελνγξάθνπ καο αλαδε-

ηνχκε ηελ ιέμε “earn”. Τα θείκελα πνπ ζα βξνχκε ζα έρνπλ ηελ εμήο κνξθή:

<REUTERS TOPICS="YES" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET"

OLDID="5757" NEWID="214">

<DATE>26-FEB-1987 19:16:39.70</DATE>

<TOPICS><D>earn</D></TOPICS>

<PLACES><D>usa</D></PLACES>

<PEOPLE></PEOPLE>

<ORGS></ORGS>

<EXCHANGES></EXCHANGES>

<COMPANIES></COMPANIES>

<UNKNOWN>

&#5;&#5;&#5;F

&#22;&#22;&#1;f0395&#31;reute

u f BC-AVERY-&lt;AVY>-SETS-TWO 02-26 0086</UNKNOWN>

<TEXT>&#2;

<TITLE>AVERY &lt;AVY> SETS TWO FOR ONE STOCK SPLIT</TITLE>

<DATELINE> PASADENA, Calif., Feb 26 - </DATELINE><BODY>Avery said its

board authorizerd

a two for one stock split, an increased in the quarterly

dividend and plans to offer four mln shares of common stock.

The company said the stock split is effective March 16 with

a distribution of one additional share to each shareholder of

record March 9.

It said the quarterly cash dividend of 10.5 cts per share

Page 88: svd diplomatiki

-82-

on the split shares, a 10.5 pct increase from the 19 cts per

share before the split.

Avery said it will register with the Securities and

Exchange Commission shrortly to offer four mln additional

common shares. It will use the proceeds to repay debt, finance

recent acquisitions and for other corporate purposes.

Reuter

&#3;</BODY></TEXT>

</REUTERS>

Σην tag TOPIC είλαη ε θαηεγνξία πνπ αλαδεηάκε (earn). Σην tag BODY είλαη ην ζψκα

ηνπ εγγξάθνπ. Αληηγξάθνπκε φ,ηη πεξηθιείεηαη ζην tag BODY, δειαδή νιφθιεξν ην

ζψκα ηνπ θεηκέλνπ θαη κφλν απηφ, θαη θάλνπκε επηθφιιεζε ζε έλα λέν αξρείν txt πνπ

δεκηνπξγνχκε. Τν λέν απηφ αξρείν ην απνζεθεχνπκε ζηνλ θάθειν training_set πνπ έ-

ρνπκε ήδε δεκηνπξγήζεη. Σηελ ζπλέρεηα, βξίζθνπκε ην επφκελν θείκελν ζην αξρείν ηνπ

Reuters πνπ έρνπκε αλνίμεη, ην νπνίν αλήθεη ζηελ θαηεγνξία “earn” (αλ δελ ππάξρεη

επφκελν, ηφηε αλνίγνπκε ην επφκελν αξρείν απφ ηα 22 ηνπ Reuters). Μφιηο βξνχκε ην

επφκελν θείκελν, θάλνπκε ην ίδην, δειαδή δεκηνπξγνχκε έλα λέν αξρείν txt, αληηγξά-

θνπκε ζε απηφ ην ζψκα ηνπ θεηκέλνπ θαη ην απνζεθεχνπκε ζηνλ θάθειν training_set.

Απηφ ην επαλαιακβάλνπκε κέρξη λα δεκηνπξγήζνπκε φζα έγγξαθα ζέινπκε γηα ηελ

ζπγθεθξηκέλε θαηεγνξία. Γελ έρεη ζεκαζία πσο ζα νλνκάζνπκε ηα txt αξρεία. ηαλ

ηειεηψζνπκε, ζηελ αξρή θάζε txt αξρείνπ ζα πξέπεη λα βάινπκε ην θεθαιαίν γξάκκα

“E” ην νπνίν ζα δηαρσξίδεηαη απφ ην ππφινηπν θείκελν κε ραξαθηήξα θελνχ ή λέαο

γξακκήο. Απηφ κπνξεί λα γίλεη θαη θαηά ηελ δεκηνπξγία ησλ αξρείσλ, δειαδή λα γξά-

θνπκε ην “E” ζηελ αξρή ηνπ λένπ εγγξάθνπ θαη ζηελ ζπλέρεηα λα θάλνπκε επηθφιιεζε

ην θείκελν απφ ην Reuters. Τν γξάκκα απηφ ην βάδνπκε ζηελ αξρή ησλ εγγξάθσλ γηα

λα δείμνπκε ζην πξφγξακκα φηη αλήθνπλ ζηελ ίδηα θαηεγνξία.

Γηα λα δεκηνπξγήζνπκε ηελ δεχηεξε θαηεγνξία, επηιέγνπκε θάπνηα άιιε θαηεγνξία

ζην TOPIC θαη θάλνπκε αθξηβψο ηα ίδηα κε πξηλ. Τηο ίδηεο ελέξγεηεο επαλαιακβάλνπκε

θαη γηα ηελ ηξίηε θαηεγνξία. Η δηαθνξά είλαη φηη ζηελ δεχηεξε θαηεγνξία αληί γηα “E”

βάδνπκε “M” θαη ζηελ ηξίηε βάδνπκε “H”. Σην ηέινο έρνπκε ζηνλ θάθειν training_set

φια ηα txt αξρεία ησλ ηξηψλ θαηεγνξηψλ.

Page 89: svd diplomatiki

-83-

Γηα ην test_set αθνινπζνχκε αθξηβψο ηα ίδηα βήκαηα, επηιέγνληαο ηηο ίδηεο θαηεγνξίεο

ζην TOPIC πνπ επηιέμακε θαη γηα ην training set. Δπίζεο, ηα αξρηθά γξάκκαηα ζην ζψ-

κα ησλ αξρείσλ πξέπεη λα είλαη ίδηα, δειαδή γηα ηελ θαηεγνξία “earn” λα είλαη ην

γξάκκα “E”, θαη γηα ηηο άιιεο δπν ηα γξάκκαηα “M” θαη “H” αληίζηνηρα. Μπνξνχκε,

αθφκα, απιά λα πάξνπκε θάπνηα αξρεία απφ ην training set εθφζνλ είλαη αξθεηά, θάλν-

ληαο “Απνθνπή” απφ ηνλ θάθειν training_set θαη “Δπηθφιιεζε” ζηνλ θάθειν test_set.

Απηφο ν ηξφπνο δεκηνπξγίαο training set θαη ηεζη set δελ είλαη γξήγνξνο, γη‟απηφ ζα

κπνξνχζε θαλείο λα ρξεζηκνπνηήζεη θάπνηα εθαξκνγή κε ηελ νπνία ζα κπνξεί λα πάξεη

απηφκαηα ην πεξηερφκελν ησλ sgml tags.

Σην ζπλνδεπηηθφ cd ν θάθεινο Reuters πεξηέρεη αξρεία training set θαη test set γηα ηηο

θαηεγνξίεο “coffee”, “gold” θαη “ship”, ηα νπνία αξρεία είλαη έηνηκα λα ηξέμνπλ κε ην

πξφγξακκα αμηνιφγεζεο ησλ κεζφδσλ.

Π1.3 Ππόγπαμμα αξιολόγηζηρ ηων μεθόδων

Γηα λα ρξεζηκνπνηήζνπκε ην πξφγξακκα, αληηγξάθνπκε ηνλ θάθειν “Diplomatiki” απφ

ην ζπλνδεπηηθφ cd ζηνλ ζθιεξφ δίζθν ηνπ ππνινγηζηή καο. Σηελ ζπλέρεηα αλνίγνπκε

ην MS Visual Studio (έθδνζε 2008 ή λεφηεξε) θαη απφ ην κελνχ επηιέγνπκε

FileOpenProject/Solution. Σην παξάζπξν πνπ εκθαλίδεηαη βξίζθνπκε ηνλ θάθειν

“Diplomatiki” πνπ κφιηο αληηγξάςακε. Αλνίγνπκε ηνλ θάθειν θαη επηιέγνπκε ην αξρείν

“Diplomatiki.sln” πνπ ππάξρεη κέζα. Αθνχ παηήζνπκε Open, έρνπκε αλνίμεη ην πξφ-

γξακκα “Diplomatiki” θαη κπνξνχκε λα δνχκε ηνλ θψδηθά ηνπ. Αλ δελ καο εκθαλίζεη

ηνλ θψδηθα, αλνίγνπκε ην αξρείν “Diplomatiki.cpp” απφ ην Solution Explorer ηνπ MS

Visual Studio. Πξηλ ηξέμνπκε ηελ εθαξκνγή, ζα πξέπεη λα ηεο πνχκε πνπ βξίζθνληαη ηα

training set θαη test set. Σηηο ζεηξέο 49 θαη 50 ηνπ θψδηθα βάδνπκε ηηο ζέζεηο (κνλνπάηη-

α) ησλ θαθέισλ ηνπ training set θαη ηνπ test set αληίζηνηρα, φπσο θαίλεηαη ζηελ Δηθφλα

34:

Εικόνα 34: Σεκείν ζηνλ θψδηθα φπνπ θαζνξίδνπκε ηνπο θαθέινπο ησλ training θαη test set

Page 90: svd diplomatiki

-84-

Σηελ ζπλέρεηα παηάκε ην πιήθηξν F5 γηα λα ηξέμεη ε εθαξκνγή. Υπελζπκίδνπκε φηη

πξέπεη λα έρνπκε εγθαηαζηεκέλν ην πξφγξακκα Matlab (θαηά πξνηίκεζε ηελ έθδνζε

R2010a). Έηζη, ηξέρνληαο ηελ εθαξκνγή αλνίγεη θαη ε κεραλή ηνπ Matlab ζε κνξθή

θνλζφιαο ζηελ νπνία κπνξνχκε λα δνχκε ηνπο πίλαθεο θαη ηηο κεηαβιεηέο πνπ δεκη-

νπξγνχληαη. Μεηά απφ θάπνην ρξνληθφ δηάζηεκα, ην νπνίν εμαξηάηαη απφ ην κέγεζνο

θαη ην πιήζνο ησλ εγγξάθσλ θαζψο θαη απφ ηελ ππνινγηζηηθή ηζρχ ηνπ κεραλήκαηνο,

βιέπνπκε ηελ νζφλε ηεο Δηθφλαο 35:

Εικόνα 35: Δηζαγσγή πνζνζηνχ γηα ηελ κείσζε ησλ δηαζηάζεσλ

Τν πξφγξακκα καο ελεκεξψλεη φηη νη φξνη ζην ιεμηθφ είλαη 284, ηα αξρεία ζην training

set είλαη 90 θαη ηα αξρεία ζην test set 30. Κάησ απφ απηέο ηηο πιεξνθνξίεο καο δεηάεη

ην πνζνζηφ κε ην νπνίν ζα θάλεη ηελ κείσζε ησλ δηαζηάζεσλ ζηηο κεζφδνπο SVD-Cos

θαη Agg-SVD. Τν πνζνζηφ απηφ ην εηζάγνπκε κε ηελ κνξθή ηηκήο απφ 0 έσο 1. Έζησ

φηη ζέινπκε λα θξαηήζνπκε ην 30% ηεο ρξήζηκεο πιεξνθνξίαο, άξα πιεθηξνινγνχκε

0.3 θαη κεηά παηάκε Enter γηα λα εκθαληζηνχλ ηα απνηειέζκαηα. Πξηλ ηα εκθαλίζεη,

φκσο, ε εθαξκνγή καο ελεκεξψλεη γηα ηνλ αξηζκφ ησλ ζηειψλ ηνπ πίλαθα U ηνπ SVD

πνπ έρεη θξαηήζεη (Δηθφλα 36). Σηελ πεξίπησζή καο νη 8 πξψηεο ζηήιεο πεξηέρνπλ ην

30% ηεο ρξήζηκεο πιεξνθνξίαο.

Εικόνα 36: Δλεκέξσζε γηα ηνλ αξηζκφ ησλ ζηειψλ

Σηηο επφκελεο ηέζζεξηο εηθφλεο θαίλνληαη ηα απνηειέζκαηα γηα θάζε κέζνδν μερσξη-

ζηά, ηα νπνία δελ ρξεηάδνληαη ηδηαίηεξε εμήγεζε. Να πνχκε κφλν φηη ε θαηεγνξία

“Easy” ζεκαίλεη δεκνηηθφ, ε θαηεγνξία “Medium” ζεκαίλεη γπκλάζην θαη ε θαηεγνξία

“Hard” ζεκαίλεη ιχθεην. Σηελ πεξίπησζε πνπ ηξέρνπκε δεδνκέλα ηνπ Reuters ηα

“Easy”, “Medium” θαη “Hard” αληηζηνηρνχλ ζηα γξάκκαηα “E”, “M” θαη “H” πνπ βά-

ιακε ζηα αξρεία txt, άξα θαη ζηηο αληίζηνηρεο θαηεγνξίεο.

Page 91: svd diplomatiki

-85-

Εικόνα 37: Απνηειέζκαηα γηα ηελ νκνηφηεηα ζπλεκηηφλνπ

Εικόνα 38: Απνηειέζκαηα γηα ηελ κέζνδν ηεο απιήο SVD

Page 92: svd diplomatiki

-86-

Εικόνα 39: Απνηειέζκαηα γηα ηελ κέζνδν Aggregated SVD

Εικόνα 40: Απνηειέζκαηα γηα ηελ θφξκνπια Flesh Reading Ease