Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ...

29
Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ ΟΙΚΟΝΟΜΙΑ ΘΕΜΑ:«ΣΥΣΤΗΜΑ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΘΕΜΑ:«ΣΥΣΤΗΜΑ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΔΙΚΤΥΑΚΩΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΔΙΚΤΥΑΚΩΝ ΤΟΠΩΝ» ΤΟΠΩΝ» ΣΠΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ ΕΠΟΠΤΕΥΩΝ ΚΑΘΗΓΗΤΗΣ ΣΠΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ ΕΠΟΠΤΕΥΩΝ ΚΑΘΗΓΗΤΗΣ Α.Μ: 9344 Α.Μ: 9344 ΣΥΡΜΑΚΕΣΗΣ ΣΠΥΡΙΔΩΝ ΣΥΡΜΑΚΕΣΗΣ ΣΠΥΡΙΔΩΝ ΜΕΣΟΛΟΓΓΙ ΜΕΣΟΛΟΓΓΙ

description

Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ. ΘΕΜΑ:«ΣΥΣΤΗΜΑ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΔΙΚΤΥΑΚΩΝ ΤΟΠΩΝ» ΣΠΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ ΕΠΟΠΤΕΥΩΝ ΚΑΘΗΓΗΤΗΣ Α.Μ: 9344 ΣΥΡΜΑΚΕΣΗΣ ΣΠΥΡΙΔΩΝ - PowerPoint PPT Presentation

Transcript of Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ...

Page 1: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ

ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑΟΙΚΟΝΟΜΙΑ

ΘΕΜΑ:«ΣΥΣΤΗΜΑ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΘΕΜΑ:«ΣΥΣΤΗΜΑ ΗΜΙ-ΑΥΤΟΜΑΤΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΔΙΚΤΥΑΚΩΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΔΙΚΤΥΑΚΩΝ

ΤΟΠΩΝ»ΤΟΠΩΝ»

ΣΠΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ ΕΠΟΠΤΕΥΩΝ ΚΑΘΗΓΗΤΗΣΣΠΥΡΟΠΟΥΛΟΣ ΑΘΑΝΑΣΙΟΣ ΕΠΟΠΤΕΥΩΝ ΚΑΘΗΓΗΤΗΣΑ.Μ: 9344 ΣΥΡΜΑΚΕΣΗΣ ΣΠΥΡΙΔΩΝΑ.Μ: 9344 ΣΥΡΜΑΚΕΣΗΣ ΣΠΥΡΙΔΩΝ ΜΕΣΟΛΟΓΓΙ 2007ΜΕΣΟΛΟΓΓΙ 2007

Page 2: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΣΚΟΠΟΣ ΤΗΣ ΕΡΓΑΣΙΑΣΣΚΟΠΟΣ ΤΗΣ ΕΡΓΑΣΙΑΣ

Στην παρούσα εργασία γίνεται μια προσπάθεια να δοθεί Στην παρούσα εργασία γίνεται μια προσπάθεια να δοθεί μια σωστή και προσιτή λύσει στο πρόβλημα που μια σωστή και προσιτή λύσει στο πρόβλημα που αντιμετωπίζουν όλοι οι χρήστες του διαδικτύου, αυτό το αντιμετωπίζουν όλοι οι χρήστες του διαδικτύου, αυτό το πρόβλημα είναι της ανάκτησης και κατηγοριοποίησης πρόβλημα είναι της ανάκτησης και κατηγοριοποίησης κειμένου που λαμβάνουν από το διαδίκτυο σε διάφορες κειμένου που λαμβάνουν από το διαδίκτυο σε διάφορες μορφές. Περιγράφοντας την διαδικασία λήψης και μορφές. Περιγράφοντας την διαδικασία λήψης και διαχείρισης κειμένουδιαχείρισης κειμένου..

Page 3: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΚΑΤΑΝΟΗΣΗ ΤΩΝ ΕΞΗΣΚΑΤΑΝΟΗΣΗ ΤΩΝ ΕΞΗΣ

Πρόβλημα ανάκτησης και Πρόβλημα ανάκτησης και κατηγοριοποίησης του κειμένου από τους κατηγοριοποίησης του κειμένου από τους δικτυακού τόπους.δικτυακού τόπους.

Τη λεξικογραφική ανάλυση του κειμένου Τη λεξικογραφική ανάλυση του κειμένου και την εξαγωγή των λέξεων κλειδιά.και την εξαγωγή των λέξεων κλειδιά.

Τους αλγόριθμους που κάνουν αυτή την Τους αλγόριθμους που κάνουν αυτή την λεξικογραφική ανάλυση.λεξικογραφική ανάλυση.

Τους αλγόριθμους κατηγοριοποίησης .Τους αλγόριθμους κατηγοριοποίησης .

Page 4: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΤΟ ΠΡΟΒΛΗΜΑ ΠΟΥ ΑΝΤΙΜΕΤΩΠΙΖΕΙ Ο ΤΟ ΠΡΟΒΛΗΜΑ ΠΟΥ ΑΝΤΙΜΕΤΩΠΙΖΕΙ Ο ΧΡΗΣΤΗΣΧΡΗΣΤΗΣ

Η ανάπτυξη του διαδικτύου τα τελευταία χρόνια έχει Η ανάπτυξη του διαδικτύου τα τελευταία χρόνια έχει φέρει αλλαγές τόσο στην ποιότητα και το μέγεθος όσο φέρει αλλαγές τόσο στην ποιότητα και το μέγεθος όσο και στην ταχύτητα πρόσβασης του διαθέσιμου και στην ταχύτητα πρόσβασης του διαθέσιμου περιεχομένου. Οι χρήστες κυριολεκτικά κατακλύζονται περιεχομένου. Οι χρήστες κυριολεκτικά κατακλύζονται από πληροφορία την οποία δυσκολεύονται όχι μόνο να από πληροφορία την οποία δυσκολεύονται όχι μόνο να αφομοιώσουν αλλά πια και να φιλτράρουν. Σε αυτό αφομοιώσουν αλλά πια και να φιλτράρουν. Σε αυτό πρέπει κανείς να προσθέσει τις διαφορετικές μορφές στις πρέπει κανείς να προσθέσει τις διαφορετικές μορφές στις οποίες είναι διαθέσιμη η πληροφορία, κάτι που κάνει το οποίες είναι διαθέσιμη η πληροφορία, κάτι που κάνει το μοντέλο διαχείρισης της να απέχει πολύ από τα μοντέλο διαχείρισης της να απέχει πολύ από τα παραδοσιακά μοντέλα βάσεων δεδομένων. Το μέγεθος, παραδοσιακά μοντέλα βάσεων δεδομένων. Το μέγεθος, η ανομοιογένεια και η πολυπλοκότητα του διαδικτύου η ανομοιογένεια και η πολυπλοκότητα του διαδικτύου εισάγουν νέα ενδιαφέροντα ερευνητικά προβλήματα εισάγουν νέα ενδιαφέροντα ερευνητικά προβλήματα ξεπερνώντας υπάρχουσες τεχνικές, αρχιτεκτονικές και ξεπερνώντας υπάρχουσες τεχνικές, αρχιτεκτονικές και αλγορίθμους και προσφέροντας πρόσφορο έδαφος για αλγορίθμους και προσφέροντας πρόσφορο έδαφος για την βελτίωσή τους ή τη δημιουργία καινούριων. την βελτίωσή τους ή τη δημιουργία καινούριων.

Page 5: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Η ΣΥΛΛΟΓΗ ΤΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ Η ΣΥΛΛΟΓΗ ΤΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΓΙΝΕΤΑΙ ΑΠΟ:ΓΙΝΕΤΑΙ ΑΠΟ:

Content Syndication:Content Syndication: πρόκειται για περιεχόμενο (κυρίως νέα) που πρόκειται για περιεχόμενο (κυρίως νέα) που προέρχονται από εξωτερικούς δικτυακούς τόπους μέσω των δύο προέρχονται από εξωτερικούς δικτυακούς τόπους μέσω των δύο προτύπων (standards): RSS και Atom.προτύπων (standards): RSS και Atom.

GoogleAPI:GoogleAPI: περιεχόμενο που προέρχεται με χρήση της υπηρεσίας περιεχόμενο που προέρχεται με χρήση της υπηρεσίας GoogleAPI. H μηχανή αναζήτησης Google προσφέρει μια δικτυακή GoogleAPI. H μηχανή αναζήτησης Google προσφέρει μια δικτυακή υπηρεσία (web service) που επιτρέπει την αναζήτηση στη βάση υπηρεσία (web service) που επιτρέπει την αναζήτηση στη βάση δεδομένων της καθώς και την ενσωμάτωση της λειτουργικότητάς δεδομένων της καθώς και την ενσωμάτωση της λειτουργικότητάς της σε οποιονδήποτε δικτυακό τόπο.της σε οποιονδήποτε δικτυακό τόπο.

Εσωτερικό περιεχόμενο:Εσωτερικό περιεχόμενο: στην κατηγορία αυτή ανήκει το στην κατηγορία αυτή ανήκει το περιεχόμενο που έχει ήδη καταχωρηθεί στο Σύστημα Διαχείρισης περιεχόμενο που έχει ήδη καταχωρηθεί στο Σύστημα Διαχείρισης Περιεχομένου μέσω των μηχανισμών που διαθέτει. Στην παρούσα Περιεχομένου μέσω των μηχανισμών που διαθέτει. Στην παρούσα φάση το υποσύστημα κατηγοριοποίησης ενσωματώνει περιεχόμενο φάση το υποσύστημα κατηγοριοποίησης ενσωματώνει περιεχόμενο που προέρχεται από άρθρα, συνδέσμους και αρχείαπου προέρχεται από άρθρα, συνδέσμους και αρχεία..

Page 6: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΟΙ ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΑΝΑΛΥΣΗΣ ΠΟΥ ΟΙ ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΑΝΑΛΥΣΗΣ ΠΟΥ ΥΠΑΡΧΥΠΑΡΧOOΥΝ ΣΤΗ ΒΙΒΛΙΟΓΡΑΦΙΑΥΝ ΣΤΗ ΒΙΒΛΙΟΓΡΑΦΙΑ

Ο αλγόριθμος του Porter .Ο αλγόριθμος του Porter .

Ο αλγόριθμος του Ο αλγόριθμος του Lovins.Lovins.

Page 7: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Ο ΑΛΓΟΡΟΘΜΟΣ ΤΟΥ Ο ΑΛΓΟΡΟΘΜΟΣ ΤΟΥ PORTERPORTER

Ο αλγόριθμος του Porter παρουσιάστηκε το Ο αλγόριθμος του Porter παρουσιάστηκε το 1980. Βασίζεται στην ιδέα ότι οι καταλήξεις στην 1980. Βασίζεται στην ιδέα ότι οι καταλήξεις στην αγγλική γλώσσα (περίπου 1200) δημιουργούνται αγγλική γλώσσα (περίπου 1200) δημιουργούνται από συνδυασμούς μικρότερων και απλούστερων από συνδυασμούς μικρότερων και απλούστερων καταλήξεων. Αποτελείται από 5 ή 6 βήματα καταλήξεων. Αποτελείται από 5 ή 6 βήματα (ανάλογα με τον ορισμό του βήματος) κάθε ένα (ανάλογα με τον ορισμό του βήματος) κάθε ένα από τα οποία εκτελείται γραμμικάαπό τα οποία εκτελείται γραμμικά..

Page 8: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Στον αλγόριθμο γίνονται ορισμένες Στον αλγόριθμο γίνονται ορισμένες παραδοχές:παραδοχές:

Ένα σύμφωνο είναι ένα γράμμα εκτός από τα A, E, I, O, U και Y. Ένα σύμφωνο είναι ένα γράμμα εκτός από τα A, E, I, O, U και Y. Ακόμα ως σύμφωνο θεωρείται ένα φωνήεν του οποίου προηγείται Ακόμα ως σύμφωνο θεωρείται ένα φωνήεν του οποίου προηγείται ένα φωνήεν. Για παράδειγμα στη λέξη “boy” τα σύμφωνα είναι τα ένα φωνήεν. Για παράδειγμα στη λέξη “boy” τα σύμφωνα είναι τα B και Y ενώ στη λέξη “try” είναι τα T και R. B και Y ενώ στη λέξη “try” είναι τα T και R.

Ένα φωνήεν είναι ένα γράμμα που δεν είναι σύμφωνο. Μία Ένα φωνήεν είναι ένα γράμμα που δεν είναι σύμφωνο. Μία ακολουθία συμφώνων με μέγεθος μεγαλύτερο ή ίσο με ένα ακολουθία συμφώνων με μέγεθος μεγαλύτερο ή ίσο με ένα αποτυπώνεται σαν αποτυπώνεται σαν CC ενώ η αντίστοιχη ακολουθία από φωνήεντα ενώ η αντίστοιχη ακολουθία από φωνήεντα αναπαρίσταται από το γράμμα αναπαρίσταται από το γράμμα VV. Έτσι μια λέξη μπορεί να . Έτσι μια λέξη μπορεί να αναπαρασταθεί σαν αναπαρασταθεί σαν [C] (VC)[C] (VC) m [V]m [V] όπου ο δείκτης m δείχνει m όπου ο δείκτης m δείχνει m επαναλήψεις του επαναλήψεις του VCVC και οι αγκύλες και οι αγκύλες [[ ]] ορίζουν την προαιρετική ορίζουν την προαιρετική εμφάνιση των περιεχομένων τους. Η τιμή εμφάνιση των περιεχομένων τους. Η τιμή mm ονομάζεται μέτρο ονομάζεται μέτρο μιας λέξης και μπορεί να πάρει οποιαδήποτε τιμή μεγαλύτερη ή μιας λέξης και μπορεί να πάρει οποιαδήποτε τιμή μεγαλύτερη ή ίση με το μηδέν. Χρησιμοποιείται για να αποφασιστεί εάν μια ίση με το μηδέν. Χρησιμοποιείται για να αποφασιστεί εάν μια κατάληξη θα πρέπει να αφαιρεθεί. κατάληξη θα πρέπει να αφαιρεθεί.

Page 9: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Η ΛΕΙΤΟΥΡΓΙΑ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ Η ΛΕΙΤΟΥΡΓΙΑ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΤΟΥ ΤΟΥ PORTERPORTER

Στο πρώτο βήμα του αλγορίθμου γίνεται χειρισμός των πληθυντικών Στο πρώτο βήμα του αλγορίθμου γίνεται χειρισμός των πληθυντικών και των αορίστων.Το βήμα αυτό λόγω πολυπλοκότητας χωρίζεται και των αορίστων.Το βήμα αυτό λόγω πολυπλοκότητας χωρίζεται σε τρία υπο-βήματα. Το πρώτο χειρίζεται τους πληθυντικούς (π.χ. σε τρία υπο-βήματα. Το πρώτο χειρίζεται τους πληθυντικούς (π.χ.

kisses -> kiss και αφαίρεση του es).kisses -> kiss και αφαίρεση του es). Το δεύτερο αφαιρεί τις καταλήξεις ed και ing ή μετατρέπει την Το δεύτερο αφαιρεί τις καταλήξεις ed και ing ή μετατρέπει την

κατάληξη eed σε ee όπου αυτό απαιτείται. Η διαδικασία συνεχίζεται κατάληξη eed σε ee όπου αυτό απαιτείται. Η διαδικασία συνεχίζεται και αν έχει αφαιρεθεί η κατάληξη ed ή η ing η ρίζα που απομένει και αν έχει αφαιρεθεί η κατάληξη ed ή η ing η ρίζα που απομένει μετασχηματίζεται ακολουθώντας συγκεκριμένους κανόνες.μετασχηματίζεται ακολουθώντας συγκεκριμένους κανόνες.

Το τρίτο κομμάτι απλώς μετατρέπει το τελικό y σε i. Τα βήματα 2-5 Το τρίτο κομμάτι απλώς μετατρέπει το τελικό y σε i. Τα βήματα 2-5 ασχολούνται κυρίως με τη διαφορετική σειρά στις ομάδες ασχολούνται κυρίως με τη διαφορετική σειρά στις ομάδες καταλήξεων. Για το λόγο αυτό μετατρέπουν τις διπλές καταλήξεις σε καταλήξεων. Για το λόγο αυτό μετατρέπουν τις διπλές καταλήξεις σε μια κατάληξη ενώ αφαιρούν και καταλήξεις που πληρούν ορισμένα μια κατάληξη ενώ αφαιρούν και καταλήξεις που πληρούν ορισμένα κριτήριακριτήρια..

Page 10: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΣΧΗΜΑΤΙΚΗ ΑΠΕΙΚΟΝΙΣΗ ΤΗΣ ΣΧΗΜΑΤΙΚΗ ΑΠΕΙΚΟΝΙΣΗ ΤΗΣ ΛΕΙΤΟΥΡΓΙΑΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΛΕΙΤΟΥΡΓΙΑΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

ΤΟΥΤΟΥ PORTER PORTER

Page 11: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Ο ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ Ο ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ LOVINSLOVINS

Ο δεύτερος πιο δημοφιλής αλγόριθμος εξαγωγής ριζών Ο δεύτερος πιο δημοφιλής αλγόριθμος εξαγωγής ριζών λέξεων παρουσιάστηκε από την Lovins το1968.Πρόκειται λέξεων παρουσιάστηκε από την Lovins το1968.Πρόκειται για έναν αλγόριθμο που παράγει το αποτέλεσμά του με για έναν αλγόριθμο που παράγει το αποτέλεσμά του με ένα πέρασμα (αφαιρεί μια κατάληξη τη φορά) και αφαιρεί ένα πέρασμα (αφαιρεί μια κατάληξη τη φορά) και αφαιρεί τις καταλήξεις βασιζόμενος στην αρχή του πιο μεγάλου τις καταλήξεις βασιζόμενος στην αρχή του πιο μεγάλου ταιριάσματος. Ο αλγόριθμος χρησιμοποιεί μια λίστα από ταιριάσματος. Ο αλγόριθμος χρησιμοποιεί μια λίστα από 297 καταλήξεις οι οποίες συνδέονται με έναν περιορισμό 297 καταλήξεις οι οποίες συνδέονται με έναν περιορισμό από μια διαθέσιμη λίστα περιορισμών. Οι περιορισμοί από μια διαθέσιμη λίστα περιορισμών. Οι περιορισμοί αυτοί αποτρέπουν την αφαίρεση της κατάληξης μιας αυτοί αποτρέπουν την αφαίρεση της κατάληξης μιας λέξης εφόσον πληρούνται κάποιες προϋποθέσεις.λέξης εφόσον πληρούνται κάποιες προϋποθέσεις.

Επίσης, χρησιμοποιούνται αρκετοί κανόνες που Επίσης, χρησιμοποιούνται αρκετοί κανόνες που αντιμετωπίζουν τις πιο κοινές εξαιρέσεις στην αγγλική αντιμετωπίζουν τις πιο κοινές εξαιρέσεις στην αγγλική γλώσσα. Κάθε κατάληξη συνδέεται με την εξαίρεση ότι η γλώσσα. Κάθε κατάληξη συνδέεται με την εξαίρεση ότι η παραγόμενη ρίζα θα πρέπει να έχει τουλάχιστον δύο παραγόμενη ρίζα θα πρέπει να έχει τουλάχιστον δύο γράμματα ενώ κάποιοι άλλοι κανόνες ακολουθούν έναν γράμματα ενώ κάποιοι άλλοι κανόνες ακολουθούν έναν από τους παρακάτω όρουςαπό τους παρακάτω όρους..

Page 12: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΟΙ ΟΡΟΙ ΠΟΥ ΑΚΟΛΟΥΘΟΥΝΤΑΙΟΙ ΟΡΟΙ ΠΟΥ ΑΚΟΛΟΥΘΟΥΝΤΑΙ ΣΤΟΝ ΣΤΟΝ ΑΛΓΟΡΙΘΜΟΑΛΓΟΡΙΘΜΟ TOY LOVINS TOY LOVINS

Αυξάνεται το ελάχιστο μέγεθος της Αυξάνεται το ελάχιστο μέγεθος της παραγόμενης ρίζας αφού αφαιρεθεί η παραγόμενης ρίζας αφού αφαιρεθεί η κατάληξη. κατάληξη.

Μια κατάληξη δεν αφαιρείται όταν Μια κατάληξη δεν αφαιρείται όταν συγκεκριμένα γράμματα εμφανίζονται στην συγκεκριμένα γράμματα εμφανίζονται στην παραγόμενη ρίζα.παραγόμενη ρίζα.

Συνδυασμό των παραπάνω όρων. Συνδυασμό των παραπάνω όρων.

Page 13: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Η ΛΕΙΤΟΥΡΓΙΑ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ Η ΛΕΙΤΟΥΡΓΙΑ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΤΟΥ ΤΟΥ LOVINSLOVINS

Το πρώτο, είναι το στάδιο εξαγωγής των ριζών Το πρώτο, είναι το στάδιο εξαγωγής των ριζών (stemming phase) όπου αφαιρούνται οι (stemming phase) όπου αφαιρούνται οι καταλήξεις και ελέγχεται η εφαρμογή τυχόν καταλήξεις και ελέγχεται η εφαρμογή τυχόν εξαιρέσεων μεταξύ των βημάτων.εξαιρέσεων μεταξύ των βημάτων.

Το δεύτερο στάδιο χρησιμοποιεί κανόνες για την Το δεύτερο στάδιο χρησιμοποιεί κανόνες για την ανασυγκρότηση των λέξεων από τις καταλήξεις. ανασυγκρότηση των λέξεων από τις καταλήξεις. Με τον τρόπο αυτό εξασφαλίζεται ότι οι Με τον τρόπο αυτό εξασφαλίζεται ότι οι παραγόμενες ρίζες ταιριάζουν με καταλήξεις παραγόμενες ρίζες ταιριάζουν με καταλήξεις άλλων παρεμφερών λέξεων.άλλων παρεμφερών λέξεων.

Page 14: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΣΧΗΜΑΤΙΚΗ ΑΠΕΙΚΟΝΙΣΗ ΤΗΣ ΣΧΗΜΑΤΙΚΗ ΑΠΕΙΚΟΝΙΣΗ ΤΗΣ ΛΕΙΤΟΥΡΓΙΑΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΛΕΙΤΟΥΡΓΙΑΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

ΤΟΥΤΟΥ LOVINS LOVINS

Page 15: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Η ΛΥΣΗ ΠΟΥ ΠΡΟΤΕΙΝΟΥΜΕΗ ΛΥΣΗ ΠΟΥ ΠΡΟΤΕΙΝΟΥΜΕ

Βήμα 1:Βήμα 1: Μετατροπή όλων των γραμμάτων των λέξεων σε πεζά. Μετατροπή όλων των γραμμάτων των λέξεων σε πεζά.

Βήμα 2:Βήμα 2: Αφαίρεση όσων λέξεων θεωρείται ότι δεν προσφέρουν στην σημασιολογία Αφαίρεση όσων λέξεων θεωρείται ότι δεν προσφέρουν στην σημασιολογία του κειμένου. Η αφαίρεση γίνεται χρησιμοποιώντας τρεις λίστες: μια λίστα με συχνά του κειμένου. Η αφαίρεση γίνεται χρησιμοποιώντας τρεις λίστες: μια λίστα με συχνά χρησιμοποιούμενες λέξεις (άρθρα, προθέσεις), μια λίστα με τα πιο συνήθη ομαλά χρησιμοποιούμενες λέξεις (άρθρα, προθέσεις), μια λίστα με τα πιο συνήθη ομαλά ρήματα (περιλαμβάνονται οι καταλήξεις σε –ing και –ed) και τέλος μια λίστα με τα πιο ρήματα (περιλαμβάνονται οι καταλήξεις σε –ing και –ed) και τέλος μια λίστα με τα πιο συνηθισμένα ανώμαλα ρήματα (περιλαμβάνονται ο αόριστος, ο παρακείμενος καθώς συνηθισμένα ανώμαλα ρήματα (περιλαμβάνονται ο αόριστος, ο παρακείμενος καθώς και η κατάληξη –ing για κάθε ένα από τα ρήματα).και η κατάληξη –ing για κάθε ένα από τα ρήματα).

Βήμα 3:Βήμα 3: Εφαρμογή του αλγορίθμου του Porter για την εξαγωγή των ριζών Εφαρμογή του αλγορίθμου του Porter για την εξαγωγή των ριζών των λέξεων.των λέξεων.

Βήμα 4:Βήμα 4: Το μοντέλο αναπαράστασης που χρησιμοποιείται προσομοιώνει το Το μοντέλο αναπαράστασης που χρησιμοποιείται προσομοιώνει το διανυσματικό μοντέλο. Στη συγκεκριμένη προσέγγιση το κείμενο διανυσματικό μοντέλο. Στη συγκεκριμένη προσέγγιση το κείμενο αναπαρίσταται ως ένα διάνυσμα, οι συνιστώσες του αποτελούνται από τις αναπαρίσταται ως ένα διάνυσμα, οι συνιστώσες του αποτελούνται από τις ρίζες των λέξεων που συνιστούν το κείμενο. Στο διάνυσμα αυτό ρίζες των λέξεων που συνιστούν το κείμενο. Στο διάνυσμα αυτό αποθηκεύεται επίσης η συχνότητα εμφάνισης κάθε όρου στο κείμενο. Η αποθηκεύεται επίσης η συχνότητα εμφάνισης κάθε όρου στο κείμενο. Η συχνότητα εμφάνισης, στο συγκεκριμένο μοντέλο, ορίζεται ως ο αριθμός συχνότητα εμφάνισης, στο συγκεκριμένο μοντέλο, ορίζεται ως ο αριθμός των εμφανίσεών του στο κείμενο. των εμφανίσεών του στο κείμενο.

Page 16: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΤΡΟΠΟΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣΤΡΟΠΟΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ

1).Κατηγοριοποίηση χωρίς εκ 1).Κατηγοριοποίηση χωρίς εκ προτέρων γνώση των κατηγοριών προτέρων γνώση των κατηγοριών (text clustering).(text clustering).

2).Κατηγοριοποίηση με εκ των 2).Κατηγοριοποίηση με εκ των προτέρων γνώση των κατηγοριών προτέρων γνώση των κατηγοριών (text categorization).(text categorization).

Page 17: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

1).Κατηγοριοποίηση χωρίς εκ προτέρων 1).Κατηγοριοποίηση χωρίς εκ προτέρων γνώση των κατηγοριών (text γνώση των κατηγοριών (text clustering).clustering).

Page 18: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

2).Κατηγοριοποίηση με εκ των προτέρων 2).Κατηγοριοποίηση με εκ των προτέρων γνώση των κατηγοριών (text γνώση των κατηγοριών (text categorization).categorization).

Page 19: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΑΝΗΚΟΥΝ ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΑΝΗΚΟΥΝ ΣΤΗΝ ΠΡΩΤΗ ΚΑΤΗΓΟΡΙΑΣΤΗΝ ΠΡΩΤΗ ΚΑΤΗΓΟΡΙΑ

Οι ιεραρχικοί αλγόριθμοι.Οι ιεραρχικοί αλγόριθμοι.

Οι αλγόριθμοι κατάτμησης. Οι αλγόριθμοι κατάτμησης.

Page 20: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΟΙ ΙΕΡΑΡΧΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙΟΙ ΙΕΡΑΡΧΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Κάθε ιεραρχικός αλγόριθμος δημιουργεί μια Κάθε ιεραρχικός αλγόριθμος δημιουργεί μια ακολουθία από διαμερίσεις τμημάτων με μία ακολουθία από διαμερίσεις τμημάτων με μία μοναδική ομάδα στην κορυφή της δενδρικής μοναδική ομάδα στην κορυφή της δενδρικής ακολουθίας. Κάθε επίπεδο δημιουργείται από τη ακολουθίας. Κάθε επίπεδο δημιουργείται από τη συγχώνευση δύο ομάδων του κατώτερου συγχώνευση δύο ομάδων του κατώτερου επιπέδου (από κάτω προς τα πάνω) ή την επιπέδου (από κάτω προς τα πάνω) ή την διαίρεση μιας μεγαλύτερης ομάδας σε διαίρεση μιας μεγαλύτερης ομάδας σε μικρότερες (από πάνω προς τα κάτω). μικρότερες (από πάνω προς τα κάτω).

Page 21: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΟΙ ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΑΤΜΗΣΗΣΟΙ ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΑΤΜΗΣΗΣ

Οι αλγόριθμοι κατάτμησης σε αντίθεση με Οι αλγόριθμοι κατάτμησης σε αντίθεση με τους ιεραρχικούς αλγόριθμους διαμερίζουν τους ιεραρχικούς αλγόριθμους διαμερίζουν τα δεδομένα μόνο σε ένα σημείο. Έτσι εάν τα δεδομένα μόνο σε ένα σημείο. Έτσι εάν πρέπει να δημιουργηθούν πρέπει να δημιουργηθούν K K ομάδες με ομάδες με αντικείμενα ο αλγόριθμος κατάτμησης αντικείμενα ο αλγόριθμος κατάτμησης παράγει αυτά τα αντικείμενα αμέσως. παράγει αυτά τα αντικείμενα αμέσως.

Page 22: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΣΥΓΚΡΙΣΗ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ ΣΥΓΚΡΙΣΗ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ ΑΥΤΗΣ ΤΗΣ ΚΑΤΗΓΟΡΙΑΣΑΥΤΗΣ ΤΗΣ ΚΑΤΗΓΟΡΙΑΣ

Page 23: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΑΝΗΚΟΥΝ ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΑΝΗΚΟΥΝ ΣΤΗΝ ΔΕΥΤΕΡΗ ΚΑΤΗΓΟΡΙΑΣΤΗΝ ΔΕΥΤΕΡΗ ΚΑΤΗΓΟΡΙΑ

Διανυσματικοί μηχανισμοί υποστήριξηςΔιανυσματικοί μηχανισμοί υποστήριξης ((Support Vector Machines – SVMSupport Vector Machines – SVM).).

Κ-πιο κοντινός γείτοναςΚ-πιο κοντινός γείτονας ((K-Nearest Neighbor – KnnK-Nearest Neighbor – Knn).).

ΝευρωνικόΝευρωνικό ΔίκτυοΔίκτυο ((Neural Network – NnetNeural Network – Nnet).).

Linear Least-squares Fit (LLSF) mappingLinear Least-squares Fit (LLSF) mapping..

Κατηγοριοποίηση με τη μέθοδο Naϊve BayesΚατηγοριοποίηση με τη μέθοδο Naϊve Bayes ((Naïve Bayes classifier – NBNaïve Bayes classifier – NB))..

Page 24: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΣΥΓΚΡΙΣΗ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ ΣΥΓΚΡΙΣΗ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ ΑΥΤΗΣ ΤΗΣ ΚΑΤΗΓΟΡΙΑΣΑΥΤΗΣ ΤΗΣ ΚΑΤΗΓΟΡΙΑΣ

Η αξιολόγηση των παραπάνω αλγορίθμων Η αξιολόγηση των παραπάνω αλγορίθμων γίνεται με στόχο τη μέτρηση της γίνεται με στόχο τη μέτρηση της αποτελεσματικότητάς τους δηλαδή της αποτελεσματικότητάς τους δηλαδή της ικανότητας να παίρνουν σωστές αποφάσεις ικανότητας να παίρνουν σωστές αποφάσεις σχετικά με την κατηγοριοποίηση. σχετικά με την κατηγοριοποίηση.

Από τα πειράματα που έχουν διεξαχθεί με όλες Από τα πειράματα που έχουν διεξαχθεί με όλες τις παραπάνω μεθόδους παρατηρείται ότι ο τις παραπάνω μεθόδους παρατηρείται ότι ο αλγόριθμος που βασίζεται σε διανυσματικούς αλγόριθμος που βασίζεται σε διανυσματικούς μηχανισμούς υποστήριξης (SVM) υπερτερεί από μηχανισμούς υποστήριξης (SVM) υπερτερεί από όλους τους υπόλοιπους ενώ η προσέγγιση όλους τους υπόλοιπους ενώ η προσέγγιση βασισμένη σε Naϊve Bayes έχει τη χειρότερη βασισμένη σε Naϊve Bayes έχει τη χειρότερη απόδοση.απόδοση.

Page 25: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΑΝΑΛΥΤΙΚΑ ΤΑ ΒΗΜΑΤΑ ΠΟΥ ΑΚΟΛΟΥΘΟΥΝΤΑΙ ΓΙΑ ΤΗΝ ΑΝΑΛΥΤΙΚΑ ΤΑ ΒΗΜΑΤΑ ΠΟΥ ΑΚΟΛΟΥΘΟΥΝΤΑΙ ΓΙΑ ΤΗΝ

ΟΛΟΚΛΗΡΩΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ:ΟΛΟΚΛΗΡΩΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ:

Βήμα 1:Βήμα 1: Δημιουργία ενός συνόλου με τις σημαντικότερες λέξεις του Δημιουργία ενός συνόλου με τις σημαντικότερες λέξεις του κειμένου προς κατηγοριοποίηση.κειμένου προς κατηγοριοποίηση.

Βήμα 2:Βήμα 2: Αναζήτηση των λέξεων του συνόλου του βήματος 1 μέσα στον Αναζήτηση των λέξεων του συνόλου του βήματος 1 μέσα στον

κατάλογο με τις κατηγορίες του DMOZ.κατάλογο με τις κατηγορίες του DMOZ.

Βήμα 3:Βήμα 3: Δημιουργία ταξινομημένης λίστας με τις ευρεθείσες κατηγορίες. Στο Δημιουργία ταξινομημένης λίστας με τις ευρεθείσες κατηγορίες. Στο βήμα αυτό ταξινομούνται οι κατηγορίες που βρέθηκαν ως σχετικές ανάλογα βήμα αυτό ταξινομούνται οι κατηγορίες που βρέθηκαν ως σχετικές ανάλογα με το βάρος τους. με το βάρος τους.

Βήμα 4:Βήμα 4: Επιστροφή της πιο σχετικής κατηγορίας Εάν το πρώτο στοιχείο της Επιστροφή της πιο σχετικής κατηγορίας Εάν το πρώτο στοιχείο της λίστας (κατηγορία) έχει βάρος μεγαλύτερο από μια τιμή που έχει οριστεί λίστας (κατηγορία) έχει βάρος μεγαλύτερο από μια τιμή που έχει οριστεί ευρεστικά (μετά από τη διεξαγωγή μιας σειράς πειραμάτων) τότε το ευρεστικά (μετά από τη διεξαγωγή μιας σειράς πειραμάτων) τότε το αποτέλεσμα του αλγορίθμου είναι αυτή η κατηγορία. αποτέλεσμα του αλγορίθμου είναι αυτή η κατηγορία.

Page 26: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΕΠΟΠΤΙΚΗ ΕΙΚΟΝΑ ΤΟΥ ΕΠΟΠΤΙΚΗ ΕΙΚΟΝΑ ΤΟΥ ΥΠΟΣΥΣΤΗΜΑΤΟΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣΥΠΟΣΥΣΤΗΜΑΤΟΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ Συλλογή και επεξεργασία περιεχομένου από το Συλλογή και επεξεργασία περιεχομένου από το

διαδίκτυο: διαδίκτυο: Περιλαμβάνει διαδικασίες συλλογής Περιλαμβάνει διαδικασίες συλλογής περιεχομένου από άλλους δικτυακούς τόπους ή από το περιεχομένου από άλλους δικτυακούς τόπους ή από το ΣΔΠ ATL CME. Στο στάδιο αυτό γίνεται η επεξεργασία ΣΔΠ ATL CME. Στο στάδιο αυτό γίνεται η επεξεργασία του κειμένου με στόχο την εξαγωγή ένα σύνολο με τις του κειμένου με στόχο την εξαγωγή ένα σύνολο με τις σημαντικότερες λέξεις του κειμένου (λεξικό). σημαντικότερες λέξεις του κειμένου (λεξικό).

Εξαγωγή μιας περιοχής γνώσης από το DMOZ και Εξαγωγή μιας περιοχής γνώσης από το DMOZ και αναπαράσταση της σε δενδρική μορφή: αναπαράσταση της σε δενδρική μορφή: Το RDF Το RDF αρχείο που παρέχει το DMOZ φορτώνεται στο δικτυακό αρχείο που παρέχει το DMOZ φορτώνεται στο δικτυακό τόπο στον οποίοτόπο στον οποίο πραγματοποιείται η κατηγοριοποίηση. πραγματοποιείται η κατηγοριοποίηση. Από εκεί γίνεται εξαγωγή της περιοχής γνώσης πουΑπό εκεί γίνεται εξαγωγή της περιοχής γνώσης που περιγράφει καλύτερα το περιεχόμενο του δικτυακού περιγράφει καλύτερα το περιεχόμενο του δικτυακού τόπου. Το RDF αρχείο αναλύεται καιτόπου. Το RDF αρχείο αναλύεται και δημιουργείται ένα δημιουργείται ένα δέντρο με κατηγορίες .δέντρο με κατηγορίες .

Page 27: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

Επεξεργασία της ιεραρχίας και αποθήκευση στη Επεξεργασία της ιεραρχίας και αποθήκευση στη βάση δεδομένων: βάση δεδομένων: Το δέντρο με τις κατηγορίες ελέγχεται Το δέντρο με τις κατηγορίες ελέγχεται για τυχόν διπλές εγγραφές και αποθηκεύεται στη βάση για τυχόν διπλές εγγραφές και αποθηκεύεται στη βάση δεδομένων.δεδομένων.

Κατηγοριοποίηση: Κατηγοριοποίηση: Στο σημείο αυτό εφαρμόζεται ο Στο σημείο αυτό εφαρμόζεται ο αλγόριθμος κατηγοριοποίησης. Οι όροι του λεξικού αλγόριθμος κατηγοριοποίησης. Οι όροι του λεξικού ελέγχονται στην ιεραρχία και παράγουν ένα σύνολο με ελέγχονται στην ιεραρχία και παράγουν ένα σύνολο με σχετικές κατηγορίες. Ο αλγόριθμος κατηγοριοποίησης σχετικές κατηγορίες. Ο αλγόριθμος κατηγοριοποίησης εξάγει την τελική κατηγορία στην οποία αντιστοιχίζεται το εξάγει την τελική κατηγορία στην οποία αντιστοιχίζεται το κείμενο.κείμενο.

Τελικές κατηγορίες και εξαγωγή στατιστικών: Τελικές κατηγορίες και εξαγωγή στατιστικών: Το Το προϊόν της κατηγοριοποίησης αποτυπώνεται σε μια προϊόν της κατηγοριοποίησης αποτυπώνεται σε μια σελίδα όπου παρουσιάζονται οι κατηγορίες και τα σελίδα όπου παρουσιάζονται οι κατηγορίες και τα κείμενα που ανήκουν σε κάθε μία. κείμενα που ανήκουν σε κάθε μία.

Page 28: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΣΥΜΠΕΡΑΣΜΑΤΑΣΥΜΠΕΡΑΣΜΑΤΑ Η παρούσα εργασία ασχολήθηκε με την κατηγοριοποίηση Η παρούσα εργασία ασχολήθηκε με την κατηγοριοποίηση

περιεχομένου που συλλέγεται αυτόματα ή ημιαυτόματα από το περιεχομένου που συλλέγεται αυτόματα ή ημιαυτόματα από το διαδίκτυο. Η συλλογή του περιεχομένου από το διαδίκτυο διαδίκτυο. Η συλλογή του περιεχομένου από το διαδίκτυο πραγματοποιείται με δύο διαφορετικούς τρόπους: RSS και πραγματοποιείται με δύο διαφορετικούς τρόπους: RSS και GoogleAPI. GoogleAPI.

Στην πρώτη περίπτωση το περιεχόμενο προέρχεται από Στην πρώτη περίπτωση το περιεχόμενο προέρχεται από δικτυακούς τόπους που χρησιμοποιούν τα πρότυπα δικτυακούς τόπους που χρησιμοποιούν τα πρότυπα RSS/ΑΤΟΜ ενώ στη δεύτερη το περιεχόμενο εισάγεται στο RSS/ΑΤΟΜ ενώ στη δεύτερη το περιεχόμενο εισάγεται στο σύστημά μας χρησιμοποιώντας τη λειτουργικότητα της μηχανής σύστημά μας χρησιμοποιώντας τη λειτουργικότητα της μηχανής αναζήτησης Google. αναζήτησης Google.

Η κατηγοριοποίηση του κειμένου στηρίζεται σε έναν Η κατηγοριοποίηση του κειμένου στηρίζεται σε έναν ιεραρχικό κατάλογο που υπάρχει διαθέσιμος στο διαδίκτυο, το ιεραρχικό κατάλογο που υπάρχει διαθέσιμος στο διαδίκτυο, το DMOZ τον οποίο χρησιμοποιούν σήμερα οι περισσότερες DMOZ τον οποίο χρησιμοποιούν σήμερα οι περισσότερες μηχανές αναζήτησης. Η διαδικασία της κατηγοριοποίησης μηχανές αναζήτησης. Η διαδικασία της κατηγοριοποίησης περιλαμβάνει την λεξικογραφική ανάλυση του κειμένου που θα περιλαμβάνει την λεξικογραφική ανάλυση του κειμένου που θα υποβάλλουμε στην διαδικασία και την αλγοριθμική απόφαση υποβάλλουμε στην διαδικασία και την αλγοριθμική απόφαση για την κατηγορία στην οποία ανήκει.για την κατηγορία στην οποία ανήκει.

Page 29: Τ.Ε.Ι ΜΕΣΟΛΛΟΓΓΙΟΥ  ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ

ΤΕΛΟΣΤΕΛΟΣ