παρουσίαση μεταπτυχιακής διατριβής

Post on 12-Apr-2017

188 views 0 download

Transcript of παρουσίαση μεταπτυχιακής διατριβής

ΠΜΣ «ΠΛΗΡΟΦΟΡΙΚΗ» 8ΟΣ ΚΥΚΛΟΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ

ΤΟΥ ΦΟΙΤΗΤΗ:ΖΟΡΖΟΜΙΚΟΥ ΚΩΝΣΤΑΝΤΙΝΟΥ

ΜΠΠΛ13020

ΤΙΤΛΟΣ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΔΙΑΤΡΙΒΗΣ

Αλγοριθμική άντληση δομικής πληροφορίας από ψηφιακά κοινωνικά δίκτυα και υπολογισμός μέτρων κεντρικότητας.

Algorithmic extraction of structural information from social networks and computation of associated centrality measures.

Η ΙΔΕΑ Ο σκοπός της εργασίας αυτής ήταν να

πάρουμε δεδομένα από κάποιο κοινωνικό δίκτυο (εξόρυξη γνώσης), εμείς πήραμε δεδομένα από το Twitter.

Τα δεδομένα που πήραμε εμείς είναι τα ονόματα των Followers μας, και τα ονόματα των Followers των Followers μας.

Έτσι φτιάξαμε ένα μικρό δίκτυο ανθρώπων, όπου ξεκινώντας από εμάς,(N=1) φτάνει μέχρι τα εγγόνια μας (N=3), αν θα μιλάγαμε για δενδροειδή μορφή.

Η ΙΔΕΑ (2)Έχοντας όλα τα δεδομένα μέχρι 2ου βαθμού

πλέον, αναπαραστήσαμε το μικρό αυτό δίκτυο του Twitter, με την βοήθεια του Gephi.

Το Gephi είναι ένα εργαλείο που παράγει γράφους. Πέρα το οτι μας βοηθάει δίνοντάς μας μια γραφική απεικόνιση του δικτύου μας, μας δίνει και έτοιμες πληροφορίες για τον γράφο μας, όπως το μήκος, την διάμετρο και την πυκνότητα του γράφου. Επίσης μας δίνει και κάποια στατιστικά, όπως τον μέσο όρο συνδέσεων ανά κόμβο.

Η ΙΔΕΑ (3)Το πιο σημαντικό που θέλουμε να μελετήσουμε όμως,

είναι τα μέτρα κεντρικότητας.Τα μέτρα κεντρικότητας, σε απλά λόγια, είναι τα πιο

σημαντικά/κεντρικά σημεία ενός δικτύου. ΠΑΡΑΔΕΙΓΜΑ: Αν πάρω 2 τυχαία σημεία ενός δικτύου, και προσπαθήσω να πάω από το ένα στο άλλο, θα περάσω από κάποιους κόμβους. Αν επαναλάβω την διαδικασία αυτή αρκετές φορές, θα καταλάβω πως κάποιος/οι κόμβος/οι τους συναντάω συνέχεια. Τα μέτρα κεντρικότητας μελετάνε τις ιδιότητες των κόμβων αυτών, στο σύνολο του δικτύου.

ΜΕΤΡΑ ΚΕΝΤΡΙΚΟΤΗΤΑΣΤα μέτρα κεντρικότητας, χρησιμοποιούνται

από πολλές επιστήμες. Οι συγκοινωνιολόγοι, με αυτόν τον τρόπο,

βγάζουν τα πιο κεντρικά σημεία του οδικού άξονα. Έτσι, μπορούν να προβλέψουν σε ποιό σημείο του οδικού δικτύου θα γίνει μποτιλιάρισμα, και γιατί.

Οι αεροπορικές εταιρίες βλέπουν ποιοί αερολιμένες είναι οι πιο σημαντικές βασείς τους, από τις οποίες εξυπηρετούν τον περισσότερο δυνατό κόσμο. κ.ο.κ

ΜΕΡΗ ΤΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΔΙΑΤΡΙΒΗΣ

ΟΥΣΙΑΣΤΙΚΑ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΧΩΡΙΖΕΤΑΙ ΣΕ 3 ΜΕΡΗ.

1. Η εξόρυξη γνώσεις από ένα κοινωνικό δίκτυο, και η εισαγωγή των αποτελεσμάτων σε ένα αρχείο .txt

2. Η μετατροπή του αρχείου .txt σε αρχείο μορφής .gml, ώστε να διαβάζεται από το Gephi.

3. Η εισαγωγή του αρχείου .gml στο Gephi, και η μελέτη του γράφου που βγαίνει, με σκοπό να μελετήσουμε, κυρίως τα μέτρα κεντρικότητας.

Η εξόρυξη γνώσεις από ένα κοινωνικό δίκτυο, και η εισαγωγή των

αποτελεσμάτων σε ένα αρχείο .txt Για τις ανάγκες της εργασίας αυτής, γράψαμε

κώδικα (σε Python), ώστε να μπορέσουμε να πάρουμε τα δεδομένα από το Twitter. Πολύ σημαντικό για την εργασία αυτή ήταν το Twitter API, χωρίς αυτό δεν θα μπορούσαμε να έχουμε πρόσβαση στα δεδομένα των χρηστών.

Το Twitter API, είναι ένα API, που έχει μια σειρά κωδικών (4 για την ακρίβεια), και πιστοποιεί πως είμαστε όντως εμείς αυτοί που κατεβάζουμε τα δεδομένα από το Twitter.

Η εξόρυξη γνώσεις από ένα κοινωνικό δίκτυο, και η εισαγωγή των αποτελεσμάτων

σε ένα αρχείο .txt (2)

Όταν «τρέξει» όλος ο κώδικας, τότε πηγαίνει σε ένα συγκεκριμένο path (μονοπάτι), και φτιάχνει ένα αρχείο .txt με όνομα newfile. Στο newfile.txt φαίνονται ευκρινέστατα όλοι οι χρήστες με τα ονόματά τους, μέχρι 2ου βαθμού, και ο βαθμός τους. Η κάθε εγγραφή μέσα σε αυτό το αρχείο είναι μοναδική. Στον κώδικα χρησιμοποιήσαμε την συνάρτηση set(), η οποία παίρνει unique ορίσματα. Με άλλα λόγια, ονόματα χρηστών που έχουμε πάρει ήδη, δεν τα ξαναπαίρνουμε.

Η εξόρυξη γνώσεις από ένα κοινωνικό δίκτυο, και η εισαγωγή των αποτελεσμάτων

σε ένα αρχείο .txt (3) Η μορφή του αρχείου newfile.txt φαίνεται

καλύτερα στην παρακάτω εικόνα:

Η μετατροπή του αρχείου .txt σε αρχείο μορφής .gml, ώστε να διαβάζεται από το Gephi.

Δυστυχώς το Gephi δεν αναγνωρίζει αρχεία μορφής txt. Υπάρχουν 2 εναλλακτικές. Η πρώτη είναι να φτιάξω ένα-ένα όλους τους κόμβους του δικτύου και τις συνδέσεις τους, και η δεύτερη είναι να μετατρέψω το .txt αρχείο σε .gml και να το κάνω import στο Gephi, ώστε να βγει ο γράφος μας. Εμείς, κάναμε την δεύτερη επιλογή, γιατί θεωρούμε πως είναι πιο σωστή, αλλά και γιατί αν χρειαστεί να αλλάξουμε κάτι, οι αλλαγές γίνονται πιο εύκολα.

Η μετατροπή του αρχείου .txt σε αρχείο μορφής .gml, ώστε να διαβάζεται από το Gephi. (2)

Ένα αρχείο .gml αποτελείται από δύο μέρη. Πάνω-πάνω είναι η δημιουργία των κόμβων, και κάτω οι συνδέσεις των κόμβων αυτών.

Η μορφή φαίνεται καλύτερα στις επόμενες δυο διαφάνειες.

Η μετατροπή του αρχείου .txt σε αρχείο μορφής .gml, ώστε να διαβάζεται από το Gephi. (3)

Η μετατροπή του αρχείου .txt σε αρχείο μορφής .gml, ώστε να διαβάζεται από το Gephi. (4)

Η εισαγωγή του αρχείου .gml στο Gephi, και η μελέτη του γράφου που βγαίνει, με σκοπό να μελετήσουμε, κυρίως τα μέτρα κεντρικότητας.

Μόλις τελείωσει η δημιουργία του .gml αρχείου και η εισαγωγή του στο Gephi, παράγεται ένας γράφος. Με βάση τον γράφο αυτό, μπορούμε να βγάλουμε πολύ χρήσιμα συμπεράσματα. Όπως τα κριτήρια με τα οποία κάποιος αποφάσισε να ακολουθήσε κάποιον, ή το πόσο ενεργοί χρήστες είναι, τα ενδιαφέροντά τους, τις πολιτικές του πεποιθήσεις κ.ο.κ.

Η μορφή που έχει ο γράφος μας, φαίνεται στην επόμενη διαφάνεια.

Η εισαγωγή του αρχείου .gml στο Gephi, και η μελέτη του γράφου που βγαίνει, με σκοπό να μελετήσουμε, κυρίως τα μέτρα κεντρικότητας. (2)

Η εισαγωγή του αρχείου .gml στο Gephi, και η μελέτη του γράφου που βγαίνει, με σκοπό να μελετήσουμε, κυρίως τα μέτρα κεντρικότητας. (3) Η θέση μας στο δίκτυο.

ΣυμπεράσματαΣτα πλαίσια της εργασίας αυτής, κάναμε εξόρυξή

δεδομένων από ένα κοινωνικό δίκτυο. Αυτό το πετύχαμε γράφοντας κώδικα σε Python και χρησιμοποιώντας το Twitter API. Τα δεδομένα αυτά τα αποθηκεύσαμε σε ένα αρχείο .txt το οποίο μετά το μετατρέψαμε σε .gml αρχείο, για να μπορέσουμε να το εισάγουμε στο Gephi. Μέσω του γράφου που βγάλαμε από το Gephi, βγάλαμε διάφορα συμπεράσματα για τα δεδομένα μας (χρήστες του Twitter), βγάλαμε στατιτικά, και μελετήσαμε τα μέτρα κεντρικότητας.

Μελλοντική ανάπτυξηΜελετώντας τον γράφο που παράγεται για το δικό

μας δίκτυο, και κυρίως τα μέτρα κεντρικότητας, συμπεράναμε πως ο πιο κεντρικός/σημαντικός κόμβος είναι ο κόμβος MastroMichael ο οποίος έχει 270 Followers. Τα μέτρα κεντρικότητας όμως αλλάζουν συνέχεια, συναρτήση του χρόνου. Ακόμα και το δικό μας αυτό, μικρό, δίκτυο χρηστών αλλάζει μορφή με τον καιρό. Θα ήταν πολύ χρήσιμο να βλέπαμε τις μεταβολές ενός πιο μεγάλου δικτύου, ανα τακτά χρονικά διαστήματα, προσπαθώντας να βγάλουμε κάποια συμπεράσματα, με βάση της μεταβολές.

Μελλοντική ανάπτυξη (2)Αν μπορόυσαμε να παρατηρούμε την εξέλιξη ενός

δικτύου, συναρτήση του χρόνου, είναι πολύ πιθανό, να μπορούσαμε να κάνουμε σε βαθός χρόνου, και προβλέψεις για το προς τα που και γιατί θα αναπτυχθεί το δίκτυο. Αν οι προβλέψεις μας θα ήταν σωστές, θα είχαμε βρεί μια ΝΕΑ γνώση που θα είχε πολλαπλές εφαρμογές. Π.Χ στην ιατρική, θα μπορούσε να πρόβλέψει την εξαπλώσει επιδημιών.

Αυτό όμως ξεπερνά τα όρια της μεταπτυχιακής διατριβής. Θα μπορούσε όμως να γίνει στα πλαίσια κάποιας διδακτορικής διατριβής.

Ευχαριστώ πολύ για το χρόνο σας!!!