Πώς «βρίσκουν» οι μηχανές αναζήτησης · 2 1930 •...

1

Πώς γεννήθηκαν οι μεγάλες ιδέεςτης επιστήμης των υπολογιστών…

2

1930• πριν ακόμα κατασκευαστεί ο

πρώτος ψηφιακόςυπολογιστής, έναςμεγαλοφυής Βρετανός, o Alan Turing, θεμελιώνει τηνεπιστήμη των υπολογιστών

• αποδεικνύοντας ότισυγκεκριμένα προβλήματα δενμπορούν να λυθούν απόκανέναν υπολογιστή που θακατασκευαστεί ποτέ στομέλλον, όσο γρήγορος, ισχυρός ή έξυπνασχεδιασμένος κι αν είναι

1930

1948

1956

1969

1974

1996

3

1948• O Richard Hamming

εργαζόμενος σε τηλεφωνικήεταιρεία (Bell) δημοσιεύει μιαεργασία που θεμελιώνει τοπεδίο της θεωρίας τηςπληροφορίας (informationtheory)

• η δουλειά του επιτρέπει στουςυπολογιστές να μεταφέρουνμηνύματα με απόλυτη ακρίβειαακόμα και όταν το μεγαλύτερομέρος των δεδομένων είναικατεστραμμένο/παραποιημένολόγω παρεμβολών

1930

1948

1956

1969

1974

1996

4

1956• μια ομάδα ακαδημαϊκών

συμμετέχουν σε συνέδριο στοDartmouth με στόχο τηθεμελίωση του πεδίου τηςτεχνητής νοημοσύνης (artificialintelligence)

• τα τελευταία χρόνια έχεισυντελεστεί αλματώδηςπρόοδος στο πεδίο τηςτεχνητής νοημοσύνης

http://sansimeracomputers.wordpress.com/2013/11/05/ai/

http://www.dartmouth.edu/~vox/0607/0724/ai50.html

1930

1948

1956

1969

1974

1996

5

1969• ένας ερευνητής της IBM (Edgar

Frank "Ted" Codd) ανακαλύπτει έναν κομψότρόπο για να δομείται ηπληροφορία σε μια βάσηδεδομένων (database)

• η τεχνική του χρησιμοποιείταισήμερα για αποθήκευση καιανάκτηση πληροφοριώνυποστηρίζοντας τιςπερισσότερες online συναλλαγές

1930

1948

1956

1969

1974

1996

6

1974• ερευνητές της βρετανικής κυβέρνησης για μυστικές επικοινωνίες

ανακαλύπτουν έναν τρόπο με τον οποίο δύο υπολογιστές μπορούννα επικοινωνούν με ασφάλεια ακόμα κι όταν κάποιος άλλοςυπολογιστής μπορεί να παρατηρεί οτιδήποτε μεταφέρεται μεταξύτους

• oι ερευνητές δεσμεύονται λόγω κυβερνητικού απορρήτου αλλάευτυχώς, Αμερικανοί καθηγητές (Diffie, Hellman & Shamir, Rivest, Adleman), ανεξάρτητα, ανακαλύπτουν και επεκτείνουν αυτή τηνεντυπωσιακή εφεύρεση που βρίσκεται πίσω από κάθε ασφαλήεπικοινωνία στο Διαδίκτυο (internet)

1930

1948

1956

1969

1974

1996

7

1996• δύο υποψήφιοι διδάκτορες στο

Πανεπιστήμιο Stanford, οιLarry PAGE και Sergey BRIN,αποφασίζουν νασυνεργαστούν για τηδημιουργία μιας μηχανήςαναζήτησης στον ΠαγκόσμιοΙστό (Web)

• λίγα χρόνια μετά, ιδρύουν τηGoogle, τον πρώτο ψηφιακόγίγαντα στην περιοχή τουΔιαδικτύου

1930

1948

1956

1969

1974

1996

8

Τι, στα αλήθεια, είναι έναςαλγόριθμος;

• Μέχρι τώρα αναφερόμαστε σε μεγάλες "ιδέες" της επιστήμης τωνυπολογιστών, αλλά οι σχετικοί επιστήμονες αποκαλούν αυτές τιςσημαντικές ιδέες ως "αλγόριθμους"

• Ποια είναι η διαφορά μεταξύ μιας ιδέας και ενός αλγορίθμου;– Η πιο απλή απάντηση είναι ότι ένας αλγόριθμος είναι μια ακριβής

συνταγή που καθορίζει την ακριβή ακολουθία βημάτων που απαιτούνταιγια να λυθεί ένα πρόβλημα

9

• Ένα χαρακτηριστικό παράδειγμα είναι ένας αλγόριθμος που μάθαμεστο σχολείο: ο αλγόριθμος για να προσθέτουμε δύο μεγάλουςαριθμούς

• Ο αλγόριθμος περιλαμβάνει μια ακολουθία βημάτων που ξεκινά ωςεξής: – Αρχικά, πρόσθεσε τα τελικά ψηφία των δύο αριθμών, γράψε το τελικό

ψηφίο του αποτελέσματος, και μετάφερε τα υπόλοιπα ψηφία τουαποτελέσματος στην επόμενη στήλη προς τα αριστερά

– Στη συνέχεια, πρόσθεσε τα ψηφία στην επόμενη στήλη, πρόσθεσε καιψηφία από προηγούμενες στήλες, κ.ο.κ.

11

Χαρακτηριστικά αλγορίθμων• σχεδόν μηχανικός χαρακτήρας: κάθε βήμα πρέπει να είναι απόλυτα ακριβές και να

μην απαιτεί καμία ανθρώπινη διαίσθηση ή μαντεψιά, ώστε να μπορεί ναπρογραμματιστεί σε έναν υπολογιστή

• δουλεύει πάντα, ανεξάρτητα από τα δεδομένα εισόδου. Ο αλγόριθμος της πρόσθεσηςπου μάθαμε στο σχολείο έχει αυτή την ιδιότητα: όποιοι κι αν είναι οι δύο αριθμοί πουπρέπει να αθροιστούν, ο αλγόριθμος τελικά θα δώσει τη σωστή απάντηση.

– Για παράδειγμα, αν και θα απαιτούταν αρκετός χρόνος, σίγουρα θα μπορούσατε ναχρησιμοποιήσετε τον αλγόριθμο αυτό για να αθροίσετε δύο αριθμούς των 1000 ψηφίων οκαθένας…

• Αφού ο αλγόριθμος περιγράφηκε σαν μια ακριβής, μηχανική συνταγή, πόσο ακριβήςπρέπει να είναι η συνταγή αυτή; Ποιες βασικές λειτουργίες επιτρέπονται;

– Για παράδειγμα, στο αλγόριθμο της πρόσθεσης, είναι αρκετό να πούμε μόνο “πρόσθεσε ταδύο ψηφία” ή πρέπει κάπως να διασαφηνίσουμε όλο το σύνολο των αποτελεσμάτωνάθροισης μονοψήφιων αριθμών;

– Τέτοιες λεπτομέρειες μπορεί να φαίνονται ακίνδυνες ή σχολαστικές αλλά τελικά τα πράγματαδεν είναι έτσι: οι πραγματικές απαντήσεις βρίσκονται στην καρδιά της επιστήμης τωνυπολογιστών και συνδέονται σε φιλοσοφία, φυσική, επιστήμη μελέτης νευρικού συστήματοςκαι γενετική

12

Ορισμός αλγορίθμου• Οι πολύ σημαντικές ερωτήσεις σχετικά με το τι στα αλήθεια είναι

ένας αλγόριθμος συνοψίζονται σε μία πρόταση γνωστή σαν θέσητων Church-Turing

• Εμείς θα χρησιμοποιούμε στη συνέχεια για τον αλγόριθμο τονανεπίσημο ορισμό του: μία πολύ ακριβής συνταγή

13

Πώς συνδέονται οι αλγόριθμοι με τουςυπολογιστές;

• Το βασικό σημείο είναι ότι οι υπολογιστές πρέπει ναπρογραμματιστούν με πολύ ακριβείς/σαφείς εντολές– Επομένως, πριν να χρησιμοποιήσουμε έναν υπολογιστή για να μας

λύσει ένα συγκεκριμένο πρόβλημα, πρέπει να αναπτύξουμε έναναλγόριθμο για το πρόβλημα αυτό

• Σε άλλες επιστήμες, όπως τα μαθηματικά και η φυσική, σημαντικάαποτελέσματα συνήθως συλλαμβάνονται από έναν τύπο– Πολύ γνωστά παραδείγματα περιλαμβάνουν το Πυθαγόρειο θεώρημα,

a2+b2=c2, ή τον τύπο του Einstein E = mc2

• Αντίθετα, οι μεγάλες ιδέες στην επιστήμη των υπολογιστώνπεριγράφουν πώς να λυθεί ένα πρόβλημα χρησιμοποιώντας φυσικάέναν αλγόριθμο

• Επομένως, ο βασικός στόχος του μαθήματος είναι να εξηγήσει πώςο υπολογιστής μας μετατρέπεται σε προσωπική μας μεγαλοφυΐα: εξαιτίας των σπουδαίων αλγορίθμων που χρησιμοποιείκαθημερινά…

14

Τι κάνει σπουδαίο έναν αλγόριθμο;• Τα κριτήρια που έχουμε χρησιμοποιήσει προκειμένου να επιλέξουμε τους

αλγόριθμους που θα μελετήσουμε στo πλαίσιo του μαθήματος είναι τα εξής:

• Κριτήριο 1: καθημερινή χρήση– οι αλγόριθμοι να χρησιμοποιούνται από συνηθισμένους υπολογιστές σε

καθημερινή βάση

• Κριτήριο 2: πραγματικά προβλήματα– οι αλγόριθμοι θα πρέπει να αντιμετωπίζουν διακριτά, πραγματικά προβλήματα -

όπως η συμπίεση ενός αρχείου ή η μετάδοσή του παρουσία παρεμβολών πάνωαπό ένα σύνδεσμο

• Κριτήριο 3: θεωρητική πλευρά της επιστήμης των υπολογιστών– οι αλγόριθμοι πρέπει να σχετίζονται κυρίως με τη θεωρητική πλευρά της

επιστήμης των υπολογιστών– δεν θα ασχοληθούμε με τεχνικές που δίνουν έμφαση στο υλικό των υπολογιστών

(hardware) όπως CPU, οθόνη και δίκτυα ούτε με το σχεδιασμό υποδομών όπωςτο Διαδίκτυο

Πώς "βρίσκουν" οι ΜηχανέςΑναζήτησης…;

…ψάχνοντας ψύλλους στο μεγαλύτεροαχυρώνα του κόσμου…

16

Το πρόβλημα

• Δεδομένα: – WEB και η πληροφορία που περιέχεται σε αυτό– Ερώτηση για αναζήτηση συγκεκριμένης πληροφορίας στο WEB

• Ζητούμενο:– Γρήγορη επιστροφή λίστας με απαντήσεις ταξινομημένες ωςπρος το πόσο σχετικές είναι με την ερώτηση…

17

Μηχανές αναζήτησης

• Οι μηχανές αναζήτησης (search engines) έχουν μεγάλη επίδρασηστην καθημερινή μας ζωή και δραστηριότητα

• Ο τεράστιος όγκος διαθέσιμης πληροφορίας και η εξαιρετικήταχύτητα και ποιότητα των αποτελεσμάτων της αναζήτησης δεν μάςκάνει πλέον εντύπωση (πολλές φορές είναι "εκνευριστική" ακόμα καιη ελάχιστη καθυστέρηση…)

• Αλλά ξεχνάμε ότι οι πληροφορίες που ζητάμε βρίσκονται τελικά σανψύλλοι σε έναν τεράστιο αχυρώνα: τον Παγκόσμιο Ιστό (World WideWeb)

• Υπάρχει τεράστιος όγκος πληροφορίας αποθηκευμένος σεισχυρότατα μηχανήματα (υπολογιστές) παγκοσμίως που όμως δενθα είχε πρακτικά καμία χρησιμότητα αν δεν υπήρχαν έξυπνοιαλγόριθμοι που οργανώνουν και βρίσκουν το ζητούμενο κάθε φορά

18

Μηχανές αναζήτησης

• Οι μηχανές αναζήτησης κάνουν 2 βασικές δουλειές: ταίριασμα/εντοπισμό (matching) και κατάταξη (ranking)

• Σκεφτείτε ότι δίνουμε στο google την εξής ερώτηση: "ΔρομολόγιαΚΤΕΛ Αιτωλοακαρνανίας"– Κατά τη φάση ταιριάσματος (matching) εντοπίζονται όλες οι σελίδες που

αναφέρουν τη ζητούμενη φράση (που ανάλογα με την ερώτηση μπορείνα είναι χιλιάδες…)

• Συνήθως προτιμάμε να ασχολούμαστε με τις πρώτες 5-10 απαντήσεις• Οπότε η μηχανή αναζήτησης θα πρέπει να μπορεί να επιλέξει λίγες καιμάλιστα τις καλύτερες απαντήσεις από ένα μεγάλος πλήθος απαντήσεων…

• Μια καλή μηχανή αναζήτησης, δεν θα επιλέξει μόνο τις καλύτερεςαπαντήσεις αλλά επιπλέον θα τις εμφανίσει και με την πιο κατάλληλησειρά…

– Η εργασία της επιλογής των καλύτερων απαντήσεων και της εμφάνισήςτους με τη "σωστή" σειρά αποτελεί τη φάση της κατάταξης (ranking)

19

Δρομολόγια ΚΤΕΛ Αιτωλοακαρνανίας

ερώτηση

ταίριασμα κατάταξη

...

σελίδες που ταιριάζουν

1

2

3

4

σελίδες σε κατάταξη

...

21

Στην παγκόσμια βιομηχανία, οι μηχανές αναζήτησης ζουν ήπεθαίνουν ανάλογα με την ποιότητα των συστημάτων κατάταξης

που χρησιμοποιούν…

• 2002: στις ΗΠΑ, η αγορά είναι εξίσου μοιρασμένη σε– Google– Yahoo– MSN (MSN μετονομάστηκε σε Live Search και μετά σε Bing)

• κάθε μία είχε περίπου το 30% των αναζητήσεων που γίνονταν στιςΗΠΑ

• Στα επόμενα χρόνια, η Google συνέτριψε τις δύο άλλες εταιρείες (σεποσοστά κάτω από 20%)…– Αυτό συνέβη λόγω των αλγορίθμων κατάταξης της Google

22

Στην παγκόσμια βιομηχανία, οι μηχανές αναζήτησης ζουν ήπεθαίνουν ανάλογα με την ποιότητα των συστημάτων κατάταξης

που χρησιμοποιούν…

• 2002: στις ΗΠΑ, η αγορά είναι εξίσου μοιρασμένη σε– Google– Yahoo– MSN (MSN μετονομάστηκε σε Live Search και μετά σε Bing)

• κάθε μία είχε περίπου το 30% των αναζητήσεων που γίνονταν στιςΗΠΑ

• Στα επόμενα χρόνια, η Google συνέτριψε τις δύο άλλες εταιρείες (σεποσοστά κάτω από 20%)…– Αυτό συνέβη λόγω των αλγορίθμων κατάταξης της Google

H Google (ένας από τους κολοσσούς του 21ουαιώνα) ξεκίνησε σαν εργασία που εκπόνησανδύο μεταπτυχιακοί φοιτητές – οι Larry Page καιSergey Brin – στο Πανεπιστήμιο Stanford (ΗΠΑ) το 1998

24

Σύνοψη

• Δημιουργία ευρετηρίου (AltaVista, 1995)– Θέση της λέξης– Λέξεις πληροφορίας

• Αλγόριθμος PageRank (Google, 1998)– Υπερσύνδεσμοι– Εγκυρότητα = πόσο δημοφιλής είναι μια ιστοσελίδα– Τυχαίος περιηγητής (surfer)

25

Σύνοψη



26

ALTAVISTA: Ο πρώτος αλγόριθμος ταιριάσματος στο WEB

• Οι Infoseek και Lycos (και οι δύο εμφανίστηκαν το 1994) είναι οιπαλαιότερες μηχανές αναζήτησης μαζί με την AltaVista (πουεμφανίστηκε το 1995)

• Στα μέσα της δεκαετίας του 1990, για κάποια χρόνια, η AltaVistaκυριαρχούσε στις μηχανές αναζήτησης… αφού είχε φτιάξειευρετήριο (index) για κάθε κείμενο στο WEB και επέστρεφεαποτελέσματα σε κλάσματα δευτερολέπτου

27

Δημιουργία ευρετηρίου (INDEXING)

• Η δημιουργία ευρετηρίου αποτελεί την πιο θεμελιώδη έννοια πίσωαπό τις μηχανές αναζήτησης

• Η ιδέα είναι πολύ παλιά: αρχαιολόγοι ανακάλυψαν βιβλιοθήκη 5000 ετών σε Βαβυλώνιο ναό στην οποία υπήρχε ευρετήριο τωνπεριεχομένων της με βάση το θέμα

• Η λέξη ευρετήριο συνήθως μας παραπέμπει στις τελευταίες σελίδεςβιβλίων όπου όλοι οι όροι αναφέρονται σε λίστα πλήρωςταξινομημένοι (συνήθως αλφαβητικά) και κάτω από κάθε όρουπάρχει μία λίστα από περιοχές (συνήθως αριθμοί σελίδων) στιςοποίες αναφέρεται ο όρος…

• Το ευρετήριο των μηχανών αναζήτησης λειτουργεί όπως αυτό τωνβιβλίων– Σελίδες βιβλίου: Ιστοσελίδες/Web σελίδες σε κάθε μία από τις οποίες οι

μηχανές αναζήτησης αναθέτουν ένα διαφορετικό αριθμό

28

Δημιουργία ευρετηρίου(INDEXING)






29

Δημιουργία ευρετηρίου (INDEXING)






30

Ένας φανταστικός Παγκόσμιος Ιστός που αποτελείται από 3 σελίδες με αριθμούς 1,2,3

Μια γάτα έκατσεστο πεζούλι

Ένας σκύλος είναιπάνω στο πεζούλι

Η γάτα έφυγε ότανέκατσε ο σκύλος

1 2 3

Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής;

Γάτα 1,3

Είναι 2

Έκατσε 1,3

Ένας 2

Έφυγε 3

Η 3

Μια 1

ο 3

Όταν 3

Πάνω 2

Πεζούλι 1,2

Σκύλος 2,3

Στο 1,2

31


Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής;Πώς το χρησιμοποιεί μια μηχανή αναζήτησηςγια να απαντήσει στην ερώτηση Γάτα;

Γάτα 1,3

Είναι 2

Έκατσε 1,3

Ένας 2

Έφυγε 3

Η 3

Μια 1

ο 3

Όταν 3

Πάνω 2

Πεζούλι 1,2

Σκύλος 2,3

Στο 1,2




1 2 3

32


Πώς θα έφτιαχνε Ευρετήριο ένας υπολογιστής;Πώς το χρησιμοποιεί μια μηχανή αναζήτησηςγια να απαντήσει στην ερώτηση Σκύλος;

1. Γρήγορη αναζήτηση στην ταξινομημένη λίστα

2. Επιστροφή των σελίδων 2 και 3 που περιέχουντη ζητούμενη λέξη

Γάτα 1,3

Είναι 2

Έκατσε 1,3

Ένας 2

Έφυγε 3

Η 3

Μια 1

ο 3

Όταν 3

Πάνω 2

Πεζούλι 1,2

Σκύλος 2,3

Στο 1,2




1 2 3

33


Νέα ερώτηση με πολλές λέξεις: Γάτα Σκύλος

Η μηχανή αναζήτησης:

1. Ψάχνει κάθε λέξη ανεξάρτητα1. Γάτα: 1,32. Σκύλος: 2,3

2. Ελέγχει ποιοι αριθμοί υπάρχουν και στις 2 λίστεςκαι τους επιστρέφει σαν απάντηση (εδώ: 3)

Γάτα 1,3

Είναι 2

Έκατσε 1,3

Ένας 2

Έφυγε 3

Η 3

Μια 1

ο 3

Όταν 3

Πάνω 2

Πεζούλι 1,2

Σκύλος 2,3

Στο 1,2




1 2 3

34


Νέα ερώτηση με πολλές λέξεις: Γάτα Σκύλος Έκατσε

Η μηχανή αναζήτησης:

1. Ψάχνει κάθε λέξη ανεξάρτητα1. Γάτα: 1,32. Σκύλος: 2,33. Έκατσε: 1,3

2. Ελέγχει ποιοι αριθμοί υπάρχουν και στις 3 λίστεςκαι τους επιστρέφει σαν απάντηση (εδώ: 3)

Γάτα 1,3

Είναι 2

Έκατσε 1,3

Ένας 2

Έφυγε 3

Η 3

Μια 1

ο 3

Όταν 3

Πάνω 2

Πεζούλι 1,2

Σκύλος 2,3

Στο 1,2




1 2 3

35

Πρόβλημα…

• Τι γίνεται όταν η ερώτηση είναι "φράση" κι επομένως έχει σημασία ησειρά με την οποία εμφανίζονται οι λέξεις… (δεν αρκεί απλά ναβρεθούν σκόρπιες οι λέξεις της ζητούμενης φράσης)

– Η φράση "έφυγε όταν" έχει διαφορετικό νόημα από τη φράση "ότανέφυγε"…

– Η ερώτηση έφυγε όταν ψάχνει σελίδες που περιέχουν και τις 2 λέξεις μεοποιαδήποτε σειρά

– Η ερώτηση "έφυγε όταν" ψάχνει σελίδες που περιέχουν και τις 2 λέξειςμε τη συγκεκριμένη σειρά (δηλ., ψάχνουν για σελίδες που περιέχουν τηλέξη έφυγε ακολουθούμενη από τη λέξη όταν)

36


Ερώτηση: "έφυγε όταν"

Η μηχανή αναζήτησης πρέπει να απαντήσει: σελίδα 3ΑΛΛΑ ΠΩΣ θα το πετύχει αυτό;

Αν ψάξει τις λέξεις της φράσης ανεξάρτητα θα βρειότι η σελίδα 3 περιέχει και τις δύο λέξεις αλλάθα κολλήσει αφού δεν θα μπορεί να αποφασίσει για τησειρά εμφάνισης των λέξεων…

???Η λεπτομερής "ανάγνωση" της σελίδας 3 είναιαναποδοτική λύση…

???

Γάτα 1,3

Είναι 2

Έκατσε 1,3

Ένας 2

Έφυγε 3

Η 3

Μια 1

ο 3

Όταν 3

Πάνω 2

Πεζούλι 1,2

Σκύλος 2,3

Στο 1,2




1 2 3

37

Σύνοψη



38

Ιδέα: "θέση της λέξης" (word-location trick)

• Το ευρετήριο δεν πρέπει να περιέχει μόνο αριθμούςσελίδων αλλά και θέσεις μέσα στις σελίδες που ναυποδεικνύουν τη σειρά των λέξεων στις σελίδες…

39


Το Ευρετήριο με την ιδέα "θέση της λέξης" Γάτα 1-2,3-2

Είναι 2-3

Έκατσε 1-3,3-5

Ένας 2-1

Έφυγε 3-3

Η 3-1

Μια 1-1

ο 3-6

Όταν 3-4

Πάνω 2-4

Πεζούλι 1-5,2-6

Σκύλος 2-2,3-7

Στο 1-4,2-5




1 2 3

40



Είναι 2-3


Ένας 2-1

Έφυγε 3-3

Η 3-1

Μια 1-1

ο 3-6

Όταν 3-4

Πάνω 2-4



Στο 1-4,2-5

Ερώτηση: "έφυγε όταν"

Η μηχανή αναζήτησης:1. Ψάχνει κάθε λέξη ανεξάρτητα

1. Έφυγε: 3-32. Όταν: 3-4

2. Για τις κοινές σελίδες στην παραπάνω λίστα, ελέγχει τις θέσεις των λέξεων




1 2 3

41

Ιδέα: "θέση της λέξης" (word-location trick)

• Δεν είναι χρήσιμη μόνο για ερωτήσεις με τη μορφήφράσης αλλά και για την εύρεση "κοντινών" λέξεων…– Τη δυνατότητα αυτή την πρόσφερε η μηχανή αναζήτησης

AltaVista

• ΠΩΣ; Από το Ευρετήριο υπολογίζουμε την απόστασηλέξεων στην ίδια σελίδα…

42



Είναι 2-3


Ένας 2-1

Έφυγε 3-3

Η 3-1

Μια 1-1

ο 3-6

Όταν 3-4

Πάνω 2-4



Στο 1-4,2-5

Ερώτηση: γάτα ΚΟΝΤΑ σκύλος

Η μηχανή αναζήτησης:1. Ψάχνει κάθε λέξη ανεξάρτητα

1. Γάτα: 1-2,3-22. Σκύλος: 2-2,3-7

2. Για τις κοινές σελίδες στην παραπάνω λίστα(δηλ., τη σελίδα 3) ελέγχει την απόσταση των λέξεωνπου είναι 7-2=5




1 2 3

43

Ερωτήσεις εγγύτητας

• Φαίνεται ότι οι ερωτήσεις εγγύτητας λέξεων τελικά δεν είναισημαντικές για τους χρήστες των μηχανών αναζήτησης…

• ΑΛΛΑ ο τρόπος που τις χειρίζονται οι μηχανές αναζήτησης είναιεξαιρετικά κρίσιμος για την ύπαρξη τους…

• ΑΦΟΥ οι μηχανές αναζήτησης χρησιμοποιούν οι ίδιες πολύ συχνάερωτήσεις εγγύτητας χωρίς καν να το αντιλαμβάνεται ο χρήστης…

• ΓΙΑΤΙ; …

• Θα απαντήσουμε αφού μελετήσουμε ένα άλλο σημαντικό πρόβλημαγια τις μηχανές αναζήτησης: το πρόβλημα της κατάταξης (ranking)

44

Κατάταξη και Εγγύτητα

• Κατάταξη: η μηχανή αναζήτησης επιλέγει λίγες κορυφαίεςαπαντήσεις και τις εμφανίζει στο χρήστη

• Από τι εξαρτάται η κατάταξη μιας ιστοσελίδας;– Όχι από το αν η ιστοσελίδα περιέχει τη ζητούμενη ερώτηση, ΑΛΛΑ– Από το αν η ιστοσελίδα είναι ΣΧΕΤΙΚΗ με τη ζητούμενη ερώτηση

• Σενάριο: ενδιαφερόμαστε για το ποια αιτία προκαλεί ελονοσία οπότεγράφουμε την ερώτηση αιτία ελονοσία π.χ., στο google– Υποθέτοντας ότι επιστρέφονται μόνο δύο ιστοσελίδες, σε έναν

άνθρωπο είναι σαφές ότι η σελίδα 1 είναι πράγματι σχετική με τηνερώτηση ενώ η σελίδα 2 αναφέρεται σε κάτι άσχετο με την ερώτηση καιαπλά περιέχει τις λέξεις αιτία και ελονοσία

– Αυτό το συμπέρασμα δεν είναι προφανές για έναν υπολογιστή…

45

Η πιο συχνά εμφανιζόμενη αιτία πουπροκαλεί την ελονοσία είναι τσίμπημααπό μολυσμένο κουνούπι, αλλάυπάρχουν και άλλες γενεσιουργές αιτίες.

Η αιτία που μας έφερε στο μέροςκαθόλου δεν υποστηρίχθηκε λόγω τηςφυσικής αδυναμίας των στρατιωτών πουέπασχαν από ελονοσία και άλλεςτροπικές ασθένειες.

1 2

… …

Αιτία 1-5, 2-2

… …

Ελονοσία 1-9, 2-20

… …

46

Κατάταξη και Εγγύτητα

• Ιστοσελίδες στις οποίες οι αναζητούμενες λέξεις μιας φράσηςεμφανίζονται κοντά η μία στην άλλη είναι πιθανότερο να είναι πιοσχετικές με την ερώτηση από άλλες στις οποίες οι λέξεις τηςζητούμενης φράσης έχουν μεγαλύτερη απόσταση μεταξύ τους

47

… …

Αιτία 1-5, 2-2

… …

Ελονοσία 1-9, 2-20

… …

Μηχανή αναζήτησης: Απόσταση λέξεων στη σελίδα 1: 4Απόσταση λέξεων στη σελίδα 2: 18

Συμπέρασμα: η σελίδα 1 είναι πιοσχετική με την ερώτηση

Η πιο συχνά εμφανιζόμενη αιτία πουπροκαλεί την ελονοσία είναι τσίμπημααπό μολυσμένο κουνούπι, αλλάυπάρχουν και άλλες γενεσιουργές αιτίες.

Η αιτία που μας έφερε στο μέροςκαθόλου δεν υποστηρίχθηκε λόγω τηςφυσικής αδυναμίας των στρατιωτών πουέπασχαν από ελονοσία και άλλεςτροπικές ασθένειες.

1 2

48

Σύνοψη



49

Ιδέα: "λέξεις πληροφορίας" (The metaword trick)




1 2 3

Γάτα Σκύλος Κατοικίδια

τίτλος

σώμα

Μια έξυπνη τεχνική ταιριάσματος που απογείωσε τηνAltaVista στα τέλη της δεκαετίας του 90…

50


• Οι ιστοσελίδες έχουν πολλά δομικά στοιχεία όπως τίτλους, επικεφαλίδες, συνδέσμους, εικόνες και μέχρι τώρα τιςαντιμετωπίζαμε μόνο σαν ακολουθίες λέξεων

• Πώς οι μηχανές αναζήτησης εκμεταλλεύονται τη δομή τωνιστοσελίδων;

• Υποθέτουμε ότι οι ιστοσελίδες έχουν μόνο έναν τίτλο πουακολουθείται από ένα σώμα

51


• Οι ιστοσελίδες έχουν πολλά δομικά στοιχεία όπως τίτλους, επικεφαλίδες, συνδέσμους, εικόνες και μέχρι τώρα τιςαντιμετωπίζαμε μόνο σαν ακολουθίες λέξεων

• Πώς οι μηχανές αναζήτησης εκμεταλλεύονται τη δομή τωνιστοσελίδων;

• Υποθέτουμε ότι οι ιστοσελίδες έχουν μόνο έναν τίτλο πουακολουθείται από ένα σώμα

Οι ιστοσελίδες γράφονται σε ειδική γλώσσα (η πιο συνήθης είναι η HTML) που επιτρέπει στους web browsers να τις εμφανίζουν όμορφα. Οι οδηγίες σχετικά με την εμφάνιση επικεφαλίδων, τίτλων, συνδέσμων, εικόνων, κτλ γράφονται με χρήση ειδικών λέξεων που καλούνται λέξειςπληροφορίας (metawords).

Π.χ., η λέξη πληροφορίας που δηλώνει ότι ξεκινάει τίτλος μπορεί να είναι<τίτλοςΈναρξη>, η λέξη πληροφορίας που δηλώνει ότι τελειώνει τίτλοςμπορεί να είναι <τίτλοςΛήξη>.Όμοια, το σώμα μιας ιστοσελίδας μπορεί να ξεκινάει με <σώμαΈναρξη> καινα τελειώνει με <σώμαΛήξη>. Τα σύμβολα "<" και ">" χρησιμοποιούνται για να δηλώσουμε ότι κάποιαλέξη είναι λέξη πληροφορίας και όχι κανονική λέξη μέσα στο κείμενο μιαςιστοσελίδας.

54

<τίτλοςΈναρξη>Γάτα<τίτλοςΛήξη><σώμαΈναρξη>Μια γάτα έκατσε στοπεζούλι<σώμαΛήξη>

1

<τίτλοςΈναρξη>Σκύλος<τίτλοςΛήξη><σώμαΈναρξη>Ένας σκύλος είναιπάνω στο πεζούλι <σώμαΛήξη>

2

<τίτλοςΈναρξη>Κατοικίδια<τίτλοςΛήξη><σώμαΈναρξη>Η γάτα έφυγε ότανέκατσε ο σκύλος <σώμαΛήξη>

3

55


• Στην προηγούμενη διαφάνεια φαίνεται πώς είναι γραμμένες οι ιστοσελίδες, όχι πώςθα εμφανίζονται σε έναν web browser

– Οι περισσότεροι browsers μας επιτρέπουν να δούμε πώς είναι γραμμένες οι ιστοσελίδεςμέσω της επιλογής "view source": οι λέξεις πληροφορίας (metawords) <τίτλοςΈναρξη> και<τίτλοςΛήξη> δεν είναι αυτές που χρησιμοποιούνται στην πράξη. Στην HTML, οι λέξειςπληροφορίας λέγονται ετικέτες (tags) και αυτές που χρησιμοποιούνται για έναρξη και λήξητίτλων είναι οι <title> και </title>

• Μπορεί εύκολα να κατασκευαστεί ευρετήριο με όλες τις λέξεις πληροφορίας απλάαποθηκεύοντας τη θέση τους όπως γίνεται και για τις κανονικές λέξεις (δείτε σχήμαστην επόμενη διαφάνεια): αυτό είναι η ιδέα "λέξεις πληροφορίας"

• Μπορεί να φαίνεται εξαιρετικά απλό αλλά παίζει πολύ σημαντικό ρόλο για ναμπορούν οι μηχανές αναζήτησης να πραγματοποιούν ακριβείς αναζητήσεις καικατατάξεις υψηλής ποιότητας

56

γάτα 1-2 1-6 3-6

είναι 2-7

έκατσε 2-5

ένας 3-7

έφυγε 3-5

η 1-5

μία 3-10

ο 3-8

όταν 2-8

πάνω 1-9 2-10

πεζούλι 1-8

στο 2-9

<σώμαΈναρξη> 1-4 2-4 3-4

<σώμαΛήξη> 1-10 2-11 3-12

<τίτλοςΈναρξη> 1-1 2-1 3-1

<τίτλοςΛήξη> 1-3 2-3 3-3

Ευρετήριο που περιέχει και λέξεις πληροφορίας (metawords)


1


2


3

57


• Υποθέστε ότι μια μηχανή αναζήτησης υποστηρίζει μια ειδική μορφή ερώτησης (query) με χρήση της λέξης-κλειδιού ΕΝΤΟΣ

• Η ερώτηση: γάτα ΕΝΤΟΣ ΤΙΤΛΟΥ επιστρέφει μόνο ιστοσελίδες που περιέχουν τηλέξη "γάτα" στο τίτλο τους

• Η ερώτηση: γάτα ΕΝΤΟΣ ΣΩΜΑΤΟΣ επιστρέφει μόνο ιστοσελίδες που περιέχουν τηλέξη "γάτα" στο κυρίως κείμενό τους

• Πολλές μηχανές αναζήτησης (όχι ακριβώς με τον παραπάνω απλοϊκό τρόπο) επιτρέπουν τέτοιου είδους αναζητήσεις μέσω της λειτουργίας "προχωρημένηαναζήτηση" ("advanced search") όπου μπορούμε να ορίσουμε ότι η αναζητούμενηλέξη είναι σε τίτλο ή σε άλλο τμήμα του κειμένου

– π.χ., η μηχανή αναζήτησης Google επιτρέπει αναζήτηση σε τίτλους μέσω της λέξης κλειδίintitle:

• Αναζητώντας στην Google το intitle:πλοίο προσδιορίζονται ιστοσελίδες με τη λέξη "πλοίο" στον τίτλοτους…

58

γάτα 1-2 1-6 3-6είναι 2-7

έκατσε 2-5

ένας 3-7

έφυγε 3-5

η 1-5

μία 3-10

ο 3-8

όταν 2-8

πάνω 1-9 2-10

πεζούλι 1-8

στο 2-9

<σώμαΈναρξη> 1-4 2-4 3-4

<σώμαΛήξη> 1-10 2-11 3-12

<τίτλοςΈναρξη> 1-1 2-1 3-1<τίτλοςΛήξη> 1-3 2-3 3-3

Πώς απαντάει η μηχανή αναζήτησης την ερώτηση γάτα ΕΝΤΟΣ ΤΙΤΛΟΥ


1


2


3

59


• …επιτρέπει στις μηχανές αναζήτησης να απαντούν με εξαιρετικά αποδοτικό τρόποερωτήσεις σχετικές με τη δομή ενός κειμένου

• …με παρόμοιο τρόπο με αυτό που ήδη περιγράψαμε, μπορεί να πραγματοποιηθείπολύ αποδοτικά αναζήτηση σε υπερσυνδέσμους (hyperlinks), περιγραφές εικόνωνκαθώς και σε άλλα τμήματα ιστοσελίδων χωρίς να χρειαστεί να κάνει αναζήτηση στιςαρχικές σελίδες κοιτώντας μόνο μια φορά ένα ευρετήριο με πολύ μικρό πλήθοςπεριεχομένων

• Αναζητήσεις σε τίτλους καθώς και άλλες δομικές αναζητήσεις που βασίζονται στηδομή των ιστοσελίδων μοιάζουν με τις ερωτήσεις εγγύτητας που συζητήσαμε ήδη μετην έννοια ότι ένας άνθρωπος σπάνια πραγματοποιεί δομικές αναζητήσεις αλλά οιμηχανές αναζήτησης τις χρησιμοποιούν συνεχώς εσωτερικά για τον ίδιο λόγο όπωςκαι πριν: η επιβίωση των μηχανών αναζήτησης εξαρτάται από τις κατατάξεις πουπετυχαίνουν και οι κατατάξεις βελτιώνονται σημαντικά αν αξιοποιηθεί η δομή τωνιστοσελίδων

– Π.χ., ιστοσελίδες με τη λέξη "γάτα" στον τίτλο τους είναι πολύ πιθανότερο να περιέχουνπληροφορίες για γάτες από ό,τι ιστοσελίδες που περιέχουν τη λέξη "γάτα" μόνο στο κυρίωςμέρος τους

– Όταν ένας χρήστης θέτει την ερώτηση "γάτα", η μηχανή αναζήτησης μπορεί εσωτερικά νααναζητήσει τη λέξη "γάτα" ΕΝΤΟΣ ΤΙΤΛΟΥ ακόμα κι αν ο χρήστης δεν έκανε αυτή ακριβώςτην ερώτηση για να βρει ιστοσελίδες που είναι πιθανότερο να αναφέρονται σε γάτες από τοαπλά να περιέχουν κάπου στο κυρίως μέρος τους τη λέξη "γάτα"

60

Έξυπνες ιδέες για δημιουργία ευρετηρίων(indexing) και ταίριασμα (matching) δεν είναι από

μόνες τους αρκετές…• Οι ιδέες "θέσεις λέξεων" και "λέξεων πληροφορίας" είναι σίγουρα ενδεικτικές για το

πώς οι μηχανές αναζήτησης κατασκευάζουν και χρησιμοποιούν ευρετήρια, αλλά δενείναι αρκετές από μόνες τους

• Οι "λέξεις πληροφορίας" πράγματι βοήθησαν την AltaVista να επιτύχειπραγματοποιώντας αποδοτικά ταιριάσματα στον Παγκόσμιο Ιστό αλλά η ιδέα δενήταν αρκετή για να την κρατήσει στην κορυφή

– η ιδέα με τις λέξεις πληροφορίας περιγράφθηκε το 1999 σε πατέντα της AltaVista με τίτλο"Αναζήτηση με περιορισμούς σε Ευρετήριο" ("Constrained Searching of an Index")

• Είναι πλέον γνωστό ότι το αποδοτικό ταίριασμα βοηθάει μόνο κατά το ήμισυ στηδημιουργία μιας αποδοτικής μηχανής αναζήτησης: το άλλο μισό είναι η πρόκληση τηςκατάταξης των ιστοσελίδων που ταίριαξαν στην ερώτηση…

•• Η σύλληψη ενός νέου αλγορίθμου κατάταξης ήταν αυτή που έβγαλε από το

προσκήνιο την AltaVista και απογείωσε τη Google…

…επιστρέφουμε στη λειτουργία κατάταξης καιπαρουσιάζουμε το φημισμένο αλγόριθμο

PageRank της Google…

62

Σύνοψη



63

PageRank: Η τεχνολογία που εκτόξευσε τη Google

• Στη Silicon Valley, οι κλειστοί ιδιωτικοί χώροι στάθμευσης αυτοκινήτων (garages) έχουν αποτελέσει την αφετηρία για μεγάλες εταιρείες όπως:

– το 1939, η Hewlett-Packard ξεκίνησε στο garage του Dave Hewlett στο Palo Alto τηςCalifornia

– το 1976, οι Steve Jobs και Steve Wozniak ξεκίνησαν την εταιρεία Apple στο πάρκινγκ τουJobs στο Los Altos της California (είχαν στην πραγματικότητα ξεκινήσει από το υπνοδωμάτιοκαι λόγω έλλειψης χώρου μετέβησαν στο πάρκινγκ)

• Με παρόμοιο τρόπο ξεκίνησε μια μηχανή αναζήτησης - η πασίγνωστη πλέον Google– σε ένα χώρο στάθμευσης στο Menlo Park της California

• Έγινε εταιρεία το Σεπτέμβριο του 1998, ενώ για έναν περίπου χρόνο λειτουργούσεμέσω των εξυπηρετητών του Πανεπιστημίου Stanford όπου οι δύο συνιδρυτές τηςήταν υποψήφιοι Διδάκτορες…

• Η μηχανή αναζήτησης γινόταν ολοένα και πιο δημοφιλής, το διαθέσιμο εύρος ζώνηςτου πανεπιστημίου δεν ήταν αρκετό και οι δύο μεταπτυχιακοί φοιτητές Larry Page καιSergey Brin μετέφεραν το σύστημά τους στο πλέον φημισμένο χώρο στάθμευσης στοMenlo Park

• Μόνο 3 μήνες από τη σύστασή της σαν εταιρεία, το περιοδικό PC Magazine ανέφερετη Google σαν ένα από τα 100 δημοφιλέστερα websites του 1998...

64

PageRank: Η τεχνολογία που εκτόξευσε τη Google

• Σύμφωνα με το PC Magazine, η τρομερή επιτυχία της Google οφειλόταν στο ότιεπέστρεφε αποτελέσματα εξαιρετικά σχετικά με την εκάστοτε ερώτηση…

• Πώς ξεπέρασε η Google την αναποτελεσματικότητα 4 ολόκληρων ετών και εκτόπισεήδη δημοφιλείς (ως προς την ποιότητα των αποτελεσμάτων) μηχανές αναζήτησηςόπως οι Lycos και AltaVista;;;

• Αν και η απάντηση δεν είναι απλή, σίγουρα ένας καθοριστικός παράγοντας ήταν έναςνέος αλγόριθμος, ο PageRank, που χρησιμοποίησε η Google για κατάταξη τωναποτελεσμάτων αναζήτησης

– Το όνομα "PageRank" είναι ένα λογοπαίγνιο: είναι ένας αλγόριθμος κατάταξης ιστοσελίδωναλλά και αλγόριθμος κατάταξης του Larry Page που τον εμπνεύστηκε

• Οι Page και Brin δημοσίευσαν τον αλγόριθμο το 1998 σε εργασία με τίτλο "Ηανατομία μιας μεγάλης κλίμακας μηχανής αναζήτησης υπερκειμένου στον παγκόσμιοιστό" ("The Anatomy of a Large-scale Hypertextual Web Search Engine") πουπεριέχει μια πλήρη περιγραφή του συστήματος Google στη μορφή που είχε το 1998 και του αλγορίθμου PageRank

65

Σύνοψη



66

Η ιδέα των υπερσυνδέσμων(The hyperlink trick)

• Τι είναι υπερσύνδεσμος (hyperlink): είναι φράση σε μια ιστοσελίδα που ότανπατήσουμε πάνω της μάς μεταφέρει σε μια άλλη ιστοσελίδα (οιπερισσότεροι web browsers εμφανίζουν τους υπερσυνδέσμους με μπλεχρώμα για να ξεχωρίζουν εύκολα)

• Οι υπερσύνδεσμοι είναι εκπληκτικά παλιά ιδέα…

• Το 1945 — όταν άρχισαν να αναπτύσσονται και οι ίδιοι οι Η/Υ— οαμερικανός μηχανικός Vannevar Bush δημοσίευσε μια διορατική μελέτη μετίτλο "As We May Think" στην οποία περιέλαβε διάφορες νέες τεχνολογίεςμεταξύ των οποίων και μια μηχανή που αποκάλεσε memex, η οποία

– θα αποθήκευε έγγραφα και αυτόματα θα δημιουργούσε σχετικό ευρετήριο(μεταξύ άλλων λειτουργιών)

– θα επέτρεπε τη "δημιουργία σχεσιακών ευρετηρίων …όπου κάθε αντικείμενο θαμπορεί να χρησιμοποιηθεί για την άμεση και αυτόματη επιλογή ενός άλλου" –περιέγραψε με άλλα λόγια μια στοιχειώδη μορφή υπερσυνδέσμου (hyperlink)!

67

Η ουσία της ιδέας των υπερσυνδέσμων. Φαίνονται 6 ιστοσελίδες, μία σε κάθε παραλληλόγραμμο. 2 από τις ιστοσελίδες είναι συνταγές για στραπατσάδα, ενώ οι 4 άλλες περιέχουν υπερσυνδέσμους σε αυτές τιςσυνταγές. Με βάση την ιδέα των υπερσυνδέσμων, η σελίδα του Bert κατατάσσεται πάνω από αυτή του Ernie, γιατί ησελίδα του Bert έχει 3 εισερχόμενα βέλη ενώ του Ernie μόνο 1...

68


• Ενδιαφερόμαστε να βρούμε συνταγές για στραπατσάδα και ψάχνουμε στοweb

• Υποθέτουμε ότι η αναζήτηση επιστρέφει μόνο τις εξής 2 ιστοσελίδες (στηνπραγματικότητα θα επέστρεφε εκατομμύρια αποτελέσματα):

– "Ernie's scrambled egg recipe"– "Bert's scrambled egg recipe"

• Υποθέτουμε ότι υπάρχουν μόνο 4 άλλες ιστοσελίδες που παραπέμπουνμέσω υπερσυνδέσμων σε αυτές

• Ερώτηση: ποια από τις 2 ιστοσελίδες πρέπει να καταταχθεί πρώτη, του Bertή του Ernie;

– Ένας άνθρωπος θα διάβαζε τις σελίδες που αναφέρονται στις δύο συνταγές καιθα αποφάσιζε ποια από τις 2 είναι η δημοφιλέστερη… φαίνεται ότι και οι 2 συνταγές είναι λογικές αλλά ο κόσμος προτιμάει αυτή του Bert κι επομένως, ελλείψει άλλης πληροφορίας, θα έπρεπε η ιστοσελίδα του Bert να καταταχθείπαραπάνω από του Ernie…

69


• Μια τέτοια είδους "κατανόηση" δεν είναι εφικτή για έναν υπολογιστή…

• Όμως οι υπολογιστές είναι πολύ καλοί στο να μετράνε αντικείμενα…

• Οπότε, μια καλή προσέγγιση θα ήταν να μετρήσει ο υπολογιστής των πλήθος τωνιστοσελίδων (υπερσυνδέσμων) που δείχνουν σε κάθε μία από τις συνταγές

– 1 για τη συνταγή του Ernie– 3 για τη συνταγή του Bert

• και να κατατάξει τις συνταγές με βάση τους εισερχόμενους υπερυνδέσμους τους

• Αποδεικνύεται ότι, ελλείψει άλλης πληροφορίας, το πλήθος των εισερχόμενωνυπερσυνδέσμων σε μια ιστοσελίδα είναι άκρως ενδεικτικό για το πόσο χρήσιμη ή"έγκυρη" μπορεί να είναι η ιστοσελίδα

• Μια πιθανή αδυναμία της προσέγγισης αυτής θα μπορούσε να είναι το ότι μερικέςφορές χρησιμοποιούνται σύνδεσμοι για να υποδείξουν κακές σελίδες κι όχι καλές:

– π.χ., κάποια από τις ιστοσελίδες που δείχνει στη συνταγή του Ernie μπορεί να λέει: "Δοκίμασα τη συνταγή και είναι απαίσια" και αυτό μπορεί να είναι παραπλανητικό όταν ηκατάταξη βασίζεται σε απλή καταμέτρηση…

• Φαίνεται όμως ότι στην πράξη οι υπερσύνδεσμοι λειτουργούν περισσότερο σανσυστάσεις παρά σαν κατακρίσεις

70

Σύνοψη



71

Η ιδέα της εγκυρότητας(The authority trick)

• Παρατήρηση: όλοι οι εισερχόμενοι υπερσύνδεσμοι ίσως να μην πρέπει ναέχουν την ίδια βαρύτητα μιας

– η σύσταση από έναν "ειδικό" μετράει σίγουρα περισσότερο από την αντίστοιχηαπό έναν αρχάριο…

• Υποθέτουμε ότι οι συνταγές των Bert και Ernie έχουν τον ίδιο αριθμόεισερχόμενων υπερσυνδέσμων (1 η κάθε μία) αλλά, η παραπομπή στησυνταγή του Ernie είναι από την προσωπική ιστοσελίδα ενός χρήστη ενώ ηπαραπομπή στη συνταγή του Bert είναι από την ιστοσελίδα της φημισμένηςchef Alice Waters

• Αν δεν είχαμε άλλη πληροφορία, ποια συνταγή θα επιλέγαμε; – Προφανώς, αυτή που προτείνει μία φημισμένη chef κι όχι αυτή που προτείνει

ένας τυχαίος (άσχετος ενδεχομένως) χρήστης… Αυτό αποτελεί τη βασική αρχήτης ιδέας της εγκυρότητας:

72

Η ιδέα της εγκυρότητας(The authority trick)

• Σύνδεσμοι από σελίδες με υψηλή εγκυρότητα θα πρέπει να οδηγούν σευψηλότερη κατάταξη σε σύγκριση με συνδέσμους από σελίδες με χαμηλήεγκυρότητα

– Φυσικά, η αρχή, στην τρέχουσα μορφή της, είναι άχρηστη σε έναν υπολογιστή…– Πώς μπορεί ένας υπολογιστής αυτόματα να καθορίσει ότι π.χ., η Alice Waters

έχει εγκυρότερη άποψη για μία συνταγή από κάποιον τυχαίο χρήστη;

• ΙΔΕΑ: να συνδυάσουμε την ιδέα των υπερσυνδέσμων με αυτήν τηςεγκυρότητας

– Σε όλες τις σελίδες ανατίθεται αρχικά τιμή εγκυρότητας 1– Αν κάποια σελίδα διαθέτει εισερχόμενους συνδέσμους, η τιμή εγκυρότητά της

υπολογίζεται με άθροιση των τιμών εγκυρότητας όλων των σελίδων πουδείχνουν σε αυτή

• Δηλ., αν οι σελίδες X και Y δείχνουν στη σελίδα Z, τότε η τιμή εγκυρότητας της σελίδαςZ είναι το άθροισμα των τιμών εγκυρότητας των σελίδων X και Y

74

Απλός υπολογισμός των τιμών εγκυρότητας(που φαίνονται σε κύκλους) για τις δύο συνταγές

75

Πρόβλημα: δημιουργία κύκλων

• Στον τρόπο που περιγράψαμε για τον αυτόματο υπολογισμό τωντιμών εγκυρότητας, υπάρχει η εξής εγγενής αδυναμία: είναι πιθανόνοι υπερσύνδεσμοι να δημιουργήσουν "κύκλο"– Σχηματίζεται κύκλος αν μπορούμε να επιστρέψουμε στη σελίδα από την

οποία ξεκινήσαμε χρησιμοποιώντας υπερσυνδέσμους (σχήμα στηνεπόμενη διαφάνεια)

1 1

2 2

2

4

*4 4

76


• Στον τρόπο που περιγράψαμε για τον αυτόματο υπολογισμό τωντιμών εγκυρότητας, υπάρχει η εξής εγγενής αδυναμία: είναι πιθανόνοι υπερσύνδεσμοι να δημιουργήσουν "κύκλο"– Σχηματίζεται κύκλος αν μπορούμε να επιστρέψουμε στη σελίδα από την

οποία ξεκινήσαμε χρησιμοποιώντας υπερσυνδέσμους (σχήμα στηνεπόμενη διαφάνεια)

*

77


• Στον τρόπο που περιγράψαμε για τον αυτόματο υπολογισμό των τιμών εγκυρότητας, υπάρχει η εξής εγγενής αδυναμία: είναι πιθανόν οι υπερσύνδεσμοι να δημιουργήσουν"κύκλο"

– Σχηματίζεται κύκλος αν μπορούμε να επιστρέψουμε στη σελίδα από την οποία ξεκινήσαμεχρησιμοποιώντας υπερσυνδέσμους (σχήμα στην επόμενη διαφάνεια)

• Στον τρέχοντα ορισμό της τιμής εγκυρότητας (με βάση συνδυασμό των τεχνασμάτωντων υπερσυνδέσμων και της εγκυρότητας) υπάρχει πρόβλημα όποτε δημιουργείταικύκλος

– Π.χ., Οι σελίδες C και D δεν έχουν εισερχόμενες ακμές, κατά συνέπεια λαμβάνουν τιμήεγκυρότητας 1. Οι C και D δείχνουν και οι δύο στην A, οπότε η σελίδα A λαμβάνει τιμήεγκυρότητας ίση με το άθροισμα των τιμών του C και D, δηλ., 1 + 1 = 2. Τότε η σελίδα B λαμβάνει τιμή εγκυρότητας 2 από την A, και η E λαμβάνει τιμή 2 από την B.

– Όμως τώρα η A είναι μη ενημερωμένη: λαμβάνει τιμή 1 από C και D, κι επίσης 2 από E, οπότε συνολικά έχει τιμή εγκυρότητας 4.

– Αλλά τώρα και η B είναι μη ενημερωμένη: λαμβάνει τιμή 4 από την A. – Αλλά τότε και η E χρειάζεται ενημέρωση, αφού λαμβάνει 4 μονάδες από τη B– Κτλ, οπότε: οι τιμές εγκυρότητας είναι για την A 6, για τη B 6, για την E 6, οπότε για την A

είναι 8,…. – Βλέπετε; Θα συνεχίζουμε ες αεί με τιμές εγκυρότητας που πάντα θα αυξάνονται καθώς

διατρέχουμε τον κύκλο…

78

Παράδειγμα στο οποίο οι σύνδεσμοι σχηματίζουν κύκλο. Οι σελίδες Α, Β και Εδημιουργούν κύκλο αφού μπορούμε να ξεκινήσουμε στη σελίδα Α, να μεταβούμεστη Β, μετά στην Ε και μετά να επιστρέψουμε στην αφετηρία, δηλ., στη σελίδα Α…

*

79

Παράδειγμα στο οποίο οι σύνδεσμοι σχηματίζουν κύκλο. Οι σελίδες Α, Β και Εδημιουργούν κύκλο αφού μπορούμε να ξεκινήσουμε στη σελίδα Α, να μεταβούμεστη Β, μετά στην Ε και μετά να επιστρέψουμε στην αφετηρία, δηλ., στη σελίδα Α…

*

80

Υπολογισμός τιμών εγκυρότητας: Το πρόβλημα που προκαλούν οι κύκλοι είναιότι οι σελίδες A, B, και E είναι πάντα μη ενημερωμένες και τα αποτελέσματά τουςαυξάνονται συνεχώς…

* *

81

Σύνοψη



82

Η ιδέα του τυχαίου περιηγητή(The random surfer trick)

• Αυτός ο υπολογισμός τιμών εγκυρότητας δημιουργεί πρόβλημα της μορφής "η κόταέκανε το αυγό ή το αυγό την κότα;":

– Αν γνωρίζαμε την αληθινή τιμή εγκυρότητας για τη σελίδα A, θα μπορούσαμε ναυπολογίσουμε τις τιμές εγκυρότητας για τις σελίδες B και E

– Αν γνωρίζαμε τις αληθινές τιμές εγκυρότητας για τις σελίδες B και E, θα μπορούσαμε ναυπολογίσουμε την τιμή εγκυρότητας για τη σελίδα A

– Αλλά επειδή ο κάθε υπολογισμός εξαρτάται από τον άλλον, φαίνεται να μην είναι δυνατός ουπολογισμός των συγκεκριμένων τιμών

• Το πρόβλημα λύνεται με μία τεχνική που καλείται "ιδέα του τυχαίου περιηγητή(surfer)"

– Προσοχή: η αρχική περιγραφή της ιδέας του τυχαίου περιηγητή δεν μοιάζει καθόλου με τιςιδέες των υπερσυνδέσμων και της εγκυρότητας

– Αφού περιγράψαμε το βασικό μηχανισμό της ιδέας του τυχαίου περιηγητή, θαπροχωρήσουμε σε ανάλυση που θα αποκαλύψει σημαντικές ιδιότητές της

– Συνδυάζει τα επιθυμητά χαρακτηριστικά των ιδεών των υπερσυνδέσμων και της εγκυρότηταςκαι, επιπλέον, δουλεύει ακόμα και όταν σχηματίζονται κύκλοι στην επιλογή τωνυπερσυνδέσμων

83


• Φανταζόμαστε ένα άτομο που τυχαία περιηγείται στο internet– Ξεκινάει από κάποια ιστοσελίδα τυχαία επιλεγμένη από τον παγκόσμιο ιστό– Εξετάζει όλους τους συνδέσμους της ιστοσελίδας– Επιλέγει ένας από αυτούς τυχαία και τον ακολουθεί (πατάει click)– Εξετάζει τη νέα ιστοσελίδα εξετάζεται και επιλέγει τυχαία έναν από τους

συνδέσμους της– …– Η διαδικασία αυτή συνεχίζεται, κάθε νέα ιστοσελίδα επιλέγεται τυχαία με επιλογή

ενός συνδέσμου από την προηγούμενη σελίδα– Οι ιστοσελίδες που έχει επισκεφτεί ο περιηγητής είναι οι σκούρες, οι σύνδεσμοι

που ακολούθησε ο περιηγητής είναι μαύροι και τα διακεκομμένα βέλη δηλώνουντυχαίες επανεκκινήσεις

84


• Περιπλοκή: κάθε φορά που μια σελίδα δέχεται επίσκεψη, υπάρχειπροκαθορισμένη πιθανότητα επανεκκίνησης (έστω, 15%) με την οποία οπεριηγητής δεν επιλέγει κάποιο διαθέσιμο σύνδεσμο αλλά ξαναξεκινάει τηδιαδικασία διαλέγοντας τυχαία μια άλλη σελίδα από το web

– Φανταστείτε ότι ο περιηγητής έχει πιθανότητα 15% να βαρεθεί σε κάποια σελίδακαι να ακολουθήσει μια νέα ακολουθία συνδέσμων

– Σχήμα: Ο περιηγητής ξεκίνησε στη σελίδα A και ακολούθησε 3 τυχαίουςσυνδέσμους πριν βαρεθεί από τη σελίδα B και ξαναξεκινήσει στη σελίδα C. Ακολούθησε τότε 2 ακόμα τυχαίους συνδέσμους πριν ξαναξεκινήσει σε άλλησελίδα…

– Η πιθανότητα επανεκκίνησης 15% που χρησιμοποιούμε εδώ για παράδειγμαείναι ακριβώς αυτή που χρησιμοποίησαν οι συνιδρυτές της Google, Page καιBrin, στην αρχική τους εργασία που περιέγραφαν τη μηχανή αναζήτησης πουείχαν αναπτύξει…

85

Το μοντέλο του τυχαίου περιηγητή (surfer): οι σελίδες που επισκέπτεται ο περιηγητήςείναι οι σκούρες και οι διακεκομμένες γραμμές δείχνουν τυχαίες επανεκκινήσεις. Τοίχνος ξεκινάει στην ιστοσελίδα Α και ακολουθεί τυχαία επιλεγμένους συνδέσμουςενώ διακόπτεται από δύο τυχαίες επανεκκινήσεις.

Φανταζόμαστε ότι ο παγκόσμιος ιστός αποτελείται από 16 ιστοσελίδες.Οι ιστοσελίδες είναι τα κουτιά και τα βέλη σημαίνουν συνδέσμους μεταξύ ιστοσελίδων.

86


• Είναι εύκολο να εκτελέσουμε πείραμα στονυπολογιστή για επισκέψεις του περιηγητή σε1000 ιστοσελίδες (μετράμε και πολλαπλέςεπισκέψεις στην ίδια ιστοσελίδα)

– Τα αποτελέσματα φαίνονται δίπλα (πάνωμέρος): Η σελίδα D δέχτηκε συχνότεραεπισκέψεις (συγκεκριμένα 144)

• Η βελτίωση της ακρίβειας τωναποτελεσμάτων του πειράματος μπορεί ναγίνει – όπως και στις δημοσκοπήσεις – μεαύξηση του αριθμού των τυχαίων δειγμάτων(αύξηση του αριθμού των σελίδων πουεπισκέφθηκε ο περιηγητής)

• Εκτελούμε νέο πείραμα υποθέτοντας ότι οπεριηγητής επισκέφθηκε 1.000.000 σελίδες(η εκτέλεση απαιτεί λιγότερο από μισόδευτερόλεπτο σε κοινό υπολογιστή) καιτώρα παρουσιάζουμε τα αποτελέσματα(δίπλα στο κάτω μέρος) με τη μορφήποσοστού (λόγω του μεγάλου αριθμούεπισκέψεων)

– Ξανά, η σελίδα D δέχθηκε συχνότεραεπισκέψεις (συγκεκριμένα, προσέλκυσε το15% των επισκέψεων του περιηγητή)…

87

Πειράματα με χρήση του τυχαίου περιηγητή. Πάνω: Αριθμός επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1000 επισκέψειςΚάτω: Ποσοστό επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1.000.000 επισκέψεις

88

Τυχαίος περιηγητής και εγκυρότητα

• Ποια είναι η σχέση μεταξύ της ιδέας του τυχαίου περιηγητή και της ιδέας τηςεγκυρότητας που χρησιμοποιούνται για την κατάταξη ιστοσελίδων-απαντήσεων σεκάποια αναζήτηση;

• Τα αποτελέσματα που υπολογίζονται από τα πειράματα με τον τυχαίο περιηγητή είναιακριβώς αυτό που χρειαζόμαστε για να μετρήσουμε την εγκυρότητα των σελίδων

– Ορίζουμε επομένως την τιμή εγκυρότητας περιηγητή για μια σελίδα ως το ποσοστό τουχρόνου που πέρασε ο περιηγητής επισκεπτόμενος τη συγκεκριμένη σελίδα

• Η τιμή εγκυρότητας περιηγητή ενσωματώνει και τις δύο ιδέες για κατάταξη τωνιστοσελίδων με βάση το πόσο σημαντικές είναι…

– Ιδέα με υπερσυνδέσμους: μια σελίδα με πολλούς εισερχόμενους συνδέσμους πρέπει νακαταταχθεί ψηλότερα, κάτι που ισχύει για το μοντέλο του τυχαίου περιηγητή, αφού μια σελίδαμε πολλούς εισερχόμενους συνδέσμους έχει μεγάλη πιθανότητα να δεχθεί επίσκεψη

• Σελίδα D στο κάτω μέρος της επόμενης διαφάνειας: έχει 5 εισερχόμενους συνδέσμους παραπάνωαπό κάθε άλλη σελίδα στο πείραμα και τελικά λαμβάνει την υψηλότερη τιμή εγκυρότητας περιηγητή(15%)

– Ιδέα με εγκυρότητα: εισερχόμενος σύνδεσμος από σελίδα με υψηλή εγκυρότητα βελτιώνειτην κατάταξη της σελίδας περισσότερο από κάποιον σύνδεσμο από σελίδα με μικρότερηεγκυρότητα, κάτι που λαμβάνει υπόψιν και το μοντέλο του τυχαίου περιηγητή. ΓΙΑΤΙ; Εισερχόμενος σύνδεσμος από δημοφιλή σελίδα είναι πιθανότερο να ακολουθηθεί από ό,τικάποιος από μη δημοφιλή σελίδα

• Στο παράδειγμα, συγκρίνετε τις σελίδες A και C στο κάτω μέρος: κάθε μία έχει έναν μόνο εισερχόμενοσύνδεσμο, αλλά η σελίδα A έχει πολύ υψηλότερη τιμή εγκυρότητας περιηγητή (13% έναντι 2%) λόγωτης ποιότητας του εισερχόμενου συνδέσμου

89

Πειράματα με χρήση του τυχαίου περιηγητή. Πάνω: Αριθμός επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1000 επισκέψειςΚάτω: Ποσοστό επισκέψεων σε κάθε ιστοσελίδα σε πείραμα με 1.000.000 επισκέψεις

90


• H ιδέα του τυχαίου περιηγητή ενσωματώνει ταυτόχρονα τις ιδέες τωνυπερσυνδέσμων και της εγκυρότητας, δηλ., λαμβάνει υπόψιν την ποιότητα και τηνποσότητα των εισερχόμενων συνδέσμων σε κάθε σελίδα

– Δείτε τη σελίδα B: λαμβάνει το σχετικά υψηλό της αποτέλεσμα (10%) λόγω των 3 εισερχόμενων συνδέσμων από σελίδες με μέτρια αποτελέσματα που κυμαίνονται μεταξύ του4% και 7%

• Η ομορφιά της ιδέας του τυχαίου περιηγητή είναι ότι, αντίθετα με την ιδέα τηςεγκυρότητας, δουλεύει άψογα ανεξάρτητα από την ύπαρξη κύκλων στουςσυνδέσμους

– Εκτελούμε ένα πείραμα για εκατομμύρια επισκέψεις του τυχαίου περιηγητή για την ερώτησηπερί συνταγής για στραπατσάδα

– Τα αποτελέσματα φαίνονται στην επόμενη διαφάνεια. Όπως και με χρήση της ιδέας τηςεγκυρότητας, η σελίδα του Bert λαμβάνει μεγαλύτερο αποτέλεσμα από αυτήν του Ernie (28%έναντι 1%, αντίστοιχα) παρά το ότι έχουν και οι δύο από έναν εισερχόμενο σύνδεσμο

– Επομένως, η σελίδα του Bert θα καταταχθεί ψηλότερα σε μια αναζήτηση για "στραπατσάδα"• Τι συμβαίνει όταν υπάρχουν κύκλοι στους συνδέσμους;

– Εκτελούμε ένα πείραμα με τυχαίους περιηγητές που δίνει τα αποτελέσματα της επόμενηςδιαφάνειας τα οποία δείχνουν την τελική σειρά κατάταξης που θα επέστρεφε μία μηχανήαναζήτησης: η σελίδα A είναι ψηλότερα, ακολουθεί η B, η E, η C και η D μένει τελευταία...

91

Αποτελέσματα εγκυρότητας περιηγητή για την ιστοσελίδα με τη στραπατσάδα.Και ο Bert και ο Ernie έχουν από ακριβώς έναν εισερχόμενο σύνδεσμο πουδίνει εγκυρότητα στην ιστοσελίδα τους, αλλά η σελίδα του Bert θα καταταχθείψηλότερα σε μια αναζήτηση για “στραπατσάδα”…

92

Αποτελέσματα εγκυρότητας περιηγητή για το προηγούμενο παράδειγμα με κύκλοστους συνδέσμους. Η ιδέα με τον τυχαίο περιηγητή μπορεί να υπολογίσει κατάλληλααποτελέσματα παρά την ύπαρξη κύκλου (A→B→E→A)…

93

Ο αλγόριθμος PAGERANK στην πράξη…

• Η ιδέα του τυχαίου περιηγητή περιγράφθηκε από τους συνιδρυτέςτης Google στη πασίγνωστη πλέον εργασία που δημοσιεύθηκε το1998 με τίτλο: "The Anatomy of a Large-scale Hypertextual WebSearch Engine"

• Σε συνδυασμό με άλλες τεχνικές, παραλλαγές αυτής της ιδέαςχρησιμοποιούνται ακόμα από τις σημαντικότερες μηχανέςαναζήτησης

94


• Όμως, υπάρχουν διάφοροι παράγοντες που προκαλούν επιπλοκές, οπότε οι τεχνικέςπου χρησιμοποιούν οι σύγχρονες μηχανές αναζήτησης διαφέρουν κάπως από τηνιδέα του τυχαίου περιηγητή που περιγράψαμε

– Ένας τέτοιος παράγοντας αγγίζει την καρδιά του PageRank: η υπόθεση ότι οιυπερσύνδεσμοι έχουν εγκυρότητα είναι αμφισβητήσιμη, αλλά αυτό (έστω κι αν οι σύνδεσμοιμπορεί να αντιπροσωπεύουν κριτική κι όχι σύσταση) στην πράξη δεν είναι σημαντικόπρόβλημα

– Ένα σημαντικότερο πρόβλημα είναι ότι άτομα μπορούν να παραποιήσουν την ιδέα τωνυπερσυνδέσμων για να επηρεάσουν τεχνητά την κατάταξη των δικών τους σελίδων

• Υποθέστε ότι έχετε ένα website που λέγεται BooksBooksBooks.com για πώληση βιβλίων• Αυτόματα, είναι σχετικά εύκολο να δημιουργήσει κανείς έναν μεγάλο αριθμό (π.χ., 10,000)

διαφορετικών σελίδων με συνδέσμους προς το BooksBooksBooks.com. • Επομένως αν οι μηχανές αναζήτησης υπολόγιζαν τις τιμές που χρησιμοποιεί ο αλγόριθμος PageRank

όπως ακριβώς περιγράψαμε εδώ, το BooksBooksBooks.com θα μπορούσε – χωρίς να το αξίζει – ναλάβει αποτελέσματα πολύ υψηλότερα από τα άλλα δύο ηλεκτρονικά βιβλιοπωλεία, και συνεπώςυψηλότερη κατάταξη και περισσότερες πωλήσεις...

– Οι μηχανές αναζήτησης καλούν αυτού του είδους την κακόβουλη συμπεριφορά web spam• η ορολογία προέρχεται σε αναλογία με το e-mail spam: ανεπιθύμητα μηνύματα στα Εισερχόμενα e-

mail μας είναι ίδια με ανεπιθύμητες ιστοσελίδες που ανακατεύουν τα αποτελέσματα μιας αναζήτησηςστο web

– Η ανίχνευση και εξουδετέρωση διάφορων τύπων web spam αποτελούν πολύ σημαντικέςεργασίες για όλες τις μηχανές αναζήτησης

95


• Για παράδειγμα, το 2004, ερευνητές στη Microsoft βρήκαν πάνω από 300,000 websites να έχουν ακριβώς 1001 σελίδες που να δείχνουν σε αυτά και λογικά τοθεώρησαν πολύ περίεργο… Έψαξαν αυτά τα websites λεπτομερώς και διαπίστωσανότι η πλειοψηφία των αυτών των εισερχόμενων συνδέσμων ήταν web spam..

• Οι μηχανές αναζήτησης κάνουν μεγάλο αγώνα κατά των spammers και συνεχώςπροσπαθούν να βελτιώσουν τους αλγορίθμους τους προκειμένου να επιστρέφουνρεαλιστικές κατατάξεις

• Η συνεχής προσπάθεια βελτίωσης του αλγορίθμου PageRank έχει προκαλέσειεντατική ακαδημαϊκή και βιομηχανική έρευνα σχετικά με αλγόριθμους πουχρησιμοποιούν τη δομή των υπερσυνδέσμων του web για να κατατάσσουν σελίδες(αλγόριθμοι κατάταξης που βασίζονται σε συνδέσμους - link-based ranking algs)

• Ένας άλλος ανασταλτικός παράγοντας σχετίζεται με την αποδοτικότητα τωνυπολογισμών του PageRank: Οι τιμές με βάση τον περιηγητή υπολογίζονται βάσειεξομοιώσεων, αλλά η εκτέλεση μιας εξομοίωσης για όλο το web θα διαρκούσεαπαγορευτικά πολύ…

– Επομένως, οι μηχανές αναζήτησης δεν υπολογίζουν τις τιμές του PageRank μέσωεξομοιώσεων τυχαίων περιηγητών: χρησιμοποιούν μαθηματικές τεχνικές που δίνουν τις ίδιεςαπαντήσεις με τις εξομοιώσεις, αλλά με σημαντικά μικρότερο υπολογιστικό κόστος…

– Εμείς αναφερθήκαμε σε εξομοιώσεις για να περιγράψουμε έξυπνες ιδέες και τι ακριβώςυπολογίζουν οι μηχανές αναζήτησης, όχι πώς το υπολογίζουν…

96


• Οι εμπορικές μηχανές αναζήτησης καθορίζουν τις κατατάξεις τους χρησιμοποιώνταςπολύ περισσότερα από έναν αλγόριθμο κατάταξης βασισμένο στους συνδέσμους(link-based ranking algorithm) όπως ο PageRank…

– Ακόμα και στην πρωτότυπη δημοσίευση για την περιγραφή της Google το 1998, αναφέρονταν πολλά άλλα χαρακτηριστικά που συνέβαλαν στην κατάταξη τωναποτελεσμάτων της αναζήτησης

– Και προφανώς η τεχνολογία έχει προχωρήσει: ήδη η ίδια η Google δηλώνει ότι “πάνωαπό 200 σήματα” χρησιμοποιούνται για την εκτίμηση του πόσο σημαντική είναι μίασελίδα

• Παρά τη μεγάλη πολυπλοκότητα των σύγχρονων μηχανών αναζήτησης, η όμορφηιδέα στην καρδιά του αλγορίθμου PageRank – ότι δηλ., δημοφιλείς σελίδεςαυξάνουν την εγκυρότητα/δημοτικότητα άλλων σελίδων μέσω υπερσυνδέσμων– συνεχίζει να ισχύει…

– Αυτή ακριβώς η ιδέα βοήθησε τη Google να εκθρονίσει την AltaVista, μετατρέποντας τηGoogle από μια μικρή εταιρεία σε βασίλισσα της αναζήτησης μέσα σε λίγα χρόνια…

– Χωρίς τη βασική ιδέα του PageRank, οι περισσότερες αναζητήσεις στο web θα χάνονταν σεπέλαγος χιλιάδων ταιριασμάτων σε άσχετες web σελίδες…

• Ο PageRank είναι πράγματι ένας αλγόριθμος που επιτρέπει σε έναν "ψύλλο" νααναδυθεί χωρίς κόπο στην κορυφή από τα "άχυρα"…

97

Σύνοψη

• Δεδομένα: – WEB και η πληροφορία που περιέχεται σε αυτό– Ερώτηση για αναζήτηση συγκεκριμένης πληροφορίας στο WEB

• Ζητούμενο:– Γρήγορη επιστροφή λίστας με απαντήσεις ταξινομημένες από τησχετικότερη στη λιγότερη σχετική…

98

Σύνοψη

• Για να λάβουμε γρήγορα σωστές και σχετικές απαντήσεις σε ερωτήματαπου θέτουμε, οι μηχανές αναζήτησης στο web προσπαθούν

• (α) να εντοπίσουν ιστοσελίδες που περιέχουν την ερώτησή μας (ταίριασμα-matching) μέσω δημιουργίας ευρετηρίου (indexing) με χρήση δύο επιπλέοντεχνικών:

– εντοπίζοντας τη θέση της λέξης-ερώτησης στην ιστοσελίδα– εντοπίζοντας λέξεις πληροφορίας στην ιστοσελίδα και εξετάζοντας αν η λέξη-

ερώτηση περιέχεται μεταξύ τους• (β) να κατατάξουν τις ιστοσελίδες που περιέχουν τη λέξη-ερώτηση που

θέσαμε με βάση τη σχετικότητά τους με την απάντηση στην ερώτησή μας(κατάταξη-ranking)

– η αποδοτικότερη τεχνική έχει αποδειχθεί ότι είναι ο αλγόριθμος PageRank τηςGoogle (1998) σύμφωνα με τον οποίο ψηλότερα στην κατάταξη πρέπει ναβρίσκονται εκείνες οι ιστοσελίδες που περιέχουν τη λέξη-ερώτημα στις οποίεςμπορούμε να οδηγηθούμε από πολλές δημοφιλείς ιστοσελίδες

99

Πρακτικές προεκτάσεις

• Για να κατατάξω "οντότητες" με βάση το πόσο σημαντικές είναι, έχεινόημα να λαμβάνω υπόψιν– το πόσοι τις "ψηφίζουν"– το πόσο "ειδικοί" είναι αυτοί που "ψηφίζουν"

• Οπότε, θα είχε νόημα:– Σε μια συλλογή να τοποθετήσω στο προσκήνιο τα δημοφιλέστερα αντικείμενα– Σε μια επίσκεψη να ξεκινήσω από τα δημοφιλέστερα μέρη– Για να μελετήσω γλωσσικά φαινόμενα να ξεκινήσω από τις λέξεις που

χρησιμοποιούνται περισσότερο– Για να μελετήσω την εξέλιξη να εστιάσω στα είδη που επιβίωσαν– …

100

Ενδιαφέρουσες αναφορές

• How Google Works– http://www.googleguide.com/google_works.html

• The Google Pagerank Algorithm and How It Works– http://www.sirgroane.net/google-page-rank/

• PageRank Algorithm - The Mathematics of Google Search– http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Lecture3/l

ecture3.html

Πώς «βρίσκουν» οι μηχανές αναζήτησης · 2 1930 •...

Documents

Transcript of Πώς «βρίσκουν» οι μηχανές αναζήτησης · 2 1930 •...