Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές...

of 80 /80
Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Embed Size (px)

description

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της. Εισαγωγικά. ΑΠ : αναπαράσταση , αποθήκευση , οργάνωση και προσπέλαση σε αντικείμενα πληροφορίας Επίκεντρο η πληροφοριακή ανάγκη του χρήστη Πληροφοριακή ανάγκη χρήστη : - PowerPoint PPT Presentation

Transcript of Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές...

Page 1: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές

της

Page 2: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Εισαγωγικά

ΑΠ: αναπαράσταση, αποθήκευση, οργάνωση και προσπέλαση σε αντικείμενα πληροφορίας

Επίκεντρο η πληροφοριακή ανάγκη του χρήστη Πληροφοριακή ανάγκη χρήστη:– Εντόπισε όλα τα κείμενα με πληροφορίες

σχετικά με φοιτητές που (1) φοιτούν σε κάποια σχολή πληροφορικής, (2) συμμετέχουν σε κάποιο αθλητικό σύλλογο

– Έμφαση δίνεται στην ανάκτηση πληροφορίας και όχι δεδομένων

Page 3: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Ανάκτηση Δεδομένων– Ποια κείμενα περιέχουν ένα σύνολο keywords?– Καλά ορισμένη σημασιολογία (semantics)– Ελάχιστα λανθασμένη απάντηση συνιστά

αποτυχία! Ανάκτηση Πληροφορίας

– Το ερώτημα είναι ασαφές– Η σημασιολογία είναι συχνά ελλιπής– Μικρά λάθη είναι ανεκτά

Σύστημα ΑΠ:– Ερμηνεύει περιεχόμενα αντικειμένων

πληροφορίας– Παράγει μία κατάταξη που αναπαριστά

σχετικότητα– Έννοια σχετικότητας πιο σημαντική από

ακριβές ταίριασμα

Εισαγωγικά

Page 4: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Εισαγωγικά ΑΠ τα τελευταία 30 χρόνια:

• Ταξινόμηση (classification) και κατηγοριοποίηση (categorization) Κειμένων

• Συστήματα Βιβλιοθήκης και γλώσσες• Διεπαφή χρηστών και οπτικοποίηση

– Εντούτοις η περιοχή θεωρείτο στενού ενδιαφέροντος

– Με την έλευση του Διαδικτύου:• Παγκόσμια αποθήκη γνώσης • Ελεύθερη (χαμηλού κόστους)

προσπέλαση• Πολλά προβλήματα : ΑΠ προσφέρει

λύσεις

Page 5: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Πεδία Εφαρμογής

Web Search Engines Ψηφιακές Βιβλιοθήκες (Digital Libraries)Ανάκτηση Στοιχείων σε Peer to Peer ΠεριβάλλονταWeb ServicesΒιοπληροφορικήΣυστήματα Προσαρμοστικών Πολυμέσων/Υπερμέσων

Page 6: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Γειτονικές Περιοχές

Βάσεις ΔεδομένωνΣυστήματα ΠολυμέσωνΤεχνητή Νοημοσύνη /Επεξεργασία Φυσικής ΓλώσσαςΕξόρυξη Δεδομένων (Data Mining)Τεχνικές ΜοντελοποίησηςΔομές ΔεδομένωνΣυμπίεση Κειμένων Συμπίεση Δομών Δεδομένων

Page 7: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Ανάκτηση Πληροφορίας

Τα τελευταία 50-60 χρόνια ως επιστημονικό πεδίο

1945: Vannenar Bush’s “As we may think”1960+: Gerald Salton1978: Πρώτο ACM SIGIR συνέδριο1992: Πρώτο TREC συνέδριο

Page 8: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Unstructured (text) vs. structured (database) data in 1996

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Page 9: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Unstructured (text) vs. structured (database) data in 2006

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Page 10: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μέθοδοι Προσέγγισης

Computer Centered View (Ανάκτηση Πληροφορίας)- Κτίσιμο δομών δεικτοδότησης- Γρήγορη Επεξεργασία Ερωτημάτων- Ποιοτικοί αλγόριθμοι κατάταξης

Human Centered View (Βιβλιοθηκονομία και Επιστήμη Πληροφορήσης)

- Μελέτη βασικών αναγκών του χρήστη- Καταγραφή συμπεριφοράς χρήστη

Page 11: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Βασικές Έννοιες

Η Διεργασία του Χρήστη

– Ανάκτηση (Retrieval)– Φυλλομέτρηση (Browsing)– Συνδυασμός (Hidden web)

Α νάκτησ η

Φ υλλομ έτρησ η

ΒάσηΔεδομένων

Page 12: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Επεξεργασία Κειμένων Σε τι format είναι;

– pdf/word/excel/html? Σε τι γλώσσα είναι; Ποιο σύνολο χαρακτήρων χρησιμοποιεί;

Τα κείμενα μπορεί να περιέχουν όρους από διαφορετικές λέξεις

Τι είναι ένα μοναδιαίο κείμενο;– ένα αρχείο;– ένα e-mail;– ένα email με επισυνάψεις;– oμάδα αρχείων;

Page 13: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Λογική Όψη Κειμένων

Κ είμ ενο

Α να γνώ ρ ισηΔ ομ ή ς

τόνοι, κ ενάκ λπ .

κείμενο

κείμενο+

δομή

δομή

κ οινέςλέξε ις

πλήρεςκείμενο

ομ ά δ εςου σ ια στικ ώ ν

α π ομ ά κ ρ υ νσ ηκ α τα λή ξεω ν

α υ τόμ α τη ήχε ιρ οκ ίνη τη

δ ε ικ τοδ ότη ση

όροιδεικτοδό-

τησης

Η αναπαράσταση των κειμένων (λογική όψη) μπορεί να πάρει διάφορες μορφές σε μία συνέχεια αναπαραστάσεων

Page 14: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Διεργασία Ανάκτησης

Page 15: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Τυπικός Ορισμός Μοντέλων Α.Π.

Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(qi, dj)]

όπου:1)   - D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της συλλογής2)      - Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις καλούνται ερωτήματα3)      - F είναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους

- R(qi, dj) είναι μια συνάρτηση κατάταξης, η οποία συνδέει

έναν πραγματικό αριθμό με ένα ερώτημα qi Q και μια αναπαράσταση

κειμένου dj D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα

κείμενα πάντα με βάση το ερώτημα. q i.

Page 16: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μοντέλα Α.Π.Δι

αδικ

ασία

Χρή

στη

Α νά κ τη ση :A d -h ocΦ ιλτρ ά ρ ισμ α

Φ υ λλομ έτρ η ση

B ooleanV ector sp aceΠ ιθα νοτικ ό

Κ λα σσ ικά Μ οντέλα

Μ η επ ικ α λυ π τόμ ενες λ ίστεςΚ οντινοί κ όμ βοι

Δ ομ η μ ένα Μ οντέλα

Ε π ίπ εδ ηΚ α θοδ η γού μ ενη α π ό δ ομ ήΥ π ερ κ ε ιμ ένου

Φ υ λλομ έτρ η ση

Δ ίκτυα Ε ξαγ . Συμ περάσ μ ατοςΔ ίκτυα Π εποίθησ ης

Π ιθα νοτικ ό

Γ ενικευμ ένο V ector SpaceΛ ανθ. Σημ ασ . Δ ε ικτοδότησ ηΝ ευρω νικά Δ ίκτυα

Α λγεβρ ικ ό

Α σ αφ ές (Fuzzy)Ε πεκτεταμ ένο Boolean

Σ υ νολοθεω ρ η τικό

Page 17: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

17

Ανεστραμμένα Αρχεία

Inverted file : Structure for the efficient location of the occurrences of a term inside a text collection.

Structure : Set of inverted lists, that are stored inside a file in a disk.

Inverted list:

a list that contains the occurrences of a term inside the texts of a collection

Structure of an inverted list[3]

<1,2><2,1><4,3>

number of documents in the inverted list that contain the specific term

pair <d,fd,t> : the term appears in the document 1, twice

Depending on the requirements of the application an inverted list record can contain various kinds of information (e.g. number of the paragraph where the term appears etc.)

Page 18: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

18

[3]<d1,1><d2,1><d3,2>[3]<d1,1><d2,1><d3,2>[2]<d1,1><d2,1>[2]<d1,1><d3,2>[2]<d1,1><d2,1>

Inverted file

Ανεστραμμένα Αρχεία

t1 t2 t3

t4 t5

t2 t1

t3 t5

t4 t2

t1 t4

t2 t1

Algorithm for Inverted File creation

d1

d2

d3

t1

Mapping terms toInverted lists

t2

t3

t4

t5

Document Collection

Page 19: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Παγκόσμιος Ιστός

WWWWWW

url

καταλόγους(π.χ. Yahoo)

Μηχανές Αναζήτησης

τεράστιος, μη ομογενής

επικοινωνιακό κόστος

μεταβάλλεται ραγδαία

Page 20: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

• Τεράστιο μέγεθος– 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες– Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις

http://www.netcraft.com/Survey

Παγκόσμιος Ιστός

Page 21: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

• Γλώσσες/Κωδικοποιήσεις:– Εκατοντάδες γλώσσες, W3C κωδικοποιήσεις: 55 – Σελίδες : Αγγλικές 82%, Επόμενες 15: 13%

• Μεγάλος Ρυθμός Αλλαγής στις Σελίδες• Ανομοιογένεια στη μορφή:

– Εκατομμύρια άνθρωποι δημιουργούν σελίδες με τη δικιά τους γραμματική, λεξικό, στυλ

– Πολλές φορές οι σελίδες εξυπηρετούν εμπορικούς σκοπούς (marketing)

• Μεγάλος Ρυθμός Αλλαγής στις Σελίδες• Επανάληψη της ίδιας πληροφορίας

– Συντακτική επανάληψη (30-40% πανομοιότυπες)– Σημασιολογική ομοιότητα?

• Υψηλή Συνεκτικότητα– Κατά μέσο όρο ~8 σύνδεσμοι/σελίδα

• Πολύπλοκη τοπολογία γράφου– Bow-tie τοπολογία

Παγκόσμιος Ιστός

Page 22: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

• Συλλογή:Οι προσπελάσιμες σελίδες στον παγκόσμιο ιστό: στατικές + δυναμικές

• Στόχος: Ανάκτηση υψηλής ποιότητας αποτελεσμάτων που να είναι σχετικά με τις ανάγκες του χρήστη

• Ανάγκη– Πληροφοριακή – ενημέρωση για κάποια πληροφορία (~40%)

– Απλής διαπέρασης – μετακίνηση σε μία σελίδα (~25%)

– Transactional – πραγματοποίηση μίας συναλλαγής (web-mediated) (~35%)

• Προσπέλαση υπηρεσίας

• Κατέβασμα πληροφορίας

• Αγορά– Υβριδικό

• Εύρεση καλού hub• Διερευνητικό ψάξιμο “see what’s there”

Παγκόσμιος Ιστός

Page 23: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

– Στατικές σελίδες • κείμενο (html, xml), mp3, images, video, ...

– Δυναμικές σελίδες = παράγονται κατ’απαίτηση • data base access• “the invisible web”• proprietary content, etc.

Παγκόσμιος Ιστός

Page 24: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

• Κακώς σχηματισμένες ερωτήσεις– μικρές σε πλήθος όρων– ανακριβείς όροι– μη βέλτιστη σύνταξη (80% ερωτήματα χωρίς τελεστή)– χαμηλή προσπάθεια

• Μεγάλη απόκλιση σε– ανάγκες– επίπεδα αναμονής– γνώση– bandwidth

• Τυπική συμπεριφορά– Εστίαση στην πρώτη οθόνη, όχι feedback, ακολούθηση

υπερδεσμών

Παγκόσμιος Ιστός

Page 25: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

•Το σχετικό μέγεθος των μηχανών αναζήτησης – προβλήματα

• επέκταση κειμένων: π.χ. το Google δεικτοδοτεί σελίδες που δεν έχουν γίνει crawl δεικτοδοτώντας anchor-text.

• περιορισμός στα κείμενα: Μερικές μηχανές περιορίζουν το τι δεικτοδοτείται (πρώτες n λέξεις, μόνο σχετικές λέξεις κ.λ.π.)

•Η κάλυψη μίας μηχανής σε σχέση με κάποια άλλη διεργασία crawling.

Ποσότητες που μπορούν να μετρηθούν

Παγκόσμιος Ιστός

Page 26: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Τεχνικές Εκτίμησης Μεγέθους

• Ιδανική στρατηγική: παρήγαγε ένα τυχαίο URL και έλεγξε αν εμπεριέχεται στις διάφορες δομές δεικτοδότησης.

• Πρόβλημα: τυχαία URLs δεν βρίσκονται εύκολα

• Πάρε δείγμα URLs τυχαία από κάθε μηχανή– 20,000 τυχαία URLs από κάθε μηχανή

• Διατύπωσε random conjunctive query με <200 αποτελέσματα

• Επέλεξε ένα τυχαίοURL από τα κορυφαία 200 αποτελέσματα

• Έλεγξε αν είναι παρόντα σε άλλες μηχανές – Query with 8 rarest words. Look for URL match

• Υπολόγισε μέγεθος τομής

Page 27: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

• Choose random searches extracted from a local log or build “random searches” – Use only queries with small results sets. – Count normalized URLs in result sets.– Use ratio statistics

• Advantage:– Might be a good reflection of the human perception of

coverage

Τεχνικές Εκτίμησης Μεγέθους

Page 28: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

www.ibm.comwww.ibm.com……//~newbie/~newbie/

/…/…/leaf.htm/…/…/leaf.htm

Η Δομή του Παγκόσμιου Ιστού

Page 29: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

• Για τυχαίες σελίδες p1,p2:

– Pr[p1 να προσπελαύνεται από p2] ~ 1/4

• Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28

• Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων: ~16

• Μέση μη κατευθυνόμενη απόσταση: ~7

Η Δομή του Παγκόσμιου Ιστού

Page 30: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Power Laws - Γενικά

• Δύο ποσότητες x και y συνδέονται με έναν power law όταν

y x-c log y = -c*log x

y

x

log y

log x

Page 31: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Ένας γνωστός power law

• Κατανομή Zipf

y : συχνότητα λέξης σε κείμενο

x : o x-οστός πιο συχνός όρος

Power law για c=1

y 1/x

Page 32: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Power laws και στο Web?

• Broder et. al. 1999

x = #links που εισέρχονται σε σελίδα i

y = #σελίδων με x εισερχόμενα links

y x-2.09

Page 33: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Power laws και στο Web?

(συνέχεια)

x = #links που εξέρχονται από σελίδα i

y = #σελίδων με x εξερχόμενα links

y x-2.72

Page 34: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Χρησιμότητα Παρατήρησης

– Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web

– Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης

– Εκτέλεση προσομοιώσεων σε σχέση με το Web– Μοντελοποίηση του Web

Page 35: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μοντελοποίηση Γραφήματος του Web

• Kumar et. al. Stochastic models for the Web Graph, FOCS 2000

v

t+1

Οι πρώτοι t κόμβοι του Web

Page 36: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μοντελοποίηση Γραφήματος του Web

• Για τον t+1 φτιάξε d συνδέσμους d>1• Πως επιλέγεται ο ι-στος σύνδεσμος?

v

t+1

Πιθανότητα α μια τυχαία σελίδα

Πιθανότητα 1-α ο i-στός σύνδεσμος του v

Page 37: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μοντελοποίηση Γραφήματος του Web

• Όταν δημιουργείται μια σελίδα αυτή ανήκει σε ένα θέμα.

– Μας ενδιαφέρει να αντιγράψουμε τους συνδέσμους μίας άλλης σελίδας στο θέμα

– Ή να εισάγουμε νέες ιδέες

• Το μοντέλο ακολουθεί Power laws!

– To μέσο πλήθος των σελίδων με βαθμό d είναι:

)1/()2( d

Page 38: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Επεκτάσεις

• Εμπορικά πιο σημαντικές εφαρμογές:– Enterprise search – Peer-2-Peer (P2P) search

Page 39: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Peer-to-Peer Δίκτυα

• Όχι κεντρικός δεικτοδοτητής• Κάθε κόμβος στο διαδίκτυο κτίζει και διαχειρίζεται το

δικό του δείκτη

Παραδείγματα• Gnutella• Kazaa• Bearshare• Aimster• Grokster• Morpheus

Page 40: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μηχανές Αναζήτησης

• Πρώτη γενιά - χρήση μόνο “on page” δεδομένων κειμένου– Συχνότητα λέξεων, γλώσσα

• Δεύτερη γενιά -- χρήση off-page, web-specific δεδομένων– Link (ή connectivity) ανάλυση– Click-through δεδομένα (σε ποια αποτελέσματα γίνεται click on)– Anchor-text (πως οι άνθρωποι αναφέρονται σε δεδομένα)

• Τρίτη γενιά “καταγραφή ανάγκης πίσω από ερώτημα”– Σημασιολογική ανάλυση – σε τι αναφέρεται?– Εστίαση σε ανάγκες χρηστών και όχι ερωτήματα– Προσδιορισμός context– Βοήθεια στο χρήστη– Ολοκλήρωση ψαξίματος και ανάλυσης κειμένου

Page 41: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μηχανές Πρώτης Γενιάς

• Μοντέλο διανυσματικού χώρου και Επεκταμένο Boolean μοντέλο – Ταιριάσματα: exact, prefix, phrase,…– Τελεστές: AND, OR, AND NOT, NEAR, …– Πεδία: TITLE:, URL:, HOST:,…– Συνήθως ο τελεστής AND υλοποιείται πιο εύκολα, και

πιθανώς να είναι προτιμητέα ως η εκ των προτέρων επιλογή για μικρά ερωτήματα

• Διάταξη– TF παράγοντες: TF, άμεσα keywords, λέξεις σε τίτλους,

άμεση έμφαση (headers), κ.λ.π. – IDF παράγοντες: IDF, συνολικός αριθμός λέξεων στο

corpus, συχνότητα στο query log, συχνότητα στη γλώσσα

Page 42: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μηχανές Δεύτερης Γενιάς

• Κατάταξη - χρήση off-page, web-specific δεδομένων

- Link (ή connectivity) ανάλυση - Click-through δεδομένα (σε ποια αποτελέσματα οι άνθρωποι

εστιάζουν) - Anchor-text (πως οι άνθρωποι αναφέρονται σε μία σελίδα)

• Crawling- Αλγόριθμοι δημιουργίας του καλύτερου δυνατού corpus

Page 43: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μηχανές Τρίτης Γενιάς

•Query language determination and different ranking•Integration of Search and Text Analysis

•Context determination – spatial (user location/target location)– query stream (previous queries)– personal (user profile)

•Context use– Result restriction– Ranking modulation

Page 44: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Μηχανές Αναζήτησης

Page 45: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Διαπερνώντας το διαδίκτυο (Crawling)

• ποιες σελίδες πρέπει να προσπελαστούν ;

• τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; (refresh policy)

• πως ελαχιστοποιείται ο φόρτος ;

• πως η διαδικασία διαπέρασης γίνεται παράλληλα ;

Page 46: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

• Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά τη δομή δεικτοδότησης.

• Περιοδικός Crawler – επισκέπτεται τμήματα του παγκοσμίου ιστού και ενημερώνει υποσύνολο δομής δεικτοδότησης

• Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο Ιστό και αυξητικά μεταβάλλει τη δομή δεικτοδότησης.

• Εστιασμένος Crawler – επισκέπτεται σελίδες που σχετίζονται με ένα συγκεκριμένο θέμα.

Είδη Crawlers (Crawling)

Page 47: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας

Interest Driven

Page 48: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας

Interest Driven & Ομοιότητα Κειμένων

“A new approach to topic-specific web resource discovery” Chakrabarti et al. 8th WWW conference 1999

If Q is the user interest then:

Page 49: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας

Popularity Driven

Location Driven

Page 50: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

• Context Graph:– Context graph created for each seed document .– Root is the seed document.– Nodes at each level show documents with links to

documents at next higher level. – Updated during crawl itself .

• Approach:1. Construct context graph and classifiers using seed

documents as training data.2. Perform crawling using classifiers and context graph

created.

Context Graph Crawling

Page 51: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Context Graph Crawling

Page 52: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Crawling - Ανανέωση Σελίδων

• f (συχνότητα επισκεψιμότητας) =σταθερή

• f=F(λi)

Page 53: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Crawling - Ανανέωση Σελίδων

P1

P2

Page 54: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Crawling - Ανανέωση Σελίδων

“Synchronizing a database to improve freshness.”Cho, Molina. In Pro-ceedings of the International Conference on Management of Data, 2000.

Page 55: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Αποθήκευση – Page Repository

Page 56: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Αποθήκευση – Page Repository

• Κατανεμημένο και αυξομειώσιμο

• Φυσική Οργάνωση : αποδοτικό RPA και Streaming Access

Log Hash Hash-LogStreaming Access

+! -! +

RPA ~ +! ~Page Addition

+! -! ~

Page 57: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Αποθήκευση – Page Repository

• conflicts vs. freshness

… ……

• obsolete pages : μηχανισμός διαγραφής

Page 58: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Δημιουργία Ευρετηρίων – Indexing

Page 59: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Δημιουργία Ευρετηρίων – Indexing

text index

• inverted files • suffix arrays • signature files

structure (link) index

: link: site

utility index

• κατανεμημένο• συμπιεσμένο

Page 60: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Ranking and Link Analysis

O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία !

• PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google)

• HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever – IBM, πρόδρομος της Teoma).

Page 61: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

PageRank

• Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της.

www.upatras.gr#in_links=760

www.stanford.edu

#in_links=33600

www.upatras.gr

www.stanford.edu

Page 62: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

PageRank

strongly connected graph

Page 63: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

PageRank

• random surfer model• strongly connected assumption• problem: rank leak, rank sink

Page 64: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

PageRank

• random surfer model

Page 65: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Λεπτομέρειες Υπολογισμού (1)

• Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα nn πιθανοτικό πίνακα μεταβάσεων P.

• Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις.

• Για 1 i,j n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i.

• Μία Markov chain είναι εργοδική εάν– Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη– Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή

με μη μηδενική πιθανότητα.

Page 66: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Λεπτομέρειες Υπολογισμού (2)

• Για κάθε εργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution.

• Έστω a = (a1, … an) το row vector με τις steady-state πιθανότητες.

• Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP.

• Άρα a=aP, και συνεπώς– το a είναι το (αριστερό) ιδιοδιάνυσμα του P.– (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη

μεγαλύτερη ιδιοτιμή.)

Page 67: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Hypertext Induced Topic Search (HITS)

• Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q.

authority hub

Q=“greek university”

Authority : www.upatras.gr www.auth.gr

Hub: www.gunet.grUniversities Worldwide

http://geowww.uibk.ac.at/univ/world.html

Page 68: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Hypertext Induced Topic Search (HITS)

Απάντηση στο Q

RS: root set (~103)

S: focused subgraph (all the outgoing, a restricted number of the incoming)

max{d}

Page 69: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Hypertext Induced Topic Search (HITS)

Page 70: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Hypertext Induced Topic Search (HITS)

Page 71: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Hypertext Induced Topic Search (HITS)

Page 72: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Hypertext Induced Topic Search (HITS)

Πολλαπλά σύνολα • jaguar• randomized algorithms • abortion

Page 73: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Tag/position heuristics

• Αύξησε βάρη όρων – σε τίτλους – σε tags– Κοντά στην αρχή του κειμένου, στα κεφάλαια και

sections

Page 74: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Χρήσεις του Anchor Text

• Όταν δεικτοδοτείται μία σελίδα, να δεικτοδοτείται επίσης και το anchor text των υπερδεσμών που δείχνουν σε αυτή.

• Για να δίνονται κατάλληλα βάρη στον αλγόριθμο hubs/authorities.

• Το Anchor text συνήθως είναι ένα παράθυρο μεγέθους 6-8 λέξεων, γύρω από ένα link anchor.

yx

yaxh

)()(

xy

yhxa

)()( )(),()(

)(),()(

yhyxwxa

yayxwxh

xy

yx

Page 75: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Web sites, όχι σελίδες

• Οι σελίδες σε ένα site δίνουν πληροφορίας για παραλλαγές ίδιου θέματος

Page 76: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Web Mining Taxonomy

Page 77: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Web Content Mining

KeywordKeyword

Term AssociationTerm Association

Similarity SearchSimilarity Search

ClassificationClassification ClusteringClustering

Natural Language ProcessingNatural Language Processing

Page 78: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Web Usage Mining

OrderingOrdering DuplicatesDuplicates ConsecutivConsecutivee

MaximalMaximal SupportSupport

Association Association RulesRules

NN NN NN NN Freq(X)/Freq(X)/#transactions#transactions

EpisodesEpisodes YY NN NN NN Freq(X)/Freq(X)/#timewindows#timewindows

Sequential Sequential patternspatterns

YY NN NN YY Freq(X)/#customersFreq(X)/#customers

Forward Forward sequencessequences

YY NN YY YY Freq(X)/#forward Freq(X)/#forward sequencessequences

Maximal Maximal forward forward sequencessequences

YY YY YY YY Freq(X)/#clicksFreq(X)/#clicks

Page 79: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Βιβλιογραφία

R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999.

Christofer Manning, Pradhakar Raghavan, Hunrich Schutze, Introduction to Information Retrieval, Cambridge University Press, 2008.

(http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html) Ι. Witten, A. Moffat, T. Bell, Managing Gigabytes: Compressing and Indexing

Documents and Images, Morgan Kaufmann Publishers, 1999. G. Salton, M. McGill, An Introduction to Modern Information Retrieval, New York:

McGraw-Hill, 1983. Van Reijsbergen, Information Retrieval, London: Butterworths, 1979 Van Reijsbergen, The Geometry of Information Retrieval, Cambridge University

Press, 2005 W.B. Frakes, R. Baeza-Yates, Information Retrieval: Data Structures and

Algorithms, Prentice Hall, EngleWood Cliffs, NJ. USA 1992. Σημειώσεις : http://mmlab.ceid.upatras.gr/ir

Page 80: Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

B. Allen, Information Tasks: Towards a User-Centered Approach to Information Systems. Academic Press, San Diego, CA, 1996.

M. Attalah ed., “Algorithms and Theory of Computation Handbook” CRC Press 1999.

D. Gusfield, “Algorithms on Strings, Trees and Sequences”, Cambridge University Press, 1997.

V.S. Subrahmanian. “Principles of Multimedia Database Systems”, Morgan Kaufmann, 1998.

Ian H. Witten, Alistair Moffat, and Timothy C. Bell, Managing Gigabytes: “Compressing and Indexing Documents and Images”, Morgan Kaufmann, 1999.

S. Abiteboul, P. Buneman, D. Suciu, “Data on the Web: From Relations to Semistructured Data and XML”, Morgan Kaufmann, 1999