Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές...

Post on 21-Jan-2016

47 views 0 download

description

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της. Εισαγωγικά. ΑΠ : αναπαράσταση , αποθήκευση , οργάνωση και προσπέλαση σε αντικείμενα πληροφορίας Επίκεντρο η πληροφοριακή ανάγκη του χρήστη Πληροφοριακή ανάγκη χρήστη : - PowerPoint PPT Presentation

Transcript of Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές...

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές

της

Εισαγωγικά

ΑΠ: αναπαράσταση, αποθήκευση, οργάνωση και προσπέλαση σε αντικείμενα πληροφορίας

Επίκεντρο η πληροφοριακή ανάγκη του χρήστη Πληροφοριακή ανάγκη χρήστη:– Εντόπισε όλα τα κείμενα με πληροφορίες

σχετικά με φοιτητές που (1) φοιτούν σε κάποια σχολή πληροφορικής, (2) συμμετέχουν σε κάποιο αθλητικό σύλλογο

– Έμφαση δίνεται στην ανάκτηση πληροφορίας και όχι δεδομένων

Ανάκτηση Δεδομένων– Ποια κείμενα περιέχουν ένα σύνολο keywords?– Καλά ορισμένη σημασιολογία (semantics)– Ελάχιστα λανθασμένη απάντηση συνιστά

αποτυχία! Ανάκτηση Πληροφορίας

– Το ερώτημα είναι ασαφές– Η σημασιολογία είναι συχνά ελλιπής– Μικρά λάθη είναι ανεκτά

Σύστημα ΑΠ:– Ερμηνεύει περιεχόμενα αντικειμένων

πληροφορίας– Παράγει μία κατάταξη που αναπαριστά

σχετικότητα– Έννοια σχετικότητας πιο σημαντική από

ακριβές ταίριασμα

Εισαγωγικά

Εισαγωγικά ΑΠ τα τελευταία 30 χρόνια:

• Ταξινόμηση (classification) και κατηγοριοποίηση (categorization) Κειμένων

• Συστήματα Βιβλιοθήκης και γλώσσες• Διεπαφή χρηστών και οπτικοποίηση

– Εντούτοις η περιοχή θεωρείτο στενού ενδιαφέροντος

– Με την έλευση του Διαδικτύου:• Παγκόσμια αποθήκη γνώσης • Ελεύθερη (χαμηλού κόστους)

προσπέλαση• Πολλά προβλήματα : ΑΠ προσφέρει

λύσεις

Πεδία Εφαρμογής

Web Search Engines Ψηφιακές Βιβλιοθήκες (Digital Libraries)Ανάκτηση Στοιχείων σε Peer to Peer ΠεριβάλλονταWeb ServicesΒιοπληροφορικήΣυστήματα Προσαρμοστικών Πολυμέσων/Υπερμέσων

Γειτονικές Περιοχές

Βάσεις ΔεδομένωνΣυστήματα ΠολυμέσωνΤεχνητή Νοημοσύνη /Επεξεργασία Φυσικής ΓλώσσαςΕξόρυξη Δεδομένων (Data Mining)Τεχνικές ΜοντελοποίησηςΔομές ΔεδομένωνΣυμπίεση Κειμένων Συμπίεση Δομών Δεδομένων

Ανάκτηση Πληροφορίας

Τα τελευταία 50-60 χρόνια ως επιστημονικό πεδίο

1945: Vannenar Bush’s “As we may think”1960+: Gerald Salton1978: Πρώτο ACM SIGIR συνέδριο1992: Πρώτο TREC συνέδριο

Unstructured (text) vs. structured (database) data in 1996

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Unstructured (text) vs. structured (database) data in 2006

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Μέθοδοι Προσέγγισης

Computer Centered View (Ανάκτηση Πληροφορίας)- Κτίσιμο δομών δεικτοδότησης- Γρήγορη Επεξεργασία Ερωτημάτων- Ποιοτικοί αλγόριθμοι κατάταξης

Human Centered View (Βιβλιοθηκονομία και Επιστήμη Πληροφορήσης)

- Μελέτη βασικών αναγκών του χρήστη- Καταγραφή συμπεριφοράς χρήστη

Βασικές Έννοιες

Η Διεργασία του Χρήστη

– Ανάκτηση (Retrieval)– Φυλλομέτρηση (Browsing)– Συνδυασμός (Hidden web)

Α νάκτησ η

Φ υλλομ έτρησ η

ΒάσηΔεδομένων

Επεξεργασία Κειμένων Σε τι format είναι;

– pdf/word/excel/html? Σε τι γλώσσα είναι; Ποιο σύνολο χαρακτήρων χρησιμοποιεί;

Τα κείμενα μπορεί να περιέχουν όρους από διαφορετικές λέξεις

Τι είναι ένα μοναδιαίο κείμενο;– ένα αρχείο;– ένα e-mail;– ένα email με επισυνάψεις;– oμάδα αρχείων;

Λογική Όψη Κειμένων

Κ είμ ενο

Α να γνώ ρ ισηΔ ομ ή ς

τόνοι, κ ενάκ λπ .

κείμενο

κείμενο+

δομή

δομή

κ οινέςλέξε ις

πλήρεςκείμενο

ομ ά δ εςου σ ια στικ ώ ν

α π ομ ά κ ρ υ νσ ηκ α τα λή ξεω ν

α υ τόμ α τη ήχε ιρ οκ ίνη τη

δ ε ικ τοδ ότη ση

όροιδεικτοδό-

τησης

Η αναπαράσταση των κειμένων (λογική όψη) μπορεί να πάρει διάφορες μορφές σε μία συνέχεια αναπαραστάσεων

Διεργασία Ανάκτησης

Τυπικός Ορισμός Μοντέλων Α.Π.

Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(qi, dj)]

όπου:1)   - D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της συλλογής2)      - Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις καλούνται ερωτήματα3)      - F είναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους

- R(qi, dj) είναι μια συνάρτηση κατάταξης, η οποία συνδέει

έναν πραγματικό αριθμό με ένα ερώτημα qi Q και μια αναπαράσταση

κειμένου dj D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα

κείμενα πάντα με βάση το ερώτημα. q i.

Μοντέλα Α.Π.Δι

αδικ

ασία

Χρή

στη

Α νά κ τη ση :A d -h ocΦ ιλτρ ά ρ ισμ α

Φ υ λλομ έτρ η ση

B ooleanV ector sp aceΠ ιθα νοτικ ό

Κ λα σσ ικά Μ οντέλα

Μ η επ ικ α λυ π τόμ ενες λ ίστεςΚ οντινοί κ όμ βοι

Δ ομ η μ ένα Μ οντέλα

Ε π ίπ εδ ηΚ α θοδ η γού μ ενη α π ό δ ομ ήΥ π ερ κ ε ιμ ένου

Φ υ λλομ έτρ η ση

Δ ίκτυα Ε ξαγ . Συμ περάσ μ ατοςΔ ίκτυα Π εποίθησ ης

Π ιθα νοτικ ό

Γ ενικευμ ένο V ector SpaceΛ ανθ. Σημ ασ . Δ ε ικτοδότησ ηΝ ευρω νικά Δ ίκτυα

Α λγεβρ ικ ό

Α σ αφ ές (Fuzzy)Ε πεκτεταμ ένο Boolean

Σ υ νολοθεω ρ η τικό

17

Ανεστραμμένα Αρχεία

Inverted file : Structure for the efficient location of the occurrences of a term inside a text collection.

Structure : Set of inverted lists, that are stored inside a file in a disk.

Inverted list:

a list that contains the occurrences of a term inside the texts of a collection

Structure of an inverted list[3]

<1,2><2,1><4,3>

number of documents in the inverted list that contain the specific term

pair <d,fd,t> : the term appears in the document 1, twice

Depending on the requirements of the application an inverted list record can contain various kinds of information (e.g. number of the paragraph where the term appears etc.)

18

[3]<d1,1><d2,1><d3,2>[3]<d1,1><d2,1><d3,2>[2]<d1,1><d2,1>[2]<d1,1><d3,2>[2]<d1,1><d2,1>

Inverted file

Ανεστραμμένα Αρχεία

t1 t2 t3

t4 t5

t2 t1

t3 t5

t4 t2

t1 t4

t2 t1

Algorithm for Inverted File creation

d1

d2

d3

t1

Mapping terms toInverted lists

t2

t3

t4

t5

Document Collection

Παγκόσμιος Ιστός

WWWWWW

url

καταλόγους(π.χ. Yahoo)

Μηχανές Αναζήτησης

τεράστιος, μη ομογενής

επικοινωνιακό κόστος

μεταβάλλεται ραγδαία

• Τεράστιο μέγεθος– 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες– Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις

http://www.netcraft.com/Survey

Παγκόσμιος Ιστός

• Γλώσσες/Κωδικοποιήσεις:– Εκατοντάδες γλώσσες, W3C κωδικοποιήσεις: 55 – Σελίδες : Αγγλικές 82%, Επόμενες 15: 13%

• Μεγάλος Ρυθμός Αλλαγής στις Σελίδες• Ανομοιογένεια στη μορφή:

– Εκατομμύρια άνθρωποι δημιουργούν σελίδες με τη δικιά τους γραμματική, λεξικό, στυλ

– Πολλές φορές οι σελίδες εξυπηρετούν εμπορικούς σκοπούς (marketing)

• Μεγάλος Ρυθμός Αλλαγής στις Σελίδες• Επανάληψη της ίδιας πληροφορίας

– Συντακτική επανάληψη (30-40% πανομοιότυπες)– Σημασιολογική ομοιότητα?

• Υψηλή Συνεκτικότητα– Κατά μέσο όρο ~8 σύνδεσμοι/σελίδα

• Πολύπλοκη τοπολογία γράφου– Bow-tie τοπολογία

Παγκόσμιος Ιστός

• Συλλογή:Οι προσπελάσιμες σελίδες στον παγκόσμιο ιστό: στατικές + δυναμικές

• Στόχος: Ανάκτηση υψηλής ποιότητας αποτελεσμάτων που να είναι σχετικά με τις ανάγκες του χρήστη

• Ανάγκη– Πληροφοριακή – ενημέρωση για κάποια πληροφορία (~40%)

– Απλής διαπέρασης – μετακίνηση σε μία σελίδα (~25%)

– Transactional – πραγματοποίηση μίας συναλλαγής (web-mediated) (~35%)

• Προσπέλαση υπηρεσίας

• Κατέβασμα πληροφορίας

• Αγορά– Υβριδικό

• Εύρεση καλού hub• Διερευνητικό ψάξιμο “see what’s there”

Παγκόσμιος Ιστός

– Στατικές σελίδες • κείμενο (html, xml), mp3, images, video, ...

– Δυναμικές σελίδες = παράγονται κατ’απαίτηση • data base access• “the invisible web”• proprietary content, etc.

Παγκόσμιος Ιστός

• Κακώς σχηματισμένες ερωτήσεις– μικρές σε πλήθος όρων– ανακριβείς όροι– μη βέλτιστη σύνταξη (80% ερωτήματα χωρίς τελεστή)– χαμηλή προσπάθεια

• Μεγάλη απόκλιση σε– ανάγκες– επίπεδα αναμονής– γνώση– bandwidth

• Τυπική συμπεριφορά– Εστίαση στην πρώτη οθόνη, όχι feedback, ακολούθηση

υπερδεσμών

Παγκόσμιος Ιστός

•Το σχετικό μέγεθος των μηχανών αναζήτησης – προβλήματα

• επέκταση κειμένων: π.χ. το Google δεικτοδοτεί σελίδες που δεν έχουν γίνει crawl δεικτοδοτώντας anchor-text.

• περιορισμός στα κείμενα: Μερικές μηχανές περιορίζουν το τι δεικτοδοτείται (πρώτες n λέξεις, μόνο σχετικές λέξεις κ.λ.π.)

•Η κάλυψη μίας μηχανής σε σχέση με κάποια άλλη διεργασία crawling.

Ποσότητες που μπορούν να μετρηθούν

Παγκόσμιος Ιστός

Τεχνικές Εκτίμησης Μεγέθους

• Ιδανική στρατηγική: παρήγαγε ένα τυχαίο URL και έλεγξε αν εμπεριέχεται στις διάφορες δομές δεικτοδότησης.

• Πρόβλημα: τυχαία URLs δεν βρίσκονται εύκολα

• Πάρε δείγμα URLs τυχαία από κάθε μηχανή– 20,000 τυχαία URLs από κάθε μηχανή

• Διατύπωσε random conjunctive query με <200 αποτελέσματα

• Επέλεξε ένα τυχαίοURL από τα κορυφαία 200 αποτελέσματα

• Έλεγξε αν είναι παρόντα σε άλλες μηχανές – Query with 8 rarest words. Look for URL match

• Υπολόγισε μέγεθος τομής

• Choose random searches extracted from a local log or build “random searches” – Use only queries with small results sets. – Count normalized URLs in result sets.– Use ratio statistics

• Advantage:– Might be a good reflection of the human perception of

coverage

Τεχνικές Εκτίμησης Μεγέθους

www.ibm.comwww.ibm.com……//~newbie/~newbie/

/…/…/leaf.htm/…/…/leaf.htm

Η Δομή του Παγκόσμιου Ιστού

• Για τυχαίες σελίδες p1,p2:

– Pr[p1 να προσπελαύνεται από p2] ~ 1/4

• Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28

• Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων: ~16

• Μέση μη κατευθυνόμενη απόσταση: ~7

Η Δομή του Παγκόσμιου Ιστού

Power Laws - Γενικά

• Δύο ποσότητες x και y συνδέονται με έναν power law όταν

y x-c log y = -c*log x

y

x

log y

log x

Ένας γνωστός power law

• Κατανομή Zipf

y : συχνότητα λέξης σε κείμενο

x : o x-οστός πιο συχνός όρος

Power law για c=1

y 1/x

Power laws και στο Web?

• Broder et. al. 1999

x = #links που εισέρχονται σε σελίδα i

y = #σελίδων με x εισερχόμενα links

y x-2.09

Power laws και στο Web?

(συνέχεια)

x = #links που εξέρχονται από σελίδα i

y = #σελίδων με x εξερχόμενα links

y x-2.72

Χρησιμότητα Παρατήρησης

– Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web

– Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης

– Εκτέλεση προσομοιώσεων σε σχέση με το Web– Μοντελοποίηση του Web

Μοντελοποίηση Γραφήματος του Web

• Kumar et. al. Stochastic models for the Web Graph, FOCS 2000

v

t+1

Οι πρώτοι t κόμβοι του Web

Μοντελοποίηση Γραφήματος του Web

• Για τον t+1 φτιάξε d συνδέσμους d>1• Πως επιλέγεται ο ι-στος σύνδεσμος?

v

t+1

Πιθανότητα α μια τυχαία σελίδα

Πιθανότητα 1-α ο i-στός σύνδεσμος του v

Μοντελοποίηση Γραφήματος του Web

• Όταν δημιουργείται μια σελίδα αυτή ανήκει σε ένα θέμα.

– Μας ενδιαφέρει να αντιγράψουμε τους συνδέσμους μίας άλλης σελίδας στο θέμα

– Ή να εισάγουμε νέες ιδέες

• Το μοντέλο ακολουθεί Power laws!

– To μέσο πλήθος των σελίδων με βαθμό d είναι:

)1/()2( d

Επεκτάσεις

• Εμπορικά πιο σημαντικές εφαρμογές:– Enterprise search – Peer-2-Peer (P2P) search

Peer-to-Peer Δίκτυα

• Όχι κεντρικός δεικτοδοτητής• Κάθε κόμβος στο διαδίκτυο κτίζει και διαχειρίζεται το

δικό του δείκτη

Παραδείγματα• Gnutella• Kazaa• Bearshare• Aimster• Grokster• Morpheus

Μηχανές Αναζήτησης

• Πρώτη γενιά - χρήση μόνο “on page” δεδομένων κειμένου– Συχνότητα λέξεων, γλώσσα

• Δεύτερη γενιά -- χρήση off-page, web-specific δεδομένων– Link (ή connectivity) ανάλυση– Click-through δεδομένα (σε ποια αποτελέσματα γίνεται click on)– Anchor-text (πως οι άνθρωποι αναφέρονται σε δεδομένα)

• Τρίτη γενιά “καταγραφή ανάγκης πίσω από ερώτημα”– Σημασιολογική ανάλυση – σε τι αναφέρεται?– Εστίαση σε ανάγκες χρηστών και όχι ερωτήματα– Προσδιορισμός context– Βοήθεια στο χρήστη– Ολοκλήρωση ψαξίματος και ανάλυσης κειμένου

Μηχανές Πρώτης Γενιάς

• Μοντέλο διανυσματικού χώρου και Επεκταμένο Boolean μοντέλο – Ταιριάσματα: exact, prefix, phrase,…– Τελεστές: AND, OR, AND NOT, NEAR, …– Πεδία: TITLE:, URL:, HOST:,…– Συνήθως ο τελεστής AND υλοποιείται πιο εύκολα, και

πιθανώς να είναι προτιμητέα ως η εκ των προτέρων επιλογή για μικρά ερωτήματα

• Διάταξη– TF παράγοντες: TF, άμεσα keywords, λέξεις σε τίτλους,

άμεση έμφαση (headers), κ.λ.π. – IDF παράγοντες: IDF, συνολικός αριθμός λέξεων στο

corpus, συχνότητα στο query log, συχνότητα στη γλώσσα

Μηχανές Δεύτερης Γενιάς

• Κατάταξη - χρήση off-page, web-specific δεδομένων

- Link (ή connectivity) ανάλυση - Click-through δεδομένα (σε ποια αποτελέσματα οι άνθρωποι

εστιάζουν) - Anchor-text (πως οι άνθρωποι αναφέρονται σε μία σελίδα)

• Crawling- Αλγόριθμοι δημιουργίας του καλύτερου δυνατού corpus

Μηχανές Τρίτης Γενιάς

•Query language determination and different ranking•Integration of Search and Text Analysis

•Context determination – spatial (user location/target location)– query stream (previous queries)– personal (user profile)

•Context use– Result restriction– Ranking modulation

Μηχανές Αναζήτησης

Διαπερνώντας το διαδίκτυο (Crawling)

• ποιες σελίδες πρέπει να προσπελαστούν ;

• τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; (refresh policy)

• πως ελαχιστοποιείται ο φόρτος ;

• πως η διαδικασία διαπέρασης γίνεται παράλληλα ;

• Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά τη δομή δεικτοδότησης.

• Περιοδικός Crawler – επισκέπτεται τμήματα του παγκοσμίου ιστού και ενημερώνει υποσύνολο δομής δεικτοδότησης

• Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο Ιστό και αυξητικά μεταβάλλει τη δομή δεικτοδότησης.

• Εστιασμένος Crawler – επισκέπτεται σελίδες που σχετίζονται με ένα συγκεκριμένο θέμα.

Είδη Crawlers (Crawling)

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας

Interest Driven

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας

Interest Driven & Ομοιότητα Κειμένων

“A new approach to topic-specific web resource discovery” Chakrabarti et al. 8th WWW conference 1999

If Q is the user interest then:

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας

Popularity Driven

Location Driven

• Context Graph:– Context graph created for each seed document .– Root is the seed document.– Nodes at each level show documents with links to

documents at next higher level. – Updated during crawl itself .

• Approach:1. Construct context graph and classifiers using seed

documents as training data.2. Perform crawling using classifiers and context graph

created.

Context Graph Crawling

Context Graph Crawling

Crawling - Ανανέωση Σελίδων

• f (συχνότητα επισκεψιμότητας) =σταθερή

• f=F(λi)

Crawling - Ανανέωση Σελίδων

P1

P2

Crawling - Ανανέωση Σελίδων

“Synchronizing a database to improve freshness.”Cho, Molina. In Pro-ceedings of the International Conference on Management of Data, 2000.

Αποθήκευση – Page Repository

Αποθήκευση – Page Repository

• Κατανεμημένο και αυξομειώσιμο

• Φυσική Οργάνωση : αποδοτικό RPA και Streaming Access

Log Hash Hash-LogStreaming Access

+! -! +

RPA ~ +! ~Page Addition

+! -! ~

Αποθήκευση – Page Repository

• conflicts vs. freshness

… ……

• obsolete pages : μηχανισμός διαγραφής

Δημιουργία Ευρετηρίων – Indexing

Δημιουργία Ευρετηρίων – Indexing

text index

• inverted files • suffix arrays • signature files

structure (link) index

: link: site

utility index

• κατανεμημένο• συμπιεσμένο

Ranking and Link Analysis

O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία !

• PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google)

• HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever – IBM, πρόδρομος της Teoma).

PageRank

• Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της.

www.upatras.gr#in_links=760

www.stanford.edu

#in_links=33600

www.upatras.gr

www.stanford.edu

PageRank

strongly connected graph

PageRank

• random surfer model• strongly connected assumption• problem: rank leak, rank sink

PageRank

• random surfer model

Λεπτομέρειες Υπολογισμού (1)

• Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα nn πιθανοτικό πίνακα μεταβάσεων P.

• Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις.

• Για 1 i,j n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i.

• Μία Markov chain είναι εργοδική εάν– Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη– Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή

με μη μηδενική πιθανότητα.

Λεπτομέρειες Υπολογισμού (2)

• Για κάθε εργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution.

• Έστω a = (a1, … an) το row vector με τις steady-state πιθανότητες.

• Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP.

• Άρα a=aP, και συνεπώς– το a είναι το (αριστερό) ιδιοδιάνυσμα του P.– (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη

μεγαλύτερη ιδιοτιμή.)

Hypertext Induced Topic Search (HITS)

• Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q.

authority hub

Q=“greek university”

Authority : www.upatras.gr www.auth.gr

Hub: www.gunet.grUniversities Worldwide

http://geowww.uibk.ac.at/univ/world.html

Hypertext Induced Topic Search (HITS)

Απάντηση στο Q

RS: root set (~103)

S: focused subgraph (all the outgoing, a restricted number of the incoming)

max{d}

Hypertext Induced Topic Search (HITS)

Hypertext Induced Topic Search (HITS)

Hypertext Induced Topic Search (HITS)

Hypertext Induced Topic Search (HITS)

Πολλαπλά σύνολα • jaguar• randomized algorithms • abortion

Tag/position heuristics

• Αύξησε βάρη όρων – σε τίτλους – σε tags– Κοντά στην αρχή του κειμένου, στα κεφάλαια και

sections

Χρήσεις του Anchor Text

• Όταν δεικτοδοτείται μία σελίδα, να δεικτοδοτείται επίσης και το anchor text των υπερδεσμών που δείχνουν σε αυτή.

• Για να δίνονται κατάλληλα βάρη στον αλγόριθμο hubs/authorities.

• Το Anchor text συνήθως είναι ένα παράθυρο μεγέθους 6-8 λέξεων, γύρω από ένα link anchor.

yx

yaxh

)()(

xy

yhxa

)()( )(),()(

)(),()(

yhyxwxa

yayxwxh

xy

yx

Web sites, όχι σελίδες

• Οι σελίδες σε ένα site δίνουν πληροφορίας για παραλλαγές ίδιου θέματος

Web Mining Taxonomy

Web Content Mining

KeywordKeyword

Term AssociationTerm Association

Similarity SearchSimilarity Search

ClassificationClassification ClusteringClustering

Natural Language ProcessingNatural Language Processing

Web Usage Mining

OrderingOrdering DuplicatesDuplicates ConsecutivConsecutivee

MaximalMaximal SupportSupport

Association Association RulesRules

NN NN NN NN Freq(X)/Freq(X)/#transactions#transactions

EpisodesEpisodes YY NN NN NN Freq(X)/Freq(X)/#timewindows#timewindows

Sequential Sequential patternspatterns

YY NN NN YY Freq(X)/#customersFreq(X)/#customers

Forward Forward sequencessequences

YY NN YY YY Freq(X)/#forward Freq(X)/#forward sequencessequences

Maximal Maximal forward forward sequencessequences

YY YY YY YY Freq(X)/#clicksFreq(X)/#clicks

Βιβλιογραφία

R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999.

Christofer Manning, Pradhakar Raghavan, Hunrich Schutze, Introduction to Information Retrieval, Cambridge University Press, 2008.

(http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html) Ι. Witten, A. Moffat, T. Bell, Managing Gigabytes: Compressing and Indexing

Documents and Images, Morgan Kaufmann Publishers, 1999. G. Salton, M. McGill, An Introduction to Modern Information Retrieval, New York:

McGraw-Hill, 1983. Van Reijsbergen, Information Retrieval, London: Butterworths, 1979 Van Reijsbergen, The Geometry of Information Retrieval, Cambridge University

Press, 2005 W.B. Frakes, R. Baeza-Yates, Information Retrieval: Data Structures and

Algorithms, Prentice Hall, EngleWood Cliffs, NJ. USA 1992. Σημειώσεις : http://mmlab.ceid.upatras.gr/ir

B. Allen, Information Tasks: Towards a User-Centered Approach to Information Systems. Academic Press, San Diego, CA, 1996.

M. Attalah ed., “Algorithms and Theory of Computation Handbook” CRC Press 1999.

D. Gusfield, “Algorithms on Strings, Trees and Sequences”, Cambridge University Press, 1997.

V.S. Subrahmanian. “Principles of Multimedia Database Systems”, Morgan Kaufmann, 1998.

Ian H. Witten, Alistair Moffat, and Timothy C. Bell, Managing Gigabytes: “Compressing and Indexing Documents and Images”, Morgan Kaufmann, 1999.

S. Abiteboul, P. Buneman, D. Suciu, “Data on the Web: From Relations to Semistructured Data and XML”, Morgan Kaufmann, 1999