Βάσεις Διαδικτύου

of 29/29
Βάσεις Δεδομένων ΙΙ 2004-2005 Ευαγγελία Πιτουρά 1 Βάσεις Διαδικτύου
  • date post

    02-Jan-2016
  • Category

    Documents

  • view

    24
  • download

    2

Embed Size (px)

description

Βάσεις Διαδικτύου. Θέματα. Εισαγωγή στην XML Ευρετήρια για την Ανάκτηση Κειμένων Ο αλγόριθμος HITS. Τι είναι η XML. Mark-up Γλώσσες (Γλώσσες Σημειοθέτησης) HTML ετικέτες (tags) για την αναπαράσταση της δομής των εγγράφων - PowerPoint PPT Presentation

Transcript of Βάσεις Διαδικτύου

Χωρς ττλο διαφνειας*
*
Ο αλγριθμος HITS
*
HTML ετικτες (tags) για την αναπαρσταση της δομς των εγγρφων
XML (Extensible Markup Language) δε διαθτει μια συγκεκριμνη συλλογ ετικετν με σταθερ και καθορισμνη σημασα
Αντθετα, ο χρστης μπορε να ορσει δικς του ετικτες – που συνθως αφορον τη σημασα του περιεχομνου
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
Ετικτα αρχς (<elm>) και ετικτα τλους (</elm>)
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
<AUTHOR>
att = “value”
*
<!DOCTYPE BOOKLIST SYSTEM “emp.dtd”>
<AUTHOR>
<PUBLISHED>1980</PUBLISHED>
<PUBLISHED>1981</PUBLISHED>
*
<PUBLISHED>1980</PUBLISHED>
*
XML DTD
Μια δλωση DTD εναι να σνολο απ καννες που επιτρπουν στο χρστη να ορζει το δικ του σνολο στοιχεων και γνωρισμτων
γκυρο γγραφο ταν συνοδεεται απ μια αντστοιχη DTD και το γγραφο εναι δομημνο σμφωνα με τους καννες που ορζει η DTD
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
<!ELEMENT AUTHOR (FISRTNAME, LASTNAME)>
]>
*
]>
*
<!ELEMENT AUTHOR (FISRTNAME, LASTNAME)>
]>
*
<!ELEMENT AUTHOR (FISRTNAME, LASTNAME)>
]>
*
<!ELEMENT AUTHOR (FISRTNAME, LASTNAME)>
]>
*
*
<!ELEMENT AUTHOR (FISRTNAME, LASTNAME)>
]>
attType: τποι απαρθμησης τποι συμβολοσειρς
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
Τεχνικς
http://www.w3.org/XML/
http://www.w3.org/XML/Query
*
Ο αλγριθμος HITS
*
Αναζτηση με μια λξη κλειδ (keyword queries)
Ατημα Boole
Ατημα Διαβθμισης (Ranking)
*
Παρδειγμα
*
Ευρετριο Λεξιλογου:
Για τον ταχτερο εντοπισμ της λστας για κθε ρο: Το σνολο των ρων μπορε να οργανωθε με τη χρση μιας δομς ευρετηρου (π.χ. Β+-δντρο)
Παρδειγμα
*
Αρχεο Υπογραφν
Υπογραφ εγγρφου (File Signature) Μια εγγραφ ευρετηρου για κθε γγραφο στη βση δεδομνων
Σταθερ μκος bits – ερος υπογραφς
Υ1 ταιριζει με Υ2, Υ1 τουλχιστον τα 1 που χει και η Υ2
Εσφαλμνη διγνωση (false positive)
*
Διαμερζουμε να αρχεο υπογραφν σε να σνολο κατακρυφων δυαδικν στηλν
Για κ σσους ανκτηση κ-στηλν
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
Αναζητσεις λξεων κλειδιν στο διαδκτυο: Ο αλγριθμος HITS
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
Αυθεντικ
Μια σελδα που εναι αυθεντα σε να θμα και αναγνωρζεται ως ττοια απ λλες σελδες (δηλαδ, υπρχουν πολλο σνδεσμοι σε αυτν)
Κομβικο
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
Κμβοι: ιστοσελδες
Ακμ απ Α στον Β: η ιστοσελδα Α χει ναν υπερ-σνδεσμο στην ιστοσελδα Β
Ο αλγριθμος σε 2 φσεις:
Φση Ι: (δειγματοληπτικ στδιο) να σνολο σελδων που αποτελε το βασικ σνολο
Φση ΙΙ: (επαναληπτικ στδιο) επεξεργασα του βασικο συνλου για τον εντοπισμ καλν αυθεντικν και κομβικν ιστοσελδων
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
Φση Ι: Υπολογισμς βασικο συνλου
1. Υπολογισμς αρχικο συνλου: σνολο-ρζα
Κλασικο μθοδοι: πχ ανκτηση λων των σελδων που περιχουν τις λξεις κλειδι
(περιμνουμε τι θα περιχει (τουλχιστον) αναφορς προς σχετικς σελδες)
2. Σελδες-σνδεσμοι: σελδα που ετε συμπεριλαμβνει σνδεσμο που να αναφρεται στο σνολο ρζα ετε το σνολο ρζα περιχει σνδεσμο που αναφρεται σε αυτν
Βασικ Σνολο: διερυνση του συνλου-ρζα στε να περιλαμβνει και τις σελδες συνδσμους – Βασικς ιστοσελδες
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
Κθε βασικ σελδα p δο τιμς:
hp - Συντελεστς Κομβικο Ρλου (πολλος δεκτες σε αυθεντικς)
ap - Συντελεστς Αυθεντικτητας (πολλο δεκτες απ κομβικς σε αυτν)
Αρχικοποηση, p, hp = 1 και αp = 1
Επαναληπτικ, αυξνεται
hp = Σ αq
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
στω το βασικ σνολο σελδων {1, 2, ..., n}
Πνακας Γειτνασης (adjacency matrix) B: n x n
B[i, j] = 1 αν η σελδα i περιχει σνδεσμο που δεχνει στη σελδα j
στω h = <h1, h2, …, hn> το δινυσμα συντελεστν κομβικν ρλων
και α = <α1, α2, ..., αn> το δινυσμα συντελεστν αυθεντικτητας
Βσεις Δεδομνων ΙΙ 2004-2005 Ευαγγελα Πιτουρ
*
1η επανληψη
h = B BΤ h = (B BΤ) h a = BT B a = (BT B) a
2η επανληψη
h = (B BΤ)2 h a = (BT B)2 a