WRAPPER MAINTENANCE

40
WRAPPER MAINTENANCE WRAPPER MAINTENANCE Διπλωματική Εργασία Διπλωματική Εργασία Χαράλαμπος Ευτ. Χαράλαμπος Ευτ. Τσουρακάκης Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006 Ακαδημαϊκό Έτος:2005-2006

description

WRAPPER MAINTENANCE. Διπλωματική Εργασία Χαράλαμπος Ευτ. Τσουρακάκης Ακαδημαϊκό Έτος:2005-2006. ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ. Τι είναι wrapper, πώς παράγεται, ορισμός wrapper maintenance προβλήματος. Σύντομη παρουσίαση ορισμένων εργασιών σε wrapper verification και σε wrapper reinduction. - PowerPoint PPT Presentation

Transcript of WRAPPER MAINTENANCE

Page 1: WRAPPER MAINTENANCE

WRAPPER WRAPPER MAINTENANCEMAINTENANCE

Διπλωματική ΕργασίαΔιπλωματική Εργασία

Χαράλαμπος Ευτ. ΤσουρακάκηςΧαράλαμπος Ευτ. Τσουρακάκης

Ακαδημαϊκό Έτος:2005-2006Ακαδημαϊκό Έτος:2005-2006

Page 2: WRAPPER MAINTENANCE

ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ

1.1. Τι είναι Τι είναι wrapper,wrapper,πώς παράγεται, πώς παράγεται, ορισμός ορισμός wrapper maintenance wrapper maintenance προβλήματος.προβλήματος.

2.2. Σύντομη παρουσίαση ορισμένων Σύντομη παρουσίαση ορισμένων εργασιών σε εργασιών σε wrapper verification wrapper verification και σε και σε wrapper reinduction.wrapper reinduction.

3.3. Παρουσίαση της εργασίας μας: Ιδέα , Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα.αποτελέσματα.

4.4. Συμπεράσματα-μελλοντική εργασία.Συμπεράσματα-μελλοντική εργασία.

Page 3: WRAPPER MAINTENANCE

Το 80% των ιστοσελίδων περιέχουν δεδομένα τα Το 80% των ιστοσελίδων περιέχουν δεδομένα τα οποία προέρχονται από μία ΒΔ.οποία προέρχονται από μία ΒΔ.

Βάση Δεδομένων(Database)

Template

ΣΥΝΘΕΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ TEMPLATE

Web page

Page 4: WRAPPER MAINTENANCE

TTι είναι ο ι είναι ο web web wrapperwrapper??

Web wrapper Web wrapper είναι ένα πρόγραμμα το οποίο με είναι ένα πρόγραμμα το οποίο με βάση ένα σύνολο κανόνων εξάγει αυτόματα βάση ένα σύνολο κανόνων εξάγει αυτόματα πληροφορία από ιστοσελίδες και την πληροφορία από ιστοσελίδες και την αποθηκεύει σε μία δομημένη μορφή.αποθηκεύει σε μία δομημένη μορφή.

To To σύνολο των κανόνων βασίζεται στην σύνολο των κανόνων βασίζεται στην κανονικότητα που υπάρχει στην παρουσίαση κανονικότητα που υπάρχει στην παρουσίαση της πληροφορίας στον χρήστη (της πληροφορίας στον χρήστη (layoutlayout).).

Page 5: WRAPPER MAINTENANCE

Data Integration & wrappersData Integration & wrappers

Ιστοσελίδες(Web pages)

Σχεσιακή Βάση Δεδομένων(Relational Database)

Κείμενο(Text)

Mediator

Mediator Mediator

Query

WrapperWrapper

SQL

Page 6: WRAPPER MAINTENANCE

Τρόποι παραγωγής Τρόποι παραγωγής wrapperswrappers

1ος τρόπος1ος τρόπος

Πρόγραμμα σε κάποια γλώσσα.Πρόγραμμα σε κάποια γλώσσα.

Ασύμφορο…. Ασύμφορο….

2ος τρόπος2ος τρόπος

Wrapper Induction SystemWrapper Induction System Είσοδος:Σύνολο ιστοσελίδων με Είσοδος:Σύνολο ιστοσελίδων με παραδείγματα επιθυμητής πληροφορίας.παραδείγματα επιθυμητής πληροφορίας. Έξοδος: Έξοδος: wrapperwrapper

Page 7: WRAPPER MAINTENANCE

Wrapper MaintenanceWrapper Maintenance

Οι ιστοσελίδες αρκετά συχνά αλλάζουν Οι ιστοσελίδες αρκετά συχνά αλλάζουν layoutlayout, ακόμα και περιεχόμενο., ακόμα και περιεχόμενο.

Το σύνολο των κανόνων εξαγωγής του Το σύνολο των κανόνων εξαγωγής του wrapper wrapper παύει να εξάγει την επιθυμητή παύει να εξάγει την επιθυμητή πληροφορία.πληροφορία.

Wrapper Maintenance= Wrapper Maintenance=

Wrapper verification+ Wrapper reinductionWrapper verification+ Wrapper reinduction

Page 8: WRAPPER MAINTENANCE
Page 9: WRAPPER MAINTENANCE

ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ

1.1. Τι είναι Τι είναι wrapper,wrapper,πώς παράγεται, πώς παράγεται, ορισμός ορισμός wrapper maintenance wrapper maintenance προβλήματος.προβλήματος.

2.2. Σύντομη παρουσίαση ορισμένων Σύντομη παρουσίαση ορισμένων εργασιών σε εργασιών σε wrapper verification wrapper verification και σε και σε wrapper reinduction.wrapper reinduction.

3.3. Παρουσίαση της εργασίας μας: Ιδέα , Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα.αποτελέσματα.

4.4. Συμπεράσματα-μελλοντική εργασία.Συμπεράσματα-μελλοντική εργασία.

Page 10: WRAPPER MAINTENANCE

STRAWMANSTRAWMAN

query Q Web Site r(T1)

T1

query Q Web Site r(T2)

T2 r(T1)=r(T2) ή r(T1)!=r(T2)?

Page 11: WRAPPER MAINTENANCE

RAPTURERAPTURE

Πρώτη Πρώτη content based content based μέθοδοςμέθοδος [Kushmerick][Kushmerick]

Πυκνότητα Πυκνότητα HTML HTML χαρακτήρων χαρακτήρων = Τ.Μ που ακολουθεί την = Τ.Μ που ακολουθεί την κανονική κατανομήκανονική κατανομή

Για τις Για τις testing testing σελίδες σελίδες υπολογίζει με βάση τις υπολογίζει με βάση τις εκτιμήτριεςεκτιμήτριες μ1,σ1 τις μ1,σ1 τις πιθανότητες για κάθε πιθανότητες για κάθε γνώρισμα τα εξαγόμενα γνώρισμα τα εξαγόμενα δεδομένα ανά δεδομένα ανά attribute attribute να να παίρνουν τις τιμές τους.παίρνουν τις τιμές τους.

Testing probabilityTesting probability με βάση με βάση μ2,σ2μ2,σ2

Σύγκριση Σύγκριση testing probabilitytesting probability με με thresholdthreshold

Από την Από την verified verified πληροφορία πληροφορία υπολογίζει τις εκτιμήτριες υπολογίζει τις εκτιμήτριες μ1,σ1 καθώς και τις μ1,σ1 καθώς και τις πιθανότητες τα εξαγόμενα πιθανότητες τα εξαγόμενα δεδομένα για το κάθε δεδομένα για το κάθε attribute attribute να παίρνουν τις τιμές τους.να παίρνουν τις τιμές τους.

Verified probabilityVerified probability και και υπολογισμός μ2,σ2υπολογισμός μ2,σ2

Άλλα γνωρίσματα : Πυκνότητα γραμμάτων, Άλλα γνωρίσματα : Πυκνότητα γραμμάτων, πυκνότητα ψηφίων, πυκνότητα χαρακτήρων πυκνότητα ψηφίων, πυκνότητα χαρακτήρων στίξης,πλήθος στίξης,πλήθος tokenstokens,μήκος ,μήκος tokenstokens..

Page 12: WRAPPER MAINTENANCE

Wrapper Verification Wrapper Verification ((Lerman,Minton,KnoblockLerman,Minton,Knoblock))

Βελτίωση Βελτίωση RAPTURE RAPTURE αλγόριθμου.αλγόριθμου. DATAPROG DATAPROG αλγόριθμος εύρεσης αλγόριθμος εύρεσης patternspatterns

πληροφορίας.πληροφορίας. Στατιστικός έλεγχος Στατιστικός έλεγχος Pearson.Pearson. Για κάθε κοινό Για κάθε κοινό pattern pattern προσθέτει έναν όρο προσθέτει έναν όρο

της μορφής της μορφής N=N=##tuples training attribute, n=#tuples testing tuples training attribute, n=#tuples testing

attribute,attribute, ri=#tuples ri=#tuples που ακολουθούν το που ακολουθούν το pattern pipattern pi

2( / )i i

i

r nr N

r

Page 13: WRAPPER MAINTENANCE

WRAPPER REINDUCTIONWRAPPER REINDUCTION(Raposo, Pan, (Raposo, Pan, Viña, Álvarez Viña, Álvarez ))

Αποθήκευση αποτελεσμάτων Αποθήκευση αποτελεσμάτων queries queries κατά κατά τη διάρκεια της ορθής λειτουργίας του τη διάρκεια της ορθής λειτουργίας του wrapperwrapper σε ΒΔ σε ΒΔ..

Εξεύρεση παραδειγμάτων στις αλλαγμένες Εξεύρεση παραδειγμάτων στις αλλαγμένες ιστοσελίδες.ιστοσελίδες.

«Τροφοδότηση» «Τροφοδότηση» WI WI συστήματος με συστήματος με αλλαγμένες ιστοσελίδες και παραδείγματα.αλλαγμένες ιστοσελίδες και παραδείγματα.

Page 14: WRAPPER MAINTENANCE

ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ

1.1. Τι είναι Τι είναι wrapper,wrapper,πώς παράγεται, πώς παράγεται, ορισμός ορισμός wrapper maintenance wrapper maintenance προβλήματος.προβλήματος.

2.2. Σύντομη παρουσίαση ορισμένων Σύντομη παρουσίαση ορισμένων εργασιών σε εργασιών σε wrapper verification wrapper verification και σε και σε wrapper reinduction.wrapper reinduction.

3.3. Παρουσίαση της εργασίας μας: Ιδέα , Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα.αποτελέσματα.

4.4. Συμπεράσματα-μελλοντική εργασία.Συμπεράσματα-μελλοντική εργασία.

Page 15: WRAPPER MAINTENANCE

Γιατί δόθηκε έμφαση στο Γιατί δόθηκε έμφαση στο wrapper wrapper verificationverification??

Ένα καλό Ένα καλό reinduction reinduction σύστημα χωρίς ένα σύστημα χωρίς ένα καλό καλό verification verification σύστημα δεν αποδίδει σύστημα δεν αποδίδει καλά.καλά.

Η ανάγκη για αυτοματοποίηση τουΗ ανάγκη για αυτοματοποίηση του verification verification μέρους είναι μεγαλύτερη από μέρους είναι μεγαλύτερη από του του reinductionreinduction λόγω της ύπαρξηςλόγω της ύπαρξης WI WI systemssystems..

Page 16: WRAPPER MAINTENANCE

ARMAGEDDONARMAGEDDON

ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ VERIFICATION VERIFICATION modulemoduleContent based Content based σύστημα.σύστημα.Σύνθετος αλγόριθμος:εκμεταλλεύεται όσο Σύνθετος αλγόριθμος:εκμεταλλεύεται όσο

περισσότερο τη δομή την εξαγόμενης περισσότερο τη δομή την εξαγόμενης πληροφορίας.πληροφορίας.

Εύρωστο.Εύρωστο.Πολύ καλή απόδοση στο Πολύ καλή απόδοση στο verification taskverification task.. ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ REINDUCTION REINDUCTION modulemodule Απλή ιδέαΑπλή ιδέα Καλή απόδοση σε σελίδες με στατικό περιεχόμενο.Καλή απόδοση σε σελίδες με στατικό περιεχόμενο. Βοηθητικό εργαλείο για τον χρήστη.Βοηθητικό εργαλείο για τον χρήστη.

Page 17: WRAPPER MAINTENANCE

Verification SystemVerification System

Είσοδοι: Είσοδοι: Training attribute , Testing Attribute.Training attribute , Testing Attribute. ΙΔΕΑΙΔΕΑ:Έστω ότι η πληροφορία του :Έστω ότι η πληροφορία του testing attribute testing attribute

είναι η σωστή .είναι η σωστή . ΆραΆρα ίδια σημασιολογία με του ίδια σημασιολογία με του training attribute training attribute ΆραΆρα παρόμοια δομή και παρόμοια παρόμοια δομή και παρόμοια patterns patterns !!!!!!

ARMAGEDDONWrapper Verification

Module

Πληροφορία από Verifiedattribute

Πληροφορία από testing

attribute

Wrapper OK αν q<=Xαλλιώς

Wrapper problem

Page 18: WRAPPER MAINTENANCE

Στάδια Στάδια VerificationVerification αλγορίθμου αλγορίθμου

Wrapper VerificationModule 2b

Σύστημα ποινών

Wrapper VerificationModule 2a

στατιστική του Pearson

Wrapper VerificationModule 1

Κατασκευή διανυσμάτων

μεταπληροφορίας

Wrapper Verification Module

Page 19: WRAPPER MAINTENANCE

Κατασκευή Διανυσμάτων Κατασκευή Διανυσμάτων ΜεταπληροφορίαςΜεταπληροφορίας

<<ATTRATTR__ΝΑΜΕΝΑΜΕ,, kk,, NN ,, p1,k1,..,pN,kN,p1,k1,..,pN,kN,

digDen, digDen, upperDenupperDen ,,lowerDenlowerDen,, punctDenpunctDen,,averTokenLengthaverTokenLength,, averNumOfTokensPerLineaverNumOfTokensPerLine>>

ATTR_ΝΑΜΕ όνομα attribute k συνολικό πλήθος εγγραφών για το ATTR N πλήθος patterns pi pattern i ki πλήθος εγγραφών που ακολουθούν το pattern pi digDen: μέση πυκνότητα ψηφίων, upperDen: μέση πυκνότητα κεφαλαίων γραμμάτων, lowerDen: μέση πυκνότητα πεζών γραμμάτων, punctDen: μέση πυκνότητα χαρακτήρων στίξης, averTokenLength: μέσο μήκος λεκτικών μονάδων, averNumOfTokensPerTuple:μέσο πλήθος λεκτικών

μονάδων ανά εγγραφή.

Page 20: WRAPPER MAINTENANCE

Παράδειγμα Παράδειγμα διανύσματοςδιανύσματος

ΕίσοδοςΕίσοδος

12 Aiginitoy Street12 Aiginitoy Street

11 Antifylou Street11 Antifylou Street

42 Hrwwn Polytexneio42 Hrwwn Polytexneiouu

StreetStreet

25 Laodikeias Street25 Laodikeias Street

53 Papagou Avenue53 Papagou Avenue

ΔιάνυσμαΔιάνυσμα

<<address,5,1,address,5,1,

*INTEGER**INTEGER*

*CAPITALIZED**CAPITALIZED*

*CAPITALIZED*,5,*CAPITALIZED*,5,

0.101, 0.111, 0.101, 0.111,

0.707,0,5.6875,3.2>0.707,0,5.6875,3.2>

Page 21: WRAPPER MAINTENANCE

Μάθηση Μάθηση PatternsPatterns

Κατασκευή ιεραρχίας Κατασκευή ιεραρχίας token types.token types. Λεκτικός αναλυτής που απονέμει σε κάθε Λεκτικός αναλυτής που απονέμει σε κάθε

token token το πιο συγκεκριμένο τύπο που το πιο συγκεκριμένο τύπο που μπορεί να λάβει.μπορεί να λάβει.

CS123 ALPHANUM 12 INTEGER 12.3 DECIMAL DATABASE ALLUPPERCASE course ALLLOWERCASE ! PUNCT Alice CAPITALIZED TheBook ALPHABETIC

Page 22: WRAPPER MAINTENANCE

Μάθηση Μάθηση PatternsPatterns

Προσδιορισμός μήκους Προσδιορισμός μήκους starting patterns starting patterns με βάση το μέσο πλήθος λεκτικών με βάση το μέσο πλήθος λεκτικών μονάδων ανά εγγραφή.μονάδων ανά εγγραφή.

Null Hypothesis Testing.Null Hypothesis Testing. Κεντρικό οριακό θεώρημα.Κεντρικό οριακό θεώρημα. Ζ-Ζ-testtest

Page 23: WRAPPER MAINTENANCE

Πώς λειτουργεί? (1)Πώς λειτουργεί? (1)

Θέση 1: Ο τύπος Θέση 1: Ο τύπος CAPITALIZED CAPITALIZED δεν είναι δεν είναι στατιστικά σημαντικός (στατιστικά σημαντικός (null hypothesisnull hypothesis))..

Αν απορριφθεί η μηδενική υπόθεση:Αν απορριφθεί η μηδενική υπόθεση:

ROOT

CAPITALIZED

Page 24: WRAPPER MAINTENANCE

Πώς λειτουργεί? (2)Πώς λειτουργεί? (2) Θέση 2: Ο τύπος ΑΘέση 2: Ο τύπος ΑLPHANUMERIC LPHANUMERIC δεν είναι δεν είναι

στατιστικά σημαντικός μετά το τύποστατιστικά σημαντικός μετά το τύπο CAPITALIZEDCAPITALIZED((null hypothesisnull hypothesis))..

Αν απορριφθεί η μηδενική υπόθεση:Αν απορριφθεί η μηδενική υπόθεση:

ROOT

CAPITALIZED

ALPHA NUMERIC

Page 25: WRAPPER MAINTENANCE

Πώς λειτουργεί? (3)Πώς λειτουργεί? (3)

Παράγεται ένα Παράγεται ένα PATTERN treePATTERN tree.. βάθος=βάθος=f(f(μέσο πλήθοςμέσο πλήθος tokens tokens/εγγραφή/εγγραφή)). . Διάσχιση του δένδρου δίνει τα Διάσχιση του δένδρου δίνει τα starting starting

patterns!patterns!

Page 26: WRAPPER MAINTENANCE

Έλεγχος Έλεγχος Pearson Pearson (goodness of fit method)(goodness of fit method)

Training (ver) Training (ver) και και testing (test)testing (test) διανύσματα διανύσματα μεταπληροφορίας.μεταπληροφορίας.

Έλεγχος ομοιότητας διανυσμάτων.Έλεγχος ομοιότητας διανυσμάτων. Για Για digDendigDen((x1x1),..,),..,averNumOfTokensPerLine(x6)averNumOfTokensPerLine(x6)::

2i i

i

for i 1 to 6

(x (ver)-x (test)) q q+

x (ver)

freedomDegrees freedomDegrees+1

Page 27: WRAPPER MAINTENANCE

Σύστημα ποινώνΣύστημα ποινών

Αν Αν q<q<Χ όπου Χ=χ^2(Χ όπου Χ=χ^2(freedomDegrees-freedomDegrees-1,0.051,0.05) τότε το σύστημα εισέρχεται σε ένα ) τότε το σύστημα εισέρχεται σε ένα σύστημα ποινών.σύστημα ποινών.

ΠΟΙΝΗ γιατί ΠΟΙΝΗ γιατί q q αυξάνεται χωρίς να αυξάνεται χωρίς να αυξάνονται αντίστοιχα οι βαθμοί αυξάνονται αντίστοιχα οι βαθμοί ελευθερίας.ελευθερίας.

Σύνθετο σύστημαΣύνθετο σύστημα Ίδια σημασιολογία Ίδια σημασιολογία παρόμοια παρόμοια patternspatterns

Page 28: WRAPPER MAINTENANCE

Βασικές έννοιες του συστήματος Βασικές έννοιες του συστήματος ποινών (1)ποινών (1)

Ομάδες συσχετιζόμενων Ομάδες συσχετιζόμενων token types.token types. Ομάδα1={“*”,”Ομάδα1={“*”,”ALPHANUMALPHANUM”},”}, Ομάδα2={“Ομάδα2={“ALPHABETICALPHABETIC”,””,”ALLUPPERCASEALLUPPERCASE”,””,”ALLLOWERCASEALLLOWERCASE”,””,”CAPITACAPITA

LIZEDLIZED”,”*”}”,”*”} Ομάδα3={“Ομάδα3={“INTEGERINTEGER”,””,”DECIMALDECIMAL”,”*”}”,”*”}

Συσχετιζόμενα Συσχετιζόμενα patterns.patterns. Αν υπάρχει 1-1 αντιστοιχία μεταξύ των Αν υπάρχει 1-1 αντιστοιχία μεταξύ των token types token types σε τουλάχιστον ένα σε τουλάχιστον ένα

πλήθος θέσεων, το οποίο είναι συνάρτηση της πολυπλοκότητας του πλήθος θέσεων, το οποίο είναι συνάρτηση της πολυπλοκότητας του πλήθους πλήθους tokens tokens του μικρότερου του μικρότερου pattern.pattern.

Συσχετιζόμενα σύνολα Συσχετιζόμενα σύνολα patterns patterns P1={p11,..,p1m},P2={p21,P1={p11,..,p1m},P2={p21,...,p2n}..,p2n}.

Αν κάθε Αν κάθε pattern p1i pattern p1i είναι συσχετιζόμενο με κάποιο είναι συσχετιζόμενο με κάποιο p2j p2j και αντιστρόφως.και αντιστρόφως.

Page 29: WRAPPER MAINTENANCE

Βασικές έννοιες του συστήματος Βασικές έννοιες του συστήματος ποινών (2)ποινών (2)

Πλήθος εγγραφών στο Πλήθος εγγραφών στο training attribute training attribute που μας που μας επιτρέπουν να έχουμε αυξημένη πεποίθηση ότι επιτρέπουν να έχουμε αυξημένη πεποίθηση ότι έχουμε δει τα περισσότερα από τα έχουμε δει τα περισσότερα από τα patterns patterns κατά την κατά την εκπαίδευση.εκπαίδευση.

Διάκριση περιπτώσεων για τη σχέση των συνόλων Διάκριση περιπτώσεων για τη σχέση των συνόλων patternspatterns Pver & Ptest.Pver & Ptest.

Page 30: WRAPPER MAINTENANCE

Βασικές έννοιες του συστήματος Βασικές έννοιες του συστήματος ποινών (3)ποινών (3)

Άλλες παράμετροι που λαμβάνονται Άλλες παράμετροι που λαμβάνονται υπ’όψιν είναι:υπ’όψιν είναι:

Πληθικότητες Πληθικότητες Pver & PtestPver & Ptest & & PcommonPcommon Ποσοστό εγγραφών του Ποσοστό εγγραφών του Ptest Ptest που καλύπτονται που καλύπτονται

από τα κοινά από τα κοινά patterns.patterns.

Page 31: WRAPPER MAINTENANCE

Reinduction SystemReinduction System

Προσαρμοσμένο στην υλοποίηση του Προσαρμοσμένο στην υλοποίηση του STALKER STALKER που διαθέταμε (που διαθέταμε (single single και όχι και όχι multi slot extractormulti slot extractor).).

Brute force Brute force αλγόριθμοςαλγόριθμος αναζήτησης αναζήτησης παραδειγμάτων ορθής πληροφορίας στις παραδειγμάτων ορθής πληροφορίας στις αλλαγμένες ιστοσελίδες.αλλαγμένες ιστοσελίδες.

Έξοδος : Έξοδος : annotation files annotation files στο στο format format που που θέλει ο θέλει ο STALKER.STALKER.

Page 32: WRAPPER MAINTENANCE

Ενδεχόμενα λειτουργίας Ενδεχόμενα λειτουργίας verification verification συστήματοςσυστήματος

α = Το σύστημα συμπεραίνει ότι ο α = Το σύστημα συμπεραίνει ότι ο wrapper wrapper λειτουργεί σωστάλειτουργεί σωστά

b b == Στην πραγματικότητα ο Στην πραγματικότητα ο wrapper wrapper λειτουργεί σωστάλειτουργεί σωστά

4 ενδεχόμενα λειτουργία του συστήματος4 ενδεχόμενα λειτουργία του συστήματος

bb !b!b

αα TPTP FPFP

!α!α FNFN TNTN

Page 33: WRAPPER MAINTENANCE

Μετρικές αξιολόγησης Μετρικές αξιολόγησης Verification Verification συστήματοςσυστήματος

ac=accuracy=(TPac=accuracy=(TP++TN)TN)/(/(TPTP++FPFP++FNFN++TNTN)) up=unchanged precision= TPup=unchanged precision= TP/(/(TPTP++FPFP)) cp=changed precision= TNcp=changed precision= TN/(/(TNTN++FNFN)) ur=unchanged recall= TP/(TPur=unchanged recall= TP/(TP++FN)FN) cr=changed recall= TNcr=changed recall= TN/(/(TNTN++FPFP)) Fchanged=(2*cr*cp)/(cr+cp)Fchanged=(2*cr*cp)/(cr+cp) Funchanged=(2*ur*up)/(ur+up)Funchanged=(2*ur*up)/(ur+up)

Page 34: WRAPPER MAINTENANCE

RAPTURE DATASET RAPTURE DATASET

16 16 query-able web sites query-able web sites Ενδεικτικά αναφέρουμε :Ενδεικτικά αναφέρουμε : www.altavista.com, www.altavista.com, www.uk.lycos.de, www.uk.lycos.de, www.thriveonline.com ,www.thriveonline.com ,www.news.com,www.news.com,

www.usnews.comwww.usnews.com Από κάθε Από κάθε sitesite κάναμε εξαγωγή κάναμε εξαγωγήπληροφορίας από 1 έως και 8 πληροφορίας από 1 έως και 8 attributes.attributes.

Page 35: WRAPPER MAINTENANCE

WEB SITE WEB SITE επίπεδοεπίπεδοac=100%,up=100%, ac=100%,up=100%,

cp=100%,ur=100%, cp=100%,ur=100%, cr=100%,cr=100%,

Fchanged=100%Fchanged=100%

Funchanged=100%Funchanged=100%

ATTRIBUTE ATTRIBUTE επίπεδοεπίπεδοac=99.37%,up=100% ac=99.37%,up=100%

cp=96.55%,ur=99.23%, cp=96.55%,ur=99.23%, cr=100%,cr=100%,

Fchanged=99.82%Fchanged=99.82%

Funchanged=99.61%Funchanged=99.61%

bb !b!b

αα 2121 00

!α!α 00 77

bb !b!b

αα 129129 00

!α!α 11 2828

Page 36: WRAPPER MAINTENANCE

Αξιολόγηση Αξιολόγηση wrapper reinduction wrapper reinduction συστήματοςσυστήματος

Web siteWeb site AttributesAttributes Πόσα βρέθηκαν Πόσα βρέθηκαν σωστάσωστά

ΣχόλιαΣχόλια

AltavistaAltavista τίτλοςτίτλος

υπερσύνδεσμοςυπερσύνδεσμος

2/2 2/2 Ο.ΚΟ.Κ

WebcrawlerWebcrawler τίτλοςτίτλος

% σχετικότητα με % σχετικότητα με queryquery

0/20/2 Τίτλοι είχαν Τίτλοι είχαν αλλάξει,% αλλάξει,% δεν υπήρχεδεν υπήρχε

CinemachineCinemachine τίτλος ταινίαςτίτλος ταινίας 1/11/1 Ο.ΚΟ.Κ

LycosLycos τίτλοςτίτλος

υπερσύνδεσμοςυπερσύνδεσμος

% σχετικότητα με % σχετικότητα με queryquery

2/32/3 % δεν % δεν υπήρχευπήρχε

PeoplePeople yahooyahoo Internet domainInternet domain(Ι.(Ι.DD))

ΟνοματεπώνυμοΟνοματεπώνυμο

1/2 1/2 I.D I.D δεν δεν υπήρχευπήρχε

Page 37: WRAPPER MAINTENANCE

ΠαρατήρησηΠαρατήρηση

To reinduction To reinduction σύστημα μπορεί να σύστημα μπορεί να χρησιμοποιηθεί για να διευκολύνει το χρησιμοποιηθεί για να διευκολύνει το χρήστη να παράγει έναν σωστό χρήστη να παράγει έναν σωστό wrapper wrapper πολύ εύκολα…πολύ εύκολα…

Page 38: WRAPPER MAINTENANCE

ΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣΑΞΟΝΕΣ ΠΑΡΟΥΣΙΑΣΗΣ

1.1. Τι είναι Τι είναι wrapper,wrapper,πώς παράγεται, πώς παράγεται, ορισμός ορισμός wrapper maintenance wrapper maintenance προβλήματος.προβλήματος.

2.2. Σύντομη παρουσίαση ορισμένων Σύντομη παρουσίαση ορισμένων εργασιών σε εργασιών σε wrapper verification wrapper verification και σε και σε wrapper reinduction.wrapper reinduction.

3.3. Παρουσίαση της εργασίας μας: Ιδέα , Παρουσίαση της εργασίας μας: Ιδέα , αποτελέσματα.αποτελέσματα.

4.4. Συμπεράσματα-μελλοντική εργασία.Συμπεράσματα-μελλοντική εργασία.

Page 39: WRAPPER MAINTENANCE

ΣυμπεράσματαΣυμπεράσματα

Ανάπτυξη εύρωστου,Ανάπτυξη εύρωστου,content basedcontent based συστήματος για συστήματος για wrapper verificationwrapper verification..

Δεν βασίζεται καθόλου σε Δεν βασίζεται καθόλου σε HTML HTML πυκνότητες όπως τα προηγούμενα…πυκνότητες όπως τα προηγούμενα…

Έμφαση στη σημασιολογία.Έμφαση στη σημασιολογία. Παρατηρήθηκε ότι η ιδέα ότι τα ποσοστά Παρατηρήθηκε ότι η ιδέα ότι τα ποσοστά

των εγγραφών που ακολουθούν κάποιο των εγγραφών που ακολουθούν κάποιο κοινό κοινό pattern pattern να είναι ίδια στο να είναι ίδια στο verified &verified & στοστο training training attributeattribute!!

Page 40: WRAPPER MAINTENANCE

Μελλοντική εργασίαΜελλοντική εργασία

Εφαρμογή της μεθόδου σε άλλα Εφαρμογή της μεθόδου σε άλλα προβλήματα.προβλήματα.

Εκτενή πειράματα για αξιολόγηση Εκτενή πειράματα για αξιολόγηση wrapper wrapper verification verification συστήματος.συστήματος.

Ανάπτυξη συνθετότερου Ανάπτυξη συνθετότερου reinduction reinduction συστήματος.συστήματος.