Μετρικές Εκτίμησης Απόδοσης

Μετρικές Εκτίμησης Απόδοσης

•Βασική πηγη το βιβλίο R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/)•Βασική πηγη το βιβλίο R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/)

Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/)

http://mir2ed.org/

http://mir2ed.org/

http://mir2ed.org/

Κλασσικές Μετρικές (Εκτίμηση Απόδοσης)

Χωρικές/χρονικές πολυπλοκότητες δομών δεικτοδότησης

Επικοινωνία με το Λειτουργικό Σύστημα

Καθυστερήσεις στους διαύλους επικοινωνίας

Επιβαρύνσεις από ύπαρξη πολλών επιπέδων λογισμικού

Ειδικές Μετρικές(Εκτίμηση Απόδοσης Ανάκτησης)

Συλλογή Κειμένων Αναφοράς συλλογή κειμένων συλλογή προτύπων πληροφοριακών αναγκών Q συλλογή σχετικών κειμένων για κάθε q Q

Κατάλληλη μετρική απόδοσης ανάκτησης

Κείμενα Αναφοράς

TREC (TREC evaluation collections: WSJ (Wall Street Journal, AP (Associated Press), ZIFF, FR, DOE, PATents)

GOV2 (25 million page GOV2 web page collections – terabyte track)

NTCIR (NII Test Collections for IR systems, focusing on East Asian, cross language information retrieval)

CLEF (Cross Language Evaluation Forum: http://www.clef-campaign.org)

Reuters (Reuters-21578 and Reuters Corpus Volume 1 collection) Cranfield (1398 abstract of aerodynamics journal articles, 225

queries) CACM collection ISI (Institute of Scientific Information) collection Newsgroups

http://www.clef-campaign.org/

Ανάκληση (Recall) και Ακρίβεια (Precision)

Ανάκληση =

Ακρίβεια=

Έστω Ι μία πρότυπη πληροφοριακή ανάγκη και R το σύνολο των σχετικών της κειμένων. Υποθέστε ότι μία δοσμένη στρατηγική ανάκτησης παράγει ένα σύνολο κειμένων απάντησης Α. Έστω Rα το σύνολο των κειμένων που είναι κοινά στα σύνολα R και A.

||

||

R

Ra

||

||

A

Ra

Σχέση Ακρίβειας/Ανάκλησης

D

R ARα

Σχέση Ακρίβειας/Ανάκλησης

P

R0 1

1

Σχεδίαση Διαγράμματος

1. d7 6. d5 11. d4

2. d2 7. d28 12. d40

3. d3 8. d12 13. d10

4. d6 9. d22 14. d36

5. d8 10. d13 15. d1

Έστω ερώτημα q το οποίο ανήκει στη συλλογή των προτύπων πληροφοριακών αναγκών και έστω Rq το σύνολο των σχετικών κειμένων για το ερώτημα q όπως έχει καθοριστεί από ειδικούς. Για παράδειγμα ας υποθέσουμε ότι το σύνολο Rq περιέχει τα ακόλουθα κείμενα Rq={d1, d3, d5,d7, d9,d13, d21, d41, d43, d45}.

Σχεδίαση Διαγράμματος

Θεωρώντας ότι ο αριθμός των επιστρεφόμενων κειμένων είναι 30, σχεδιάστε τα γραφήματα ανάκλησης ακρίβειας, για τα ακόλουθα ερωτήματα (δίνονται ο αριθμός των σχετικών κειμένων και η θέση τους στο αποτέλεσμα) :

Μηχανή1,Αριθμός: 10, Θέση: 1, 5, 7, 8, 9, 13, 17, 26, 27, 28

Μηχανή2.Αριθμός: 10, Θέση: 2, 3, 4, 5, 7, 10, 11, 12, 16, 27.

Με βάση τα δύο προκύπτοντα γραφήματα συγκρίνετε μεταξύ τους τις δύο μηχανές.

Σχεδίαση ΔιαγράμματοςΣυνήθως το διάγραμμα αυτό βασίζεται σε 11 πρότυπα επίπεδα ανάκλησης τα 0%, 10%, ..., 100%, όπου σε κάθε επίπεδο η ακρίβεια υπολογίζεται με χρήση μίας διεργασίας παρεμβολής (interpolation) της ακόλουθης μορφής: έστω rj, j{0,1,2,

…,10} το j-οστό επίπεδο ανάκλησης τότε:

P(rj)=max rjrrj+1 P(r)

Βήματα Ανάλυσης (τυπικό για TREC)

1.Υπολόγισε interpolated precision για recall levels 0.0, 0.1, …

2.Υπολόγισε για κάθε ερώτηση σε κάθε evaluation benchmark

3.Υπολόγισε μέσες τιμές για κάθε ερώτημα

Σύνοψη ΔιαγραμμάτωνΜέση ακρίβεια για κάθε σχετικό κείμενο που ανακτάται (Mean Average Precision (latest TREC Conferences)) -- μπορεί να θεωρηθεί και ότι αναπαριστά το συνολικό εμβαδόν

R-Ακρίβεια

παράγεται μία τιμή σύνοψης που υπολογίζεται ως η ακρίβεια στη R-οστή θέση διάταξης, όπου R είναι ο συνολικός αριθμός των σχετικών κειμένων για την τρέχουσα ερώτηση (δηλαδή ο αριθμός των κειμένων στο σύνολο Rq).

Ιστογράμματα Ακρίβειας

Έστω RPA(i) και RPB(i) οι τιμές της R-ακρίβειας για δύο

αλγόρίθμους ανάκτησης A,B για το i-οστό ερώτημα. Ορίζουμε την ακόλουθη διαφορά: RPA/B(i)=RPA(i)-RPB(i).

Receiver Operating Characteristics- true positives (tp): retrieved and relevant

- false positives (fp): retrieved and non relevant

- true negatives (tn): non relevant and non-retrieved

- false negatives (fn): non relevant and retrieved

sensitivity=tp/(tp+fn), false-positive rate or 1-specificity=fp/(fp+tn).

P=tp/(tp+fp), R=tp/(tp+fn)

Καταλληλότητα Ακρίβειας/Ανάκλησης

Απαιτείται λεπτομερή γνώση όλων των κειμένων της συλλογής που σε μεγάλες συλλογές δεν είναι διαθέσιμη

Η καταγραφή μίας μόνο μετρικής αντί για δύο είναι συνήθως εύχρηστη

Σε μοντέρνα συστήματα η διεπαφή και η αλληλεπίδραση με τον χρήστη αποτελούν σημείο κλειδί στην επεξεργασία ενός ερωτήματος, κάτι που καθιστά επιτακτική την υιοθέτηση μετρικών που τις λαμβάνουν υπόψη.

Oι μετρικές ανάκλησης και ακρίβειας είναι κατάλληλες όταν υπάρχει μία γραμμική διάταξη στα ανακτώμενα κείμενα, διαφορετικά μπορεί να είναι ανακριβείς.

Εναλλακτικές Μετρικές

Αρμονικός Μέσος Όρος

Η Μετρική Ε

Μετρικές Προσανατολισμένες προς τον Χρήστη

Αρμονικός Μέσος Όρος

Ο αρμονικός μέσος όρος F ανάκλησης και ακρίβειας ορίζεται ως εξής:

)(1

)(1

2)(

jPjR

jF

όπου R(j) είναι η ανάκληση για το j-οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το j-οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R(j), P(j).

Αιτία για την επιλογή αυτή, είναι ότι ο αρμονικός μέσος όρο προσεγγίζει το ελάχιστο των δύο τιμών και όχι το μέγιστο.

Η Μετρική Ε

Η μετρική Ε ορίζεται ως εξής:

)(1

)(

11)( 2

2

jPjRb

bjE

-- R(j) είναι η ανάκληση για το j-οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το j-οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R(j), P(j).

-- τιμές b>1, σημαίνει ότι ο χρήστης ενδιαφέρεται πιο πολύ για ακρίβεια, τιμές b<1 ότι ενδιαφέρεται για ανάκληση.

Μετρικές Προσανατολισμένες προς τον Χρήστη (1)

Έστω R το σύνολο των σχετικών κειμένων για την πληροφοριακή ανάγκη I, A το σύνολο των κειμένων που έχει ανακτηθεί και U R το σύνολο των κειμένων που είναι γνωστό στο χρήστη ότι είναι σχετικά προς το ερώτημα του. Έστω Rk η τομή των συνόλων Α και U και|Ru| o

αριθμός των σχετικών κειμένων, που δεν γνώριζε πριν ο χρήστης και τα οποία έχουν ανακτηθεί.

Βαθμός κάλυψης (coverage ratio) =

Bαθμός καινοτομίας (novelty ratio)=

||

||

U

Rk

||||

||

ku

u

RR

R

Άλλες Μετρικές

Σχετική ανάκληση (relative recall) ορίζεται ως το πηλίκο ανάμεσα στον αριθμό των σχετικών κειμένων που έχουν ανακτηθεί και των σχετικών κειμένων που ο χρήστης περιμένει να ανακτηθούν.

Κόστος ανάκλησης (recall effort) ορίζουμε το πηλίκο ανάμεσα στα σχετικά κείμενα που ο χρήστης αναμένει να εντοπίσει και τα κείμενα που εξετάζει μέχρις ότου εντοπίσει αυτά που αναμένει.

‘Αλλες Μετρικές Μηχανής Ψαξίματος

Πόσο γρήγορα δεικτοδοτεί

– Αριθμός κειμένων/ώρα

– μέσο μέγεθος κειμένου Πόσο γρήγορα απαντά Εκφραστικότητα γλώσσας ερώτησης

– Ικανότητα διατύπωσης πολύπλοκων πληροφοριακών αναγκών

– Ταχύτητα πολύπλοκων ερωτήσεων

Μέτρηση Ικανοποίησης Χρήστη

Θέμα: ποιον χρήστη θέλουμε να ικανοποιήσουμε;

εξαρτάται από την εφαρμογή Web engine: ο χρήστης εντοπίζει αυτό που θέλει και

επιστρέφει στην ίδια μηχανή

– Καταγραφή ρυθμού επιστροφής χρήστη eCommerce site: ο χρήστης βρίσκει αυτό που θέλει και

κάνει αγορά

– Είναι ο end-user, ή το eCommerce site το οποίο μετράμε;

– Μέτρηση χρόνου αγοράς, η ποσοστό χρηστών που έγιναν αγοραστές;

Μέτρηση Ικανοποίησης Χρήστη

Enterprise (company/govt/academic): Care about “user productivity”

– How much time do my users save when looking for information?

– breadth of access, secure access, etc.

Web Search Evaluation

- H ανάκληση είναι δύσκολο να υπολογιστεί στο Web

- Οι μηχανές ψαξίματος συχνά χρησιμοποιούν ακρίβεια στα πρώτα k, π.χ., k = 10 κείμενα ή μετρικές που πριμοδοτούν, την γρήγορη ανάκτηση κορυφαίων σελίδων

- Οι μηχανές χρησιμοποιούν επίσης non-relevance-based μετρικές.

Παράδειγμα 1: clickthrough στο πρώτο αποτέλεσμα (αν και όχι πολύ αξιόπιστη μετρική είναι αξιόπιστη κατά μέσο όρο).

Παράδειγμα 2: Νέες τεχνικές που ακόμη δεν έχουν κυριαρχήσει στη περιοχή

Παράδειγμα 3: A/B testing

Α/Β Μετρική

Τεστάρισμα Καινοτόμου Αλγορίθμου

Προαπαιτούμενο: ύπαρξη μίας μηχανής ψαξίματος

Μετατόπιση ενός μικρού ποσοστού της κυκλοφορίας (περίπου 1%) σε ένα νέο σύστημα, που συμπεριλαμβάνει την καινοτομία

Αξιολόγηση με μία “αυτόματη” μετρική όπως clickthrough στο πρώτο αποτέλεσμα

Παραλλαγή: δώστε στους χρήστες τη δυνατότητα να μετακινηθούν στο νέο αλγόριθμο.

Benchmark collectionΣυλλογή κειμένων

- αντιπροσωπευτική των κειμένων που διαχειριζόμαστε

Συλλογή πληροφοριακών αναγκών

- ... λανθασμένα αναφέρονται ως ερωτήματα

- αντιπροσωπευτικά αυτών που αναμένουμε

Καταγραφή σχετικότητας

- απαραίτητη η χρήση κριτών ή διαφορετικά εκτιμητών συσχέτισης

- διαδικασία ακριβή και χρονοβόρα

- οι κρίσεις πρέπει να είναι αντιπροσωπευτικές της εκτίμησης των χρηστών

- οι κρίσεις πρέπει να είναι μεταξύ τους συνεπείς

- πως μπορεί να αξιολογηθεί η συνέπεια των χρηστών (kappa μετρική)

- τιμές του k από 2/3 ως 1 θεωρούνται ικανοποιητικές.

K μετρική

-K είναι μετρική που αξιολογεί κατά πόσο δύο κριτές συμφωνούν ή διαφωνούν

- Σχεδιασμένη για κατηγορικά ορίσματα

-P(A) είναι το ποσοστό συμφωνίας των δύο κριτών

- P(E) είναι το ποσοστό συμφωνίας από τύχη

-Η μετρική K υπολογίζεται ως εξής:

K=(P(A)-P(E))/(1-P(E))

-Και οι δύο πιθανότητες υπολογίζονται από πίνακες αξιολογήσεων των δύο κριτών.

Πιο συγκεκριμένα P(E)=P(relevant)2+P(non_relevant)2 όπου και στις δύο αξιολογήσεις παίρνουμε υπόψην μας όλες τις αξιολογήσεις των referee.

Συλλογή Cranfield

- Από τις πρώτες συλλογές δεδομένων, με παροχή αντιποσωπευτικών μέτρων για καταγραφή ποσοτική της αποτελεσματικότητας συλλογής.

-Τέλη 1950, UK

-1938 abstracts άρθρων σε περιοδικά αεροδυναμικής, σύνολο 225 ερωτημάτων, εξαντλητικές κρίσεις σχετικότητας για όλα τα ζεύγη ερωτημάτων-κειμένων

- Αρκετά μικρή, και όχι τόσο τυπική για σοβαρή αξιολόγηση ανάκτηση πληροφορίας σήμερα.

Συλλογή TREC

-TREC (Text Retrieval Conference)

-Οργανώθηκε από U.S. National Institute of Standards Organization (NIST)

- TREC είναι μία συλλογή από διαφορετικά benchmarks

- Γνωστή ως TREC Ad Hoc, χρησιμοποιήθηκε για τις πρώτες 8 TREC αξιολογήσεις 1992-1999.

- 1.89 εκατομμύρια κείμενα, κυρίως άρθρα, 450 πληροφοριακές ανάγκες

- Όχι εξαντλητικές αξιολογήσεις, αρκετά ακριβές

- Βασικά εκτιμήσεις αξιολόγησης υπάρχουν μόνο για κείμενα που ήταν ανάμεσα στα k πρώτα που ήταν στην TREC συλλογή και επιστράφηκαν στη διάρκεια απάντησης μίας πληροφοριακής ανάγκης.

Συλλογές

- GOV2

-- μία άλλη TREC/NIST συλλογή

-- 25 εκατομμύρια web σελίδες

-- από τις μεγαλύτερες διαθέσιμες συλλογές

-- 3 τάξεις μεγέθους μικρότερη από Google/Yahho/MSN

- NTCIR

-- East Asian Language και Cross Language Information Retrieval

- Cross Language Evaluation Forum (CLEF)

-- Αυτή η συλλογή έχει επικεντρωθεί σε Ευρωπαϊκές γλώσσες και cross language information retrieval

Λίστα Αποτελεσμάτων

Πιο συχνά: title, url, λίστα μεταδεδομένων

Μία περίληψη

Πως υπολογίζεται η περίληψη;

Δύο βασικά είδη περίληψης, στατικά και δυναμικά:

- στατική: ανεξάρτητη ερώτησης

- δυναμική: εξαρτώμενη από ερώτηση.

Στατική Περίληψη

Περίληψη του περιεχομένου του κειμένου

Οι πρώτες περίπου 50 λέξεις του κειμένου

Πιο πολύπλοκες περιλήψεις, χρήση τεχνικών NLP

- NLP heuristics για μαρκάρισμα προτάσεων

- περίληψη παράγεται από τις κορυφαίες προτάσεις

Πιο πολύπλοκες προσεγγίσεις εφαρμόζουν NLP για παραγωγή προτάσεων:

- όχι έτοιμη για χρήση σε εφαρμογές

Δυναμικές Περιλήψεις

Παρουσίαση ενός ή περισσοτέρων παράθύρων ή snippets στο κείμενο που παρουσιάζουν μερικούς από τους όρους ερώτησης

Παράγονται σε συνδυασμό με την απάντηση στους όρους ερώτησης

Συνήθως προτιμώνται snippets όπου οι όροι εμφανίζονται σαν μία φράση ή όπου η εγγύτητά τους μέσα στη φράση πραγματοποιείται σε ένα παράθυρο που ορίζεται από τον χρήστη

Η περίληψη η οποία υπολογίζεται έτσι εμφανίζει όλους τους όρους του παραθύρου, όχι μόνο αυτούς που εμπεριέχονται στην ερώτηση.

Τεχνικά Θέματα

Για την γρήγορη υλοποίηση υπολογισμού των snippets θα πρέπει να κάνουμε cache documents στα οποία θα γίνει ο υπολογισμός (επικινδυνότητα τελικά αυτά να είναι outdated)

Λύση το caching να γίνεται σε ένα prefix του κειμένου κατάλληλου μεγέθους

Ιδανικά: τα snippets θα πρέπει να είναι μικρά και να μεταφέρουν ιδανικά το περιεχόμενο του κειμένου

Η ύπαρξη δυναμικών περιλήψεων είναι σημαντικό θέμα το οποίο πρέπει να προσεχθεί έτσι ώστε να είναι ευχαριστημένος ο τελικός χρήστης.

Μοντελοποίηση

Τα Συστήματα Α.Π. χρησιμοποιούν όρους δεικτοδότησης για να αντιμετωπίσουν τις πληροφοριακές ανάγκες του χρήστη.

Όρος Δεικτοδότησης:

– ένα keyword ή ομάδα επιλεγόμενων λέξεων

– κάθε λέξη (πιο γενικά) Απομάκρυνση καταλήξεων (stemming) μπορεί να

χρησιμοποιηθεί:

– connect: connecting, connection, connections Ένα ανεστραμμένο αρχείο χτίζεται για τους δοσμένους όρους

δεικτοδότησης.

Κείμενα

Πληροφοριακή Ανάγκη

Όροι Δεικτοδότησης

Κείμενο

Ερώτημα

Κατάταξη

Ταίριασμα

Ad-Hoc Ανάκτηση και Φιλτράρισμα

Ad hoc ανάκτηση:

Συλλογή Πεπερασμένου Μεγέθους

Q2

Q3

Q1

Q4Q5

Ad-Hoc Ανάκτηση και Φιλτράρισμα Φιλτράρισμα

Ροή Κειμένων

Χρήστης1Προφίλ

Χρήστης2Προφίλ

Κείμενα για Χρήστη2

Κείμενα γιαΧρήστη1

Κατάταξη είναι μία ταξινόμηση των ανακτημένων κειμένων που αναπαριστά τη σχετικότητα των κειμένων με το ερώτημα του χρήστη.

Μία κατάταξη βασίζεται σε υποθέσεις σχετικά με την έννοια της σχετικότητας όπως:

– Κοινό σύνολο όρων δεικτοδότησης

– Διαμοίραση ζυγισμένων όρων

– Πιθανότητα συσχέτισης

– Διαφορετικά σύνολο υποθέσεων οδηγούν σε διαφορετικά μοντέλα Α.Π.

Τυπικός Ορισμός Μοντέλων Α.Π.

Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(qi, dj)] όπου:

1) - D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της συλλογής

2) - Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις καλούνται ερωτήματα

3) - F είναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους

- R(qi, dj) είναι μια συνάρτηση κατάταξης, η οποία συνδέει έναν

πραγματικό αριθμό με ένα ερώτημα qi Q και μια αναπαράσταση κειμένου dj

D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα κείμενα πάντα με βάση το ερώτημα. q i.

Μοντέλα Α.Π.Δι

αδικ

ασία

Χρή

στη

Α νά κ τη ση :A d -h ocΦ ιλτρ ά ρ ισμ α

Φ υ λλομ έτρ η ση

B ooleanV ector sp aceΠ ιθα νοτικ ό

Κ λα σσ ικά Μ οντέλα

Μ η επ ικ α λυ π τόμ ενες λ ίστεςΚ οντινοί κ όμ βοι

Δ ομ η μ ένα Μ οντέλα

Ε π ίπ εδ ηΚ α θοδ η γού μ ενη α π ό δ ομ ήΥ π ερ κ ε ιμ ένου

Φ υ λλομ έτρ η ση

Δ ίκτυα Ε ξαγ . Συμ περάσ μ ατοςΔ ίκτυα Π εποίθησ ης

Π ιθα νοτικ ό

Γ ενικευμ ένο V ector SpaceΛ ανθ. Σημ ασ . Δ ε ικτοδότησ ηΝ ευρω νικά Δ ίκτυα

Α λγεβρ ικ ό

Α σ αφ ές (Fuzzy)Ε πεκτεταμ ένο Boolean

Σ υ νολοθεω ρ η τικό

Μοντέλα Α.Π.

Το Μοντέλο Α.Π., η λογική όψη των κειμένων και η διεργασία ανάκτησης αποτελούν διακριτές όψεις του συστήματος.

Index Terms

Full Text

Full Text + Structure

Retrieval

Classic

Set Theoretic Algebraic

Probabilistic

Classic

Set Theoretic Algebraic

Probabilistic

Structured

Browsing

Flat

Flat

Hypertext

Structure Guided

Hypertext

LOGICAL VIEW OF DOCUMENTS

USER T A S K

Μετρικές Εκτίμησης Απόδοσης

Documents

Transcript of Μετρικές Εκτίμησης Απόδοσης