Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας ((Information Retrieval Information Retrieval –– IR)IR)
Πανεπιστήµιο ΘεσσαλίαςΠολυτεχνική Σχολή
Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ∆ικτύων
Ακαδηµαϊκό Έτος 2005-2006
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 2
∆ιδακτικό βοήθηµα 1∆ιδακτικό βοήθηµα 1Καλύπτει το 60% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική510 σελίδες1η έκδοση (Μάιος, 1999)~50 €Αναλυτικό & κατανοητό
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 3
∆ιδακτικό βοήθηµα 2∆ιδακτικό βοήθηµα 2Καλύπτει το 30% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική290 σελίδες1η έκδοση (Μάιος, 2003)~75 €Αναλυτικό & κατανοητό
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 4
∆ιδακτικό βοήθηµα 3∆ιδακτικό βοήθηµα 3Καλύπτει το 10% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική520 σελίδες2η έκδοση (Μάιος, 1999)~70 €Αναλυτικότατο & κατανοητό
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 5
∆ιδακτικό βοήθηµα 4∆ιδακτικό βοήθηµα 4Καλύπτει το 10% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική350 σελίδες1η έκδοση (Μάιος, 1999)~60 €Paper-like µορφή
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 6
∆ιδακτικό βοήθηµα 5∆ιδακτικό βοήθηµα 5Καλύπτει το 5% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική250 σελίδες1η έκδοση (Σεπτέµβριος, 2003)~60 €Ανεξάρτητα κεφάλαια
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 7
Αντικείµενο Αντικείµενο IRIR
Η Ανάκτηση Πληροφορίας µελετά προβλήµατα που σχετίζονται µε την:
ΑναπαράστασηΑποθήκευσηΟργάνωσηΠροσπέλαση
στοιχείων πληροφορίας
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 8
Ανάκτηση Πληροφορίας & Ανάκτηση Πληροφορίας & Ανάκτηση ∆εδοµένωνΑνάκτηση ∆εδοµένων
Να βρεθούν όλα τα ξενοδοχεία της Ελλάδας στα οποία η τιµή του δίκλινου δωµατίου είναι µικρότερη από 100 € τη βραδιά.
(σαφές ερώτηµα)
Να βρεθούν κείµενα τα οποία αναφέρονται στο διαστηµικό σταθµό MIR.
(ασαφές ερώτηµα)
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 9
ΣύγκρισηΣύγκριση
DR IR
Matching Exact Partial, best
Items wanted Matching Relevant
Queries Precise Imprecise
Information Data, numeric Nat. Lang.
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 10
ΣτόχοςΣτόχος Συστήµατος Συστήµατος IRIR
Η ανάκτηση «κειµένων» τα οποία σχετίζονται µε την ερώτηση του χρήστη, και η αποφυγή ανάκτησης κειµένων που δε σχετίζονται µε την ερώτηση του χρήστη.
Τα τελικά αποτελέσµατα ταξινοµούνται ανάλογα µε το ποσοστό συσχέτισης (relevance).
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 11
Κείµενα
Αίτηση για Πληροφορία
Index Terms (keywords)
κείµενο
ερώτηµα
Βαθµ/σηταίριασµα
Σύστηµα Σύστηµα IRIR
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 12
Λειτουργίες Λειτουργίες IRIR
Ανάκτηση (Retrieval)Η δυνατότητα εύρεσης πληροφορίας σχετική
µε την ερώτηση του χρήστη.
Αναζήτηση (Browsing)Η δυνατότητα «µετακίνησης» µεταξύ των αποτελεσµάτων (π.χ. Hypertext)
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 13
Λογική Όψη ΚειµένωνΛογική Όψη Κειµένων((Logical View)Logical View)
1. Πλήρες κείµενο2. Απαλοιφή άρθρων και συνδέσµων3. Απαλοιφή επιθέτων, ρηµάτων, κλπ.4. Άλλοι µετασχηµατισµοί5. Χαρακτηριστικές Λέξεις (Keywords)
Πολλές φορές µας ενδιαφέρει και η δοµή (structure) του κειµένου (π.χ. αναπαράσταση µε XML)
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 14
Πλήρες Κείµενο Πλήρες Κείµενο --> Keywords> Keywords
document
structure recognition
accentsspacing etc.
stopwords noungroups stemming
automatic or manual indexing
structure full text index terms
text + structure text
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 15
UserInterface
Text Operations
Query Operations Indexing
Searching
Ranking
Index
Text
query
user need
user feedback
ranked docs
retrieved docs
logical viewlogical view
inverted file
DB Manager Module
Text Database
Text
∆ιαδικασία ∆ιαδικασία IRIR
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 16
Χθες και Σήµερα Χθες και Σήµερα Τα πρώτα διαθέσιµα συστήµατα IR χρησιµοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων µε βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ.Αργότερα, προστέθηκε η δυνατότητα να πραγµατοποιείται ανάκτηση µε βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT).Σήµερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγµένα user interfaces, πιο γρήγορες µηχανές αναζήτησης, ανοιχτή αρχιτεκτονική.
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 17
WWW + WWW + Ψηφιακές ΒιβλιοθήκεςΨηφιακές Βιβλιοθήκες
Η προσπέλαση σε περισσότερες πηγές πληροφορίας κοστίζει λιγότερο.
Η προσπέλαση στις πηγές πληροφορίας πραγµατοποιείται γρηγορότερα.
Η ελευθερία στη δηµοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του WWW.
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 18
Ερώτηµα 1Ερώτηµα 1
Αν και ο χρήστης έχει στη διάθεσή του περισσότερα βοηθήµατα, ακόµη είναι δύσκολο να βρει την πληροφορία που επιθυµεί.
Ποιες τεχνικές θα βελτιώσουν την ποιότητα της πληροφορίας που ανακτάται;
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 19
Ερώτηµα 2Ερώτηµα 2
Με τη συνεχή βελτίωση στην ταχύτητα των δικτύων και των συστηµάτων, η γρήγορη ανάκτηση της πληροφορίας είναι πολύ σηµαντική.
Ποιες τεχνικές πρέπει να χρησιµοποιηθούν για να βελτιώσουν την απόδοση των συστηµάτων;
Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 20
Ερώτηµα 3Ερώτηµα 3
Η ποιότητα της πληροφορίας που ανακτάται σχετίζεται άµεσα µε την αλληλεπίδραση χρήστη – συστήµατος.
Με ποιους τρόπους θα βελτιώσουµε την ανάκτηση πληροφορίας λαµβάνοντας υπόψη τις προτιµήσεις των χρηστών;
Top Related