Delab Engineering - ir spring06...

Post on 25-Mar-2021

2 views 0 download

Transcript of Delab Engineering - ir spring06...

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας ((Information Retrieval Information Retrieval –– IR)IR)

Πανεπιστήµιο ΘεσσαλίαςΠολυτεχνική Σχολή

Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ∆ικτύων

Ακαδηµαϊκό Έτος 2005-2006

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 2

∆ιδακτικό βοήθηµα 1∆ιδακτικό βοήθηµα 1Καλύπτει το 60% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική510 σελίδες1η έκδοση (Μάιος, 1999)~50 €Αναλυτικό & κατανοητό

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 3

∆ιδακτικό βοήθηµα 2∆ιδακτικό βοήθηµα 2Καλύπτει το 30% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική290 σελίδες1η έκδοση (Μάιος, 2003)~75 €Αναλυτικό & κατανοητό

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 4

∆ιδακτικό βοήθηµα 3∆ιδακτικό βοήθηµα 3Καλύπτει το 10% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική520 σελίδες2η έκδοση (Μάιος, 1999)~70 €Αναλυτικότατο & κατανοητό

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 5

∆ιδακτικό βοήθηµα 4∆ιδακτικό βοήθηµα 4Καλύπτει το 10% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική350 σελίδες1η έκδοση (Μάιος, 1999)~60 €Paper-like µορφή

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 6

∆ιδακτικό βοήθηµα 5∆ιδακτικό βοήθηµα 5Καλύπτει το 5% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική250 σελίδες1η έκδοση (Σεπτέµβριος, 2003)~60 €Ανεξάρτητα κεφάλαια

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 7

Αντικείµενο Αντικείµενο IRIR

Η Ανάκτηση Πληροφορίας µελετά προβλήµατα που σχετίζονται µε την:

ΑναπαράστασηΑποθήκευσηΟργάνωσηΠροσπέλαση

στοιχείων πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 8

Ανάκτηση Πληροφορίας & Ανάκτηση Πληροφορίας & Ανάκτηση ∆εδοµένωνΑνάκτηση ∆εδοµένων

Να βρεθούν όλα τα ξενοδοχεία της Ελλάδας στα οποία η τιµή του δίκλινου δωµατίου είναι µικρότερη από 100 € τη βραδιά.

(σαφές ερώτηµα)

Να βρεθούν κείµενα τα οποία αναφέρονται στο διαστηµικό σταθµό MIR.

(ασαφές ερώτηµα)

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 9

ΣύγκρισηΣύγκριση

DR IR

Matching Exact Partial, best

Items wanted Matching Relevant

Queries Precise Imprecise

Information Data, numeric Nat. Lang.

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 10

ΣτόχοςΣτόχος Συστήµατος Συστήµατος IRIR

Η ανάκτηση «κειµένων» τα οποία σχετίζονται µε την ερώτηση του χρήστη, και η αποφυγή ανάκτησης κειµένων που δε σχετίζονται µε την ερώτηση του χρήστη.

Τα τελικά αποτελέσµατα ταξινοµούνται ανάλογα µε το ποσοστό συσχέτισης (relevance).

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 11

Κείµενα

Αίτηση για Πληροφορία

Index Terms (keywords)

κείµενο

ερώτηµα

Βαθµ/σηταίριασµα

Σύστηµα Σύστηµα IRIR

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 12

Λειτουργίες Λειτουργίες IRIR

Ανάκτηση (Retrieval)Η δυνατότητα εύρεσης πληροφορίας σχετική

µε την ερώτηση του χρήστη.

Αναζήτηση (Browsing)Η δυνατότητα «µετακίνησης» µεταξύ των αποτελεσµάτων (π.χ. Hypertext)

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 13

Λογική Όψη ΚειµένωνΛογική Όψη Κειµένων((Logical View)Logical View)

1. Πλήρες κείµενο2. Απαλοιφή άρθρων και συνδέσµων3. Απαλοιφή επιθέτων, ρηµάτων, κλπ.4. Άλλοι µετασχηµατισµοί5. Χαρακτηριστικές Λέξεις (Keywords)

Πολλές φορές µας ενδιαφέρει και η δοµή (structure) του κειµένου (π.χ. αναπαράσταση µε XML)

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 14

Πλήρες Κείµενο Πλήρες Κείµενο --> Keywords> Keywords

document

structure recognition

accentsspacing etc.

stopwords noungroups stemming

automatic or manual indexing

structure full text index terms

text + structure text

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 15

UserInterface

Text Operations

Query Operations Indexing

Searching

Ranking

Index

Text

query

user need

user feedback

ranked docs

retrieved docs

logical viewlogical view

inverted file

DB Manager Module

Text Database

Text

∆ιαδικασία ∆ιαδικασία IRIR

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 16

Χθες και Σήµερα Χθες και Σήµερα Τα πρώτα διαθέσιµα συστήµατα IR χρησιµοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων µε βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ.Αργότερα, προστέθηκε η δυνατότητα να πραγµατοποιείται ανάκτηση µε βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT).Σήµερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγµένα user interfaces, πιο γρήγορες µηχανές αναζήτησης, ανοιχτή αρχιτεκτονική.

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 17

WWW + WWW + Ψηφιακές ΒιβλιοθήκεςΨηφιακές Βιβλιοθήκες

Η προσπέλαση σε περισσότερες πηγές πληροφορίας κοστίζει λιγότερο.

Η προσπέλαση στις πηγές πληροφορίας πραγµατοποιείται γρηγορότερα.

Η ελευθερία στη δηµοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του WWW.

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 18

Ερώτηµα 1Ερώτηµα 1

Αν και ο χρήστης έχει στη διάθεσή του περισσότερα βοηθήµατα, ακόµη είναι δύσκολο να βρει την πληροφορία που επιθυµεί.

Ποιες τεχνικές θα βελτιώσουν την ποιότητα της πληροφορίας που ανακτάται;

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 19

Ερώτηµα 2Ερώτηµα 2

Με τη συνεχή βελτίωση στην ταχύτητα των δικτύων και των συστηµάτων, η γρήγορη ανάκτηση της πληροφορίας είναι πολύ σηµαντική.

Ποιες τεχνικές πρέπει να χρησιµοποιηθούν για να βελτιώσουν την απόδοση των συστηµάτων;

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 20

Ερώτηµα 3Ερώτηµα 3

Η ποιότητα της πληροφορίας που ανακτάται σχετίζεται άµεσα µε την αλληλεπίδραση χρήστη – συστήµατος.

Με ποιους τρόπους θα βελτιώσουµε την ανάκτηση πληροφορίας λαµβάνοντας υπόψη τις προτιµήσεις των χρηστών;