Delab Engineering - ir spring06...

20
Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας ( ( Information Retrieval Information Retrieval IR) IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & ∆ικτύων Ακαδημαϊκό Έτος 2005-2006

Transcript of Delab Engineering - ir spring06...

Page 1: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας ((Information Retrieval Information Retrieval –– IR)IR)

Πανεπιστήµιο ΘεσσαλίαςΠολυτεχνική Σχολή

Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ∆ικτύων

Ακαδηµαϊκό Έτος 2005-2006

Page 2: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 2

∆ιδακτικό βοήθηµα 1∆ιδακτικό βοήθηµα 1Καλύπτει το 60% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική510 σελίδες1η έκδοση (Μάιος, 1999)~50 €Αναλυτικό & κατανοητό

Page 3: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 3

∆ιδακτικό βοήθηµα 2∆ιδακτικό βοήθηµα 2Καλύπτει το 30% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική290 σελίδες1η έκδοση (Μάιος, 2003)~75 €Αναλυτικό & κατανοητό

Page 4: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 4

∆ιδακτικό βοήθηµα 3∆ιδακτικό βοήθηµα 3Καλύπτει το 10% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική520 σελίδες2η έκδοση (Μάιος, 1999)~70 €Αναλυτικότατο & κατανοητό

Page 5: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 5

∆ιδακτικό βοήθηµα 4∆ιδακτικό βοήθηµα 4Καλύπτει το 10% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική350 σελίδες1η έκδοση (Μάιος, 1999)~60 €Paper-like µορφή

Page 6: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 6

∆ιδακτικό βοήθηµα 5∆ιδακτικό βοήθηµα 5Καλύπτει το 5% του αντικειµένου του µαθήµατοςΕίναι στην αγγλική250 σελίδες1η έκδοση (Σεπτέµβριος, 2003)~60 €Ανεξάρτητα κεφάλαια

Page 7: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 7

Αντικείµενο Αντικείµενο IRIR

Η Ανάκτηση Πληροφορίας µελετά προβλήµατα που σχετίζονται µε την:

ΑναπαράστασηΑποθήκευσηΟργάνωσηΠροσπέλαση

στοιχείων πληροφορίας

Page 8: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 8

Ανάκτηση Πληροφορίας & Ανάκτηση Πληροφορίας & Ανάκτηση ∆εδοµένωνΑνάκτηση ∆εδοµένων

Να βρεθούν όλα τα ξενοδοχεία της Ελλάδας στα οποία η τιµή του δίκλινου δωµατίου είναι µικρότερη από 100 € τη βραδιά.

(σαφές ερώτηµα)

Να βρεθούν κείµενα τα οποία αναφέρονται στο διαστηµικό σταθµό MIR.

(ασαφές ερώτηµα)

Page 9: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 9

ΣύγκρισηΣύγκριση

DR IR

Matching Exact Partial, best

Items wanted Matching Relevant

Queries Precise Imprecise

Information Data, numeric Nat. Lang.

Page 10: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 10

ΣτόχοςΣτόχος Συστήµατος Συστήµατος IRIR

Η ανάκτηση «κειµένων» τα οποία σχετίζονται µε την ερώτηση του χρήστη, και η αποφυγή ανάκτησης κειµένων που δε σχετίζονται µε την ερώτηση του χρήστη.

Τα τελικά αποτελέσµατα ταξινοµούνται ανάλογα µε το ποσοστό συσχέτισης (relevance).

Page 11: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 11

Κείµενα

Αίτηση για Πληροφορία

Index Terms (keywords)

κείµενο

ερώτηµα

Βαθµ/σηταίριασµα

Σύστηµα Σύστηµα IRIR

Page 12: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 12

Λειτουργίες Λειτουργίες IRIR

Ανάκτηση (Retrieval)Η δυνατότητα εύρεσης πληροφορίας σχετική

µε την ερώτηση του χρήστη.

Αναζήτηση (Browsing)Η δυνατότητα «µετακίνησης» µεταξύ των αποτελεσµάτων (π.χ. Hypertext)

Page 13: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 13

Λογική Όψη ΚειµένωνΛογική Όψη Κειµένων((Logical View)Logical View)

1. Πλήρες κείµενο2. Απαλοιφή άρθρων και συνδέσµων3. Απαλοιφή επιθέτων, ρηµάτων, κλπ.4. Άλλοι µετασχηµατισµοί5. Χαρακτηριστικές Λέξεις (Keywords)

Πολλές φορές µας ενδιαφέρει και η δοµή (structure) του κειµένου (π.χ. αναπαράσταση µε XML)

Page 14: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 14

Πλήρες Κείµενο Πλήρες Κείµενο --> Keywords> Keywords

document

structure recognition

accentsspacing etc.

stopwords noungroups stemming

automatic or manual indexing

structure full text index terms

text + structure text

Page 15: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 15

UserInterface

Text Operations

Query Operations Indexing

Searching

Ranking

Index

Text

query

user need

user feedback

ranked docs

retrieved docs

logical viewlogical view

inverted file

DB Manager Module

Text Database

Text

∆ιαδικασία ∆ιαδικασία IRIR

Page 16: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 16

Χθες και Σήµερα Χθες και Σήµερα Τα πρώτα διαθέσιµα συστήµατα IR χρησιµοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων µε βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ.Αργότερα, προστέθηκε η δυνατότητα να πραγµατοποιείται ανάκτηση µε βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT).Σήµερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγµένα user interfaces, πιο γρήγορες µηχανές αναζήτησης, ανοιχτή αρχιτεκτονική.

Page 17: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 17

WWW + WWW + Ψηφιακές ΒιβλιοθήκεςΨηφιακές Βιβλιοθήκες

Η προσπέλαση σε περισσότερες πηγές πληροφορίας κοστίζει λιγότερο.

Η προσπέλαση στις πηγές πληροφορίας πραγµατοποιείται γρηγορότερα.

Η ελευθερία στη δηµοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του WWW.

Page 18: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 18

Ερώτηµα 1Ερώτηµα 1

Αν και ο χρήστης έχει στη διάθεσή του περισσότερα βοηθήµατα, ακόµη είναι δύσκολο να βρει την πληροφορία που επιθυµεί.

Ποιες τεχνικές θα βελτιώσουν την ποιότητα της πληροφορίας που ανακτάται;

Page 19: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 19

Ερώτηµα 2Ερώτηµα 2

Με τη συνεχή βελτίωση στην ταχύτητα των δικτύων και των συστηµάτων, η γρήγορη ανάκτηση της πληροφορίας είναι πολύ σηµαντική.

Ποιες τεχνικές πρέπει να χρησιµοποιηθούν για να βελτιώσουν την απόδοση των συστηµάτων;

Page 20: Delab Engineering - ir spring06 lec01delab.csd.auth.gr/~dimitris/courses/ir_spring06/lectures/... · 2006. 3. 3. · Παν. Θεσσαλίας Ανάκτηση Πληροφορίας

Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 20

Ερώτηµα 3Ερώτηµα 3

Η ποιότητα της πληροφορίας που ανακτάται σχετίζεται άµεσα µε την αλληλεπίδραση χρήστη – συστήµατος.

Με ποιους τρόπους θα βελτιώσουµε την ανάκτηση πληροφορίας λαµβάνοντας υπόψη τις προτιµήσεις των χρηστών;