Ανάκτηση Πληροφορίας

Λανθάνουσα Σημασιολογική Ανάλυση(Latent Semantic Analysis)

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 2

Μοντέλα IR

Κλασικά Μοντέλα- Boolean- Vector- Probabilistic

Συνολοθεωρητικά- Fuzzy- Extended Boolean

Αλγεβρικά- Generalized Vector- Latent Semantic- Neural Networks

Πιθανοτικά- Inference Network- Belief Network

Κίνητρο

Βασικό μειονέκτημα των μέχρι τώρα μοντέλων είναι ότι υποθέτουν την ανεξαρτησία των όρων (η πιθανότητα ένας όρος να ανήκει σε ένα έγγραφο δεν εξαρτάται από την ύπαρξη κάποιου άλλου όρου στο έγγραφο).

Επίσης, έχουμε δύο βασικά προβλήματα με τους όρους: πολυσημία (ένας όρος έχει διαφορετικό νόημα σε διαφορετικές περιοχές, π.χ. ποντίκι) και συνωνυμία (δύο όροι έχουν ακριβώς το ίδιο ή πολύ κοντινό νόημα, άστρο, αστέρας).

Κίνητρο

Ποια η επίδραση της πολυσημίας και της συνωνυμίας στην ανάκληση και την ακρίβεια;

Η πολυσημία μειώνει την ακρίβεια και η συνωνυμία μειώνει την ανάκληση

Γιατί;

Στόχος

• Να μπορέσουμε να βρούμε συσχετίσεις μεταξύ των όρων έτσι ώστε να μεταβούμε από τους όρους στις θεματικές περιοχές (concepts).

• Να μειώσουμε την επίδραση της πολυσημίας και της συνωνυμίας.

• Να μειώσουμε τον αριθμό των διαστάσεων.

Singular Value Decomposition

• Η τεχνική LSI (Latent Semantic Indexing) βασίζεται στο μαθηματικό εργαλείο SVD (Singular Value Decomposition)

Singular Value Decomposition

• Problem:– #1: Find concepts in text– #2: Reduce dimensionality

SVD - Definition

A[n x m] = U[n x r] r x r] (V[m x r])T

• A: n x m matrix (e.g., n documents, m terms)

• U: n x r matrix (n documents, r concepts)

• : r x r diagonal matrix (strength of each ‘concept’) (r: rank of the matrix)

• V: m x r matrix (m terms, r concepts)

SVD - Properties

THEOREM [Press+92]: always possible to decompose matrix A into A = U VT , where

• U, V: unique (*)• U, V: column orthonormal (ie., columns are unit

vectors, orthogonal to each other)– UTU = I; VTV = I (I: identity matrix)

• : singular value are positive, and sorted in decreasing order

SVD - Properties

‘spectral decomposition’ of the matrix:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

= x xu1 u2

SVD - Interpretation

‘documents’, ‘terms’ and ‘concepts’:

• U: document-to-concept similarity matrix

• V: term-to-concept similarity matrix

• : its diagonal elements: ‘strength’ of each concept

Projection:

• best axis to project on: (‘best’ = min sum of squares of projection errors)

SVD - Example

• A = U VT - example:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.retrieval

brain lung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

SVD - Example

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.

retrieval

brain lung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

CS-conceptMD-concept

doc-to-concept similarity matrix

SVD - Example

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.

retrieval

brain lung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

‘strength’ of CS-concept

SVD - Example

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.

retrieval

brain lung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

term-to-conceptsimilarity matrix

CS-concept

SVD – Dimensionality reduction

• Q: how exactly is dim. reduction done?• A: set the smallest singular values to zero:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

=9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

SVD - Dimensionality reduction

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

0.58 0.58 0.58 0 0

SVD - Dimensionality reduction

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 0 0

0 0 0 0 00 0 0 0 0

Q1: How to do queries with LSI?A: map query vectors into ‘concept space’ – how?

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.

retrievalbrainlung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

Q: How to do queries with LSI?A: map query vectors into ‘concept space’ – how?

1 0 0 0 0

datainf.

retrievalbrainlung

A: inner product (cosine similarity)with each ‘concept’ vector vi

compactly, we have:

qconcept = q Ve.g.:

1 0 0 0 0

datainf.

retrievalbrainlung

0.58 0

0 0.71

term-to-concept similarities

= 0.58 0

CS-concept

Little example

How would the document (‘information’, ‘retrieval’) handled by LSI? A: SAME:

dconcept = d VEg:

0 1 1 0 0

datainf.

retrievalbrainlung

0.58 0

0 0.71

term-to-concept similarities

= 1.16 0

CS-concept

Προσοχή

• Εάν στον αρχικό πίνακα A τα διανύσματα των εγγράφων είναι στις γραμμές του πίνακα τότε για τη μείωση των διαστάσεων χρησιμοποιείται ο μετασχηματισμός:

A’ = A * Vk.

• Εάν στον αρχικό πίνακα Α τα διανύσματα των εγγράφων είναι στις στήλες του Α τότε:

A’ = UkT * A

Ανάκτηση Πληροφορίας

Documents

Transcript of Ανάκτηση Πληροφορίας

ΗΜΥ 007 – Τεχνολογία Πληροφορίας Διάλεξη 1 3

Η έκφραση της γενετικής πληροφορίας

5.2. η ροη της γενετικής πληροφορίας

κεφ.31 η ανάκτηση της πόλης

ΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑΔΙΠΛΩΜΑΤΙKH ΕΡΓΑΣΙΑ Ανάκτηση και ανακατάταξη εγγράφ &ν σε βιοατρικά συστήματα ερ

Τεχνολογίες Πληροφορίας και Επικοινωνίας Κίνδυνοι και Ασφαλής χρήση

Βασικές αρχές αναπαράστασης πληροφορίας με δυαδικά ψηφία

MYE003: Ανάκτηση Πληροφορίαςpitoura/courses/ap/ap19/slides/ch1-boole... · 2019-05-02 · Ανάκʐηση Πληροφορίας vs άσεις εδομένʙν

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές της

Κοινωνική Δυναμική & Κοινωνία της Πληροφορίας

μάθημα 2.1- Ψηφιακή παράσταση της πληροφορίας

01 ψηφιοποίηση της πληροφορίας

Ανάκτηση Πληροφορίας

Εξαγωγή και διαχείριση ορολογίας στο πλαίσιο της ανάκτησης πληροφορίας

SYSTEMAIR Συστήματα Αερισμού με ανάκτηση ενέργειας

Μηχανικός εξαερισμός με ανάκτηση θερμότητας

MYE003: Ανάκτηση Πληροφορίας - cs.uoi.grpitoura/courses/ap/ap17/slides/ch1-boole-retrieval-2017.pdf · Κεφ. 1.3 Η σʑγχʚνεʑση(merge) •Διέσχισε

(ITE ΙΠ · 2020. 1. 24. · • Ανάκτηση Πληροφορίας από το Διαδίκτυο Κύριοι Τομείς Εφαρμογών • Πολιτισμική Πληροφορική

ΗΜΥ 007 – Τεχνολογία Πληροφορίας Διάλεξη 10

η ιστορία της πληροφορίας και της πληροφορικής