Ανάκτηση Πληροφορίας

23
Ανάκτηση Πληροφορίας Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)

description

Ανάκτηση Πληροφορίας. Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis). Μοντέλα IR. Κλασικά Μοντέλα - Boolean - Vector - Probabilistic. Συνολοθεωρητικά - Fuzzy - Extended Boolean. Αλγεβρικά - Generalized Vector - Latent Semantic - Neural Networks. Πιθανοτικά - PowerPoint PPT Presentation

Transcript of Ανάκτηση Πληροφορίας

Page 1: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Λανθάνουσα Σημασιολογική Ανάλυση(Latent Semantic Analysis)

Page 2: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 2

Μοντέλα IR

Κλασικά Μοντέλα- Boolean- Vector- Probabilistic

Συνολοθεωρητικά- Fuzzy- Extended Boolean

Αλγεβρικά- Generalized Vector- Latent Semantic- Neural Networks

Πιθανοτικά- Inference Network- Belief Network

Page 3: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 3

Κίνητρο

Βασικό μειονέκτημα των μέχρι τώρα μοντέλων είναι ότι υποθέτουν την ανεξαρτησία των όρων (η πιθανότητα ένας όρος να ανήκει σε ένα έγγραφο δεν εξαρτάται από την ύπαρξη κάποιου άλλου όρου στο έγγραφο).

Επίσης, έχουμε δύο βασικά προβλήματα με τους όρους: πολυσημία (ένας όρος έχει διαφορετικό νόημα σε διαφορετικές περιοχές, π.χ. ποντίκι) και συνωνυμία (δύο όροι έχουν ακριβώς το ίδιο ή πολύ κοντινό νόημα, άστρο, αστέρας).

Page 4: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 4

Κίνητρο

Ποια η επίδραση της πολυσημίας και της συνωνυμίας στην ανάκληση και την ακρίβεια;

Η πολυσημία μειώνει την ακρίβεια και η συνωνυμία μειώνει την ανάκληση

Γιατί;

Page 5: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 5

Στόχος

• Να μπορέσουμε να βρούμε συσχετίσεις μεταξύ των όρων έτσι ώστε να μεταβούμε από τους όρους στις θεματικές περιοχές (concepts).

• Να μειώσουμε την επίδραση της πολυσημίας και της συνωνυμίας.

• Να μειώσουμε τον αριθμό των διαστάσεων.

Page 6: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 6

Singular Value Decomposition

• Η τεχνική LSI (Latent Semantic Indexing) βασίζεται στο μαθηματικό εργαλείο SVD (Singular Value Decomposition)

Page 7: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 7

Singular Value Decomposition

• Problem:– #1: Find concepts in text– #2: Reduce dimensionality

Page 8: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 8

SVD - Definition

A[n x m] = U[n x r] r x r] (V[m x r])T

• A: n x m matrix (e.g., n documents, m terms)

• U: n x r matrix (n documents, r concepts)

• : r x r diagonal matrix (strength of each ‘concept’) (r: rank of the matrix)

• V: m x r matrix (m terms, r concepts)

Page 9: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 9

SVD - Properties

THEOREM [Press+92]: always possible to decompose matrix A into A = U VT , where

• U, V: unique (*)• U, V: column orthonormal (ie., columns are unit

vectors, orthogonal to each other)– UTU = I; VTV = I (I: identity matrix)

• : singular value are positive, and sorted in decreasing order

Page 10: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 10

SVD - Properties

‘spectral decomposition’ of the matrix:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

= x xu1 u2

1

2

v1

v2

Page 11: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 11

SVD - Interpretation

‘documents’, ‘terms’ and ‘concepts’:

• U: document-to-concept similarity matrix

• V: term-to-concept similarity matrix

• : its diagonal elements: ‘strength’ of each concept

Projection:

• best axis to project on: (‘best’ = min sum of squares of projection errors)

Page 12: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 12

SVD - Example

• A = U VT - example:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.retrieval

brain lung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

=CS

MD

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

x

Page 13: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 13

SVD - Example

• A = U VT - example:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.

retrieval

brain lung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

=CS

MD

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

x

CS-conceptMD-concept

doc-to-concept similarity matrix

Page 14: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 14

SVD - Example

• A = U VT - example:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.

retrieval

brain lung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

=CS

MD

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

x

‘strength’ of CS-concept

Page 15: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 15

SVD - Example

• A = U VT - example:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.

retrieval

brain lung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

=CS

MD

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

x

term-to-conceptsimilarity matrix

CS-concept

Page 16: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 16

SVD – Dimensionality reduction

• Q: how exactly is dim. reduction done?• A: set the smallest singular values to zero:

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

=9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

x

Page 17: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 17

SVD - Dimensionality reduction

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

0.18

0.36

0.18

0.90

0

00

~9.64

x

0.58 0.58 0.58 0 0

x

Page 18: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 18

SVD - Dimensionality reduction

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

~

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 0 0

0 0 0 0 00 0 0 0 0

Page 19: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 19

LSI

Q1: How to do queries with LSI?A: map query vectors into ‘concept space’ – how?

1 1 1 0 0

2 2 2 0 0

1 1 1 0 0

5 5 5 0 0

0 0 0 2 2

0 0 0 3 30 0 0 1 1

datainf.

retrievalbrainlung

0.18 0

0.36 0

0.18 0

0.90 0

0 0.53

0 0.800 0.27

=CS

MD

9.64 0

0 5.29x

0.58 0.58 0.58 0 0

0 0 0 0.71 0.71

x

Page 20: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 20

LSI

Q: How to do queries with LSI?A: map query vectors into ‘concept space’ – how?

1 0 0 0 0

datainf.

retrievalbrainlung

q=

term1

term2

v1

q

v2

A: inner product (cosine similarity)with each ‘concept’ vector vi

Page 21: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 21

LSI

compactly, we have:

qconcept = q Ve.g.:

1 0 0 0 0

datainf.

retrievalbrainlung

q=

0.58 0

0.58 0

0.58 0

0 0.71

0 0.71

term-to-concept similarities

= 0.58 0

CS-concept

Page 22: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 22

Little example

How would the document (‘information’, ‘retrieval’) handled by LSI? A: SAME:

dconcept = d VEg:

0 1 1 0 0

datainf.

retrievalbrainlung

d=

0.58 0

0.58 0

0.58 0

0 0.71

0 0.71

term-to-concept similarities

= 1.16 0

CS-concept

Page 23: Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Τμήμα Πληροφορικής ΑΠΘ 23

Προσοχή

• Εάν στον αρχικό πίνακα A τα διανύσματα των εγγράφων είναι στις γραμμές του πίνακα τότε για τη μείωση των διαστάσεων χρησιμοποιείται ο μετασχηματισμός:

A’ = A * Vk.

• Εάν στον αρχικό πίνακα Α τα διανύσματα των εγγράφων είναι στις στήλες του Α τότε:

A’ = UkT * A