ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ-...

74
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI Β. Μεγαλοοικονόμου Δεικτοδότηση Πολυμέσων (παρουσίαση βασισμένη εν μέρη σε σημειώσεις των Silberchatz, Korth και Sudarshan και του C. Faloutsos)

Transcript of ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ-...

Page 1: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Β. Μεγαλοοικονόμου

Δεικτοδότηση Πολυμέσων

(παρουσίαση βασισμένη εν μέρη σε σημειώσεις των Silberchatz, Korth και Sudarshan και του C. Faloutsos)

Page 2: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Γενική Θεώρηση

Σχεσιακό μοντέλο – SQL, σχεδιασμός ΒΔΔεικτοδότηση, Q-opt, ΕπεξεργασίαδοσοληψιώνΠροχωρημένα θέματαΚατανεμημένες ΒάσειςRAIDAuthorization / Stat. DBSpatial Access MethodsΔεικτοδότηση Πολυμέσων

Page 3: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Πολυμέσα- λεπτομερώς

ΠολυμέσαMotivation / ορισμός προβλήματοςΚύρια ιδέα / time sequencesεικόνεςsub-pattern matchingΑυτόματη εξαγωγή χαρακτηριστικών / FastMap

Page 4: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Πρόβλημα

Δοθείσας μίας μεγάλης συλλογής(πολυμεσικών) εγγραφών (πχ. μετοχές)

Επιτρέπει γρήγορα, ερωτήματαομοιότητας

Page 5: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Εφαρμογές

time series: χρηματοοικονομικά, marketing (click-streams!), ECGs, ήχος; εικόνες: ιατρική, ψηφιακές βιβλιοθήκες, εκπαίδευση, τέχνηhigher-d σήματα: επιστημονικές ΒΔ (πχ.αστροφυσική, ιατρική (MRI ακτινογραφίες), ψυχαγωγία (video)

Page 6: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Παραδείγματα Ερωτημάτων

Βρες ιατρικές υποθέσεις παρόμοιες καιτου κ. ΠαπαδόπουλουΒρες ζεύγη μετοχών που κινούνται μεσυγχρονισμόΒρες ζεύγη εγγράφων που είναιπαρόμοια (λογοκλοπία;)Βρες πρόσωπα παρόμοια με του ‘Tiger Woods’

Page 7: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Λεπτομ. ορισμός προβλήματος:

Πρόβλημα:δοθείσας μιας συλλογής πολυμεσικώναντικειμένων,βρες αυτά που είναι παρόμοια με έναεπιθυμητό αντικείμενο-ερώτημα

για παράδειγμα:

Page 8: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

μέρα

τιμή

1 365

μέρα

τιμή

1 365

μέρα

τιμή

1 365

συνάρτηση απόστασης: απόειδικό

(πχ. Ευκλείδεια απόσταση)

Page 9: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Τύποι ερωτημάτων

Ολική ταύτιση εν. sub-pattern matchερωτήματα εύρους εν. πλησιέστερωνγειτόνωνόλα τα ζεύγη ερώτημα (all pairs queries or spatial joins)

Page 10: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Στόχοι σχεδίου

Γρήγορα (γρηγορότερα από σειρ. αναζήτηση)‘ορθό’ (πχ., όχι ψεύτικοι συναγερμοί, όχιλάθος απορρίψεις)

Page 11: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Πολυμέσα- λεπτομερώς

ΠολυμέσαMotivation / ορισμός προβλήματοςΚύρια ιδέα / time sequencesεικόνεςsub-pattern matchingΑυτόματη εξαγωγή χαρακτηριστικών / FastMap

Page 12: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Κεντρική ιδέα

Πχ., χρονικές ακολουθίες, ‘ολικήταύτιση’, ερωτήματα εύρους, Ευκλείδειααπόσταση

μέρα

τιμή

1 365

μέρα

τιμή

1 365

μέρα

τιμή

1 365

Page 13: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Κεντρική ιδέα

Η ακολουθιακή αναζήτηση δουλεύει –πώς μπορεί να γίνει πιο γρήγορα;

Page 14: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Ιδέα: ‘GEMINI’

(GEneric Multimedia INdexIng)Εξήγαγε μερικά αριθμητικάχαρακτηριστικά, για ‘γρήγορο καιπρόχειρο’ έλεγχο

Page 15: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

μέρα1 365

μέρα1 365

S1

Sn

F(S1)

F(Sn)

‘GEMINI’ - Παραστατικά

πχ, avg

πχ,. std

Page 16: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

GEMINI

Λύση: ‘Γρήγορο-και-πρόχειρο' φίλτρο: εξήγαγε n χαρακτηριστικά (αριθμούς, πχ., avg, κτλ.)πρόβαλε σε ένα σημείο στο n-διάστατοχώρο χαρακτηριστικώνοργάνωσε τα σημεία με έτοιμη spatial access μέθοδο (‘SAM’)Απόρριψε false alarms

Page 17: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

GEMINI

Σημαντικό: Ε: πώς να εγγυηθεί απουσίαψευδών απορρίψεων;

A1: διατήρηση αποστάσεων (αλλά: δύσκολο/ακατόρθωτο)

A2: Lower-bounding λήμμα: αν ηαποτύπωση ‘κάνει τα πράγματα να είναιεγγύτερα’, τότε δεν υπάρχουν ψευδείςαπορρίψεις

Page 18: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

GEMINI

Σημαντικό :Q: πώς να εξάγουμε τα χαρακτηριστικά?A: “Εάν έχω μόνο έναν αριθμό για ναπεριγράψω το αντικείμενο μου ποιο θαέπρεπε να είναι αυτό?”

Page 19: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Χρονικές Ακολουθίες

Q: ποια χαρακτηριστικά?

Page 20: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Χρονικές Ακολουθίες

Q: ποια χαρακτηριστικά?A: Συντελεστές Fourier (θα τους δούμεστην συνέχεια)

Page 21: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Χρονικές Ακολουθίες

white noise brown noise

Fourierspectrum

... in log-log

Page 22: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Χρονικές Ακολουθίες

Eg.:

Page 23: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Χρονικές Ακολουθίες

Συμπέρασμα: οι χρωματικοί θόρυβοιπροσεγγίζονται από τους πρώτουςFourier συντελεστέςΟι χρωματικοί θόρυβοι εμφανίζονταιστην φύση

Page 24: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

brown noise: τιμές μετοχών(1/f2 energy spectrum)pink noise: works of art (1/f spectrum)black noises: δεξαμενές νερού (1/fb ,

b>2)(slope: related to ‘Hurst exponent’, for self-similar traffic, like, eg. Ethernet/web [Schroeder], [Leland+]

Χρονικές Ακολουθίες

Page 25: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Χρονικές Ακολουθίες-Αποτελέσματα

κράτησε τους πρώτους 2-3 Fourier συντελεστέςΠιο γρήγορας από ακολουθιακήαναζήτησηNO false dismissals (see book)

# coeff. kept

time

total

cleanup-timer-tree time

Page 26: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Βελτιστοποιήσεις/παραλλαγές: [Kanellakis+Goldin], [Mendelzon+Rafiei]Μπορούν να χρησιμοποιηθούνWavelets, or DCTΜπορούν να χρησιμοποιηθούν segment averages [Yi+2000]

Χρονικές Ακολουθίες -βελτιστοποιήσεις

Page 27: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Πολυμεσικά Δεδομένα

Πολυμεσικά δεδομέναΚίνητρο/ ορισμός προβλήματοςΚύρια ιδέα/ χρονικές ακολουθίεςεικόνες (χρώμα, σχήμα)sub-pattern matchingΑυτόματη εξαγωγή χαρακτηριστικών/ FastMap

Page 28: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - color

what is an image?A: 2-d array

Page 29: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - color

Color histograms,and distance function

Page 30: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - color

Mathematically, the distance function is:

Page 31: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - color

Problem: ‘cross-talk’:Features are not orthogonal ->SAMs will not work properly

Q: what to do?A: feature-extraction question

Page 32: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - color

possible answers: avg red, avg green, avg blue

it turns out that this lower-bounds the histogram distance ->no cross-talkSAMs are applicable

Page 33: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - color

performance: time

selectivity

w/ avg RGB

seq scan

Page 34: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Multimedia - Detailed outline

multimediaMotivation / problem definitionMain idea / time sequencesimages (color; shape)sub-pattern matchingautomatic feature extraction / FastMap

Page 35: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - shapes

distance function: Euclidean, on the area, perimeter, and 20 ‘moments’(Q: how to normalize them?

Page 36: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - shapes

distance function: Euclidean, on the area, perimeter, and 20 ‘moments’(Q: how to normalize them?

A: divide by standard deviation)

Page 37: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - shapes

distance function: Euclidean, on the area, perimeter, and 20 ‘moments’(Q: other ‘features’ / distance functions?

Page 38: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - shapes

distance function: Euclidean, on the area, perimeter, and 20 ‘moments’(Q: other ‘features’ / distance functions?

A1: turning angleA2: dilations/erosionsA3: ... )

Page 39: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - shapes

distance function: Euclidean, on the area, perimeter, and 20 ‘moments’Q: how to do dim. reduction?

Page 40: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - shapes

distance function: Euclidean, on the area, perimeter, and 20 ‘moments’Q: how to do dim. reduction?A: Karhunen-Loeve (= centered PCA/SVD)

Page 41: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Images - shapes

Performance: ~10x faster

# of features kept

log(# of I/Os)

all kept

Page 42: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Case study: Informedia

Video database system, developed at CMU2+ TB of video data (broadcast news)retrieval by text, image and face similarity

www.informedia.cs.cmu.edu/

Page 43: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Case study: Informedia

next foils: visualization featuresby spaceby timeby concept

Page 44: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

• geo mapping

• automatic place recognition

• ambiguity resol. +

• lookup

Page 45: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων
Page 46: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

timeline

Page 47: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

concept

space

Page 48: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Multimedia - Detailed outline

multimediaMotivation / problem definitionMain idea / time sequencesimages (color; shape)sub-pattern matchingautomatic feature extraction / FastMap

Page 49: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

Problem: find sub-sequences that match the given query pattern

Page 50: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

day

$price

1 300

day

$price

1 365day

$price

1 400

30

Page 51: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

Q: how to proceed?Hint: try to turn it into a ‘whole-matching’problem (how?)

Page 52: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

Assume that queries have minimum duration w; (eg., w=7 days)divide data sequences into windows of widthw (overlapping, or not?)

Page 53: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

Assume that queries have minimum duration w; (eg., w=7 days)divide data sequences into windows of widthw (overlapping, or not?)A: sliding, overlapping windows. Thus: trails

Pictorially:

Page 54: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

Page 55: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

sequences -> trails -> MBRs in feature space

Page 56: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

Q: do we store all points? why not?

Page 57: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

Q: how to do range queries of duration w?

Page 58: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Sub-pattern matching

(very recent improvement [Moon+2001])use non-overlapping windows, for data

Page 59: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Conclusions

GEMINI works for any setting (time sequences, images, etc)uses a ‘quick and dirty’ filterfaster than seq. scan(but: how to extract features automatically?)

Page 60: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Multimedia - Detailed outline

multimediaMotivation / problem definitionMain idea / time sequencesimages (color; shape)sub-pattern matchingautomatic feature extraction / FastMap

Page 61: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

FastMap

Automatic feature extraction:Given a dissimilarity function of objectsQuickly map the objects to a (k-d)

`feature' space.(goals: indexing and/or visualization)

Page 62: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

FastMap

01100100100O5

10100100100O4

100100011O3

100100101O2

100100110O1

O5O4O3O2O1~100

~1

Page 63: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

FastMap

Multi-dimensional scaling (MDS) can do that, but in O(N**2) time

Page 64: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

MDS

Multi Dimensional Scaling

Page 65: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Main idea: projections

We want a linear algorithm: FastMap [SIGMOD95]

Page 66: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

FastMap - next iteration

Page 67: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Results

Documents /cosine similarity -> Euclidean distance (how?)

Page 68: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Results

recipes

bb reports

Page 69: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Applications: time sequences

given n co-evolving time sequencesvisualize them + find rules [ICDE00]

time

rate

HKD

JPY

GBP

Page 70: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Applications - financial

currency exchange rates [ICDE00]

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

-0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6

DEM(t)

DEM(t-5)

FRF(t)

FRF(t-5)

GBP(t)

GBP(t-5)

HKD(t)

HKD(t-5)

JPY(t)

JPY(t-5)USD(t)

USD(t-5)

DEMFRFGBPHKDJPYUSD

USD

HKD

JPY

FRFDEM

GBP

USD(t)

USD(t-5)

Page 71: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

VideoTrails

[ACM MM97]

Page 72: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

Conclusions

GEMINI works for multiple settingsFastMap can extract ‘features’automatically (-> indexing, visual d.m.)

Page 73: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

References

Faloutsos, C., R. Barber, et al. (July 1994). “Efficient and Effective Querying by Image Content.” J. of Intelligent Information Systems 3(3/4): 231-262.Faloutsos, C. and K.-I. D. Lin (May 1995). FastMap: A Fast Algorithm for Indexing, Data-Mining and Visualization of Traditional and Multimedia Datasets. Proc. of ACM-SIGMOD, San Jose, CA.Faloutsos, C., M. Ranganathan, et al. (May 25-27, 1994). Fast Subsequence Matching in Time-Series Databases. Proc. ACM SIGMOD, Minneapolis, MN.Flickner, M., H. Sawhney, et al. (Sept. 1995). “Query by Image and Video Content: The QBIC System.” IEEE Computer 28(9): 23-32.Goldin, D. Q. and P. C. Kanellakis (Sept. 19-22, 1995). On Similarity Queries for Time-Series Data: Constraint Specification and Implementation. Int. Conf. on Principles and Practice of Constraint Programming (CP95), Cassis, France.

Page 74: ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI · 2010-06-07 · ΠΑΝΕΠΙΣΤΗΜΙΟΠΑΤΡΩΝ- ΤΜΗΥΠ ΒΑΣΕΙΣΔΕΔΟΜΕΝΩΝΙI Β.Μεγαλοοικονόμου ΔεικτοδότησηΠολυμέσων

References

Leland, W. E., M. S. Taqqu, et al. (Feb. 1994). “On the Self-Similar Nature of Ethernet Traffic.” IEEE Transactions on Networking 2(1): 1-15.Moon, Y.-S., K.-Y. Whang, et al. (2001). Duality-Based Subsequence Matching in Time-Series Databases. ICDE, Heidelberg, Germany.Rafiei, D. and A. O. Mendelzon (1997). Similarity-Based Queries for Time Series Data. SIGMOD Conference, Tucson, AZ.Schroeder, M. (1991). Fractals, Chaos, Power Laws: Minutes from an Infinite Paradise. New York, W.H. Freeman and Company.Yi, B.-K. and C. Faloutsos (2000). Fast Time Sequence Indexing for Arbitrary Lp Norms. VLDB, Kairo, Egypt.