Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες...

58
1 Αντώνιος Δεληγιαννάκης Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες Προσέγγιση Δεδομένων με Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες Πολλαπλές Μετρήσιμες Ποσότητες Αντώνιος Δεληγιαννάκης Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland

description

Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες. Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland. Διάγραμμα. Εισαγωγή Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) Εφαρμογές προσέγγισης τέτοιων δεδομένων Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση Σχετική Έρευνα - PowerPoint PPT Presentation

Transcript of Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες...

Page 1: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

1Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προσέγγιση Δεδομένων μεΠροσέγγιση Δεδομένων μεΠολλαπλές Μετρήσιμες Πολλαπλές Μετρήσιμες

ΠοσότητεςΠοσότητες

Αντώνιος ΔεληγιαννάκηςΑντώνιος ΔεληγιαννάκηςΠανεπιστήμιο του Maryland

Page 2: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

2Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΔιάγραμμαΔιάγραμμα Εισαγωγή

– Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures)

– Εφαρμογές προσέγγισης τέτοιων δεδομένων– Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση

Σχετική Έρευνα– Wavelets (εκτενή περιγραφή)

Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) Προσέγγιση χρονοσειρών Συμπεράσματα

Page 3: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

3Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Δεδομένα με Πολλαπλές Μετρήσιμες Δεδομένα με Πολλαπλές Μετρήσιμες ΠοσότητεςΠοσότητες Συνήθως τα δεδομένα αποτελούνται από:

– Διαστάσεις (dimensions) • Περιγράφουν τις συλλεγόμενες ποσότητες

– Μετρήσιμες ποσότητες (measures)• Αριθμητικές τιμές

Δεδομένα Πωλήσεων Προϊόντων– Διαστάσεις: Προϊόν, Πελάτης, Ώρα Πώλησης– Μετρήσιμες ποσότητες: Τιμή αγοράς/πώλησης, κόστη

μεταφοράς/αποθήκευσης... Συλλογή Δικτυακών Μετρήσεων

– Διάσταση: Χρόνος Συλλογής– Μετρήσιμες ποσότητες: Εισερχόμενα/εξερχόμενα

πακέτα/bits, επιχειρούμενες συνδέσεις...

Page 4: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

4Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ανάγκη Προσέγγισης ΔεδομένωνΑνάγκη Προσέγγισης Δεδομένων Μέγεθος δεδομένων μπορεί να είναι σε GB/TB

– Αργή απόκριση σε ερωτήσεις Δεν χρειάζεται πάντα 100% ακρίβεια

– Εξερευνητικές ερωτήσεις σε συστήματα εξόρυξης δεδομένων

– Ερωτήσεις ομαδοποίησης (aggregate queries) σε συστήματα υποστήριξης αποφάσεων (DSS)

Προσέγγιση για λόγους συμπίεσης (εικόνες)– Συμπίεση χρήσιμη και στη μεταφορά δεδομένων

(δίκτυα αισθητήρων)

Page 5: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

5Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προσέγγισης ΔεδομένωνΠροσέγγισης Δεδομένων Λύση: κατασκευή Συνόψεων Δεδομένων

– Μέγεθος σύνοψης << μέγεθος δεδομένων– Γρήγορη απόκριση σε ερωτήσεις

Τύποι Συνόψεων– Ιστογράμματα, Wavelets, Δειγματοληψία, Σχέδια (sketches)

SQL ΕρώτησηΑκριβής Απάντηση

Συστήμα Συστήμα ΥποστήριξηΥποστήριξης ς ΑποφάσεωνΑποφάσεων

GB/TB

Σύνοψη Σύνοψη ΔεδομένωνΔεδομένων

“Μετασχηματισμένη” Ερώτηση

KB/MBΠροσεγγιστική Απάντηση

Page 6: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

6Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Τι συμβαίνει στο πρόβλημα μας?Τι συμβαίνει στο πρόβλημα μας? Δεδομένα είναι πλειάδες (tuples) με D+M πεδία

– D διαστάσεις– M μετρήσιμες ποσότητες

Μόνη εύκολα επεκτάσιμη μέθοδος: Δειγματοληψία Άλλες τεχνικές περισσότερο αυτόνομες

– Κατανομή συνολικού χώρου σύνοψης– Κάθε μετρήσιμη ποσότητα προσεγγίζεται ξεχωριστά

• Διαφορετικοί κουβάδες (buckets) για τα ιστογράμματα• Διαφορετικοί συντελεστές (coefficients) για τα wavelets

Λιγότερος χώρος για κάθε μετρήσιμη ποσότητα– Για T πλειάδες, και α% χώρο για σύνοψη

• wavelet συντελεστές για κάθε μετρήσιμη ποσότητα )1(100

)(

DMMDaT

Page 7: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

7Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μπορούμε να κάνουμε κάτι καλύτερο?Μπορούμε να κάνουμε κάτι καλύτερο? Έξυπνη κατανομή χώρου

– Διαφορετική δυσκολία προσέγγισης κάθε μετρήσιμης ποσότητας

Εκμετάλλευση συσχετίσεων (correlation) μεταξύ ποσοτήτων– Ολικών ή σε ορισμένες περιοχές των δεδομένων

Εκμετάλλευση εξαρτήσεων στην αποθήκευση των συνόψεων– Πχ, κοινές συντεταγμένες συντελεστών στα wavelets

Page 8: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

8Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΔιάγραμμαΔιάγραμμα Εισαγωγή

– Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures)– Εφαρμογές προσέγγισης τέτοιων δεδομένων– Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση

Σχετική Έρευνα– Wavelets κατασκευή– Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού

σφάλματος Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) Προσέγγιση χρονοσειρών Συμπεράσματα

Page 9: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

9Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

WaveletsWavelets Ιεραρχική ανάλυση συναρτήσεων/σημάτων Εφαρμογές σε:

– Επεξεργασία Εικόνων και Σημάτων (WALRUS: [NRS99])– Εκτίμηση Επιλεκτικότητας (selectivity estimation)

[MVW98]– Ερωτήσεις Άθροισης Περιοχών (Range-Sum) σε κύβους

δεδομένων [VWI98, VW99]– Προσεγγιστική Επεξεργασία Ερωτήσεων [CGRS00]

Page 10: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

10Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

WaveletsWavelets (συν.) (συν.) Διεργασία 2 βημάτων

– Ανάλυση δεδομένων και παραγωγή wavelet συντελεστών– Επιλογή συντελεστών για αποθήκευση

Συντελεστές σώζονται ως πλειάδες με D+1 πεδία– D συντεταγμένες (1 για κάθε διάσταση)– “Κανονικοποιημένη” τιμή συντελεστή

Συνήθης στόχος: Ελαχιστοποίηση μέσου τετραγωνικού σφάλματος

Πιθανοτικές Wavelet Συνόψεις με Εγγυήσεις Σφάλματος [GG02]

Page 11: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

11Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Α. Ανάλυση με Α. Ανάλυση με Haar WaveletsHaar Wavelets WaveletsWavelets:: Ιεραρχική ανάλυση συναρτήσεων Haar waveletsHaar wavelets:: απλούστερη βάση των wavelets

– Αναδρομικός υπολογισμός μέσου όρου και μέσης διαφοράς μεταξύ ζευγών από τιμές

Ανάλυση Μέσοι Όροι Συντελεστές

[2, 8, 3, 3]

[5, ] [-3, ]

[4] [1]

----2

1

0

[5, 3] [-3, 0]

Συντεταγμένη Τιμή

-31

4

210

3 0

Page 12: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

12Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Haar Wavelet Haar Wavelet ΣυντελεστέςΣυντελεστές Απεικόνιση στο Δέντρο Σφάλματος

(Error Tree) Συντελεστές συντελούν στην

εκτίμηση 2level δεδομένων Ερωτήσεις Σημείων (point queries):

– Συντελεστές σε μονοπάτι προς δεδομένο

Ερωτήσεις Εύρους (range queries):– Συντελεστές σε μονοπάτι προς

κάτω και άνω όρια του εύρους

Ανάλυση Μέσοι Όροι Συντελεστές

[2, 8, 3, 3]

[4] [1]

----210

[5, 3] [-3, 0]

Data 2 8 3 3

-+

+ +- --3

1

4

0

1

-3

8 = 4 + 1 – (-3)

4

1

4

13 = 3*4 +1*(2-1)

0-3

Page 13: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

13Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ψευδοκώδικας ΑνάλυσηςΨευδοκώδικας Ανάλυσης// Οι δείκτες start, end ορίζουν περιοχή με μέγεθος δύναμη του 2Decompose(A, start, end) { // επιστρέφει το μέσο όρο της περιοχής if (end-start > 1) { // Αναδρομή σε 2 υποπεριοχές Avg1 = Decompose(A, start, (start+end)/2) Avg2 = Decompose(A, (start+end)/2 + 1, end) } else { Avg1 = A[start]; Αvg2 = A[end]; } πρόσθεσε το συντελεστή με τιμή: (Avg1 – Avg2) / 2; return (Avg1 + Avg2) / 2}

Page 14: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

14Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πολλαπλές ΔιαστάσειςΠολλαπλές Διαστάσεις Ανάλυση επεκτείνεται εύκολα σε πολλαπλές διαστάσεις Σύνολο τιμών είναι το ND (αντί για Ν σε 1-D)

– N: μέγιστο πεδίο τιμών σε οποιαδήποτε διάσταση Επεξεργασία περιοχών μεγέθους δύναμης του 2D (αντί

για 2)– Αναδρομή σε 2D υποπεριοχές

Οι 2D τιμές/μέσοι όροι περιοχών παράγουν:– 1 μέσο όρο της περιοχής– 2D-1 συντελεστές (αντί για 2-1 = 1)

Πολλές υποπεριοχές είναι κενές (αραιά δεδομένα)– Δεν χρειάζεται αναδρομή σε αυτές

Δεδομένα χρειάζονται ταξινόμηση με βάση σειρά “επεξεργασίας” των δεδομένων

Page 15: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

15Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Δέντρο ΣφάλματοςΔέντρο Σφάλματος Κάθε κόμβος έχει 2D παιδιά Κάθε κόμβος περιέχει μέχρι 2D-1 συντελεστές

+-+-

-+ + -

+

-+ ++--

+- -+ ++--

+--+ ++--

+-

-+ ++--

+-

Page 16: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

16Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Β. Επιλογή Συντελεστών για Β. Επιλογή Συντελεστών για ΑποθήκευσηΑποθήκευση Επιλογή εξαρτάται από σφάλμα για

ελαχιστοποίηση Ελαχιστοποίηση συνολικού τετραγωνικού

(L2) σφάλματος– Κανονικοποίηση– Επιλογή B μεγαλύτερων κανονικοποιημένων

συντελεστών– Αποδεδειγμένα βέλτιστη λύση

Page 17: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

17Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ελαχιστοποίηση Μέγιστου Σχετικού Ελαχιστοποίηση Μέγιστου Σχετικού ΣφάλματοςΣφάλματος L2 σφάλμα ακατάλληλο για συστήματα

αποφάσεων– Πόσο ακριβής είναι η απάντηση που παίρνω?

Ελαχιστοποίηση μέγιστου σχετικού σφάλματος:

• di: πραγματική τιμή δεδομένου i• di: εκτιμούμενη τιμή δεδομένου i • s: λογικό όριο

Καμία γνωστή αποδοτική λύση

}}}|,|max{

||{maxmin{^

sddd

i

ii

^

Page 18: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

18Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πιθανοτικές Συνόψεις [Πιθανοτικές Συνόψεις [GGGG02]02] Προσπάθεια αντιμετώπισης του προβλήματος Πιθανότητα 0 yi 1 επιλογής κάθε μη-μηδενικού

συντελεστή ci

Συντελεστής γίνεται τυχαία μεταβλητή:

E[Ci] = yi ci/yi + (1-yi) 0 = ci (αμερόληπτος εκτιμητής)

Var(i,yi) = Var[Ci] = ci2 (1-yi)/yi

i

ii

i

i

yόyc

C

10

0 ci

|]σύνοψηςE[| iy

Page 19: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

19Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πιθανοτικές Συνόψεις (συν.)Πιθανοτικές Συνόψεις (συν.) Κάθε δεδομένο είναι

γραμμικός συνδυασμός συντελεστών Αναμενόμενη τιμή = πραγματική

Στόχος: Δεδομένου ενός ορίου αποθήκευσης Β, βρες τα yi, ώστε να ελαχιστοποιείται το:

Data2 8 3 3

-+

+ +- --3

1

4

0

1

-3

8 = 4 + 1 – (-3)

4

)(

^),()(

ij dάcji yjVardVar

}|,max{|)(max)(max

^^

sddVardNSEi

i

iii

Page 20: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

20Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πιθανοτικές Συνόψεις (συν.)Πιθανοτικές Συνόψεις (συν.) Στη βέλτιστη λύση:

– max NSE μέσω δεξιού και αριστερού υποδέντρου είναι ίσα

– Σε κάθε υποδέντρο, το max NSE συμβαίνει για τη μικρότερη τιμή

Λύση δυναμικού προγραμματισμού– Σε κάθε κόμβο, ψάξε όλους τους

τρόπους ανάθεσης χώρου• yi: στον τρέχον κόμβο• bL: στο αριστερό υπόδεντρο• Β-bL-yi: στο δεξί υπόδεντρο

Αναθέσεις χώρου πολ/σια 1/q (q 10)

Data2 8 3 3

-+

+ +- --3

1

4

0

Page 21: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

21Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πιθανοτικές Συνόψεις (συν.)Πιθανοτικές Συνόψεις (συν.) Πολυπλοκότητες (1-D) για μέγεθος πεδίου τιμών N, χώρο B:

– O(NqB) χώρο– Ο(Nq2Blog(qB)) χρόνο– O(qBlogN) ελάχιστη μνήμη

Πολυπλοκότητες (πολυδιάστατα δεδομένα) για Nz κόμβους του δέντρου σφάλματος με μη μηδενικούς συντελεστές, χώρο B: – O(2DNzqB) χώρο– Ο(2DNzqB(qlog(qB)+D2D)) χρόνο– O(2DqBlogN) ελάχιστη μνήμη

Για B=Θ(Ν), πολυπλόκοτητες τουλάχιστον τετραγωνικές στο Ν

Page 22: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

22Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΔιάγραμμαΔιάγραμμα Εισαγωγή Σχετική Έρευνα Προσέγγιση με Wavelets (πολυδιάστατα

δεδομένα)– Δεδομένα με πολλαπλές μετρήσιμες ποσότητες

• Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος

• Βέλτιστοι και greedy αλγόριθμοι Προσέγγιση χρονοσειρών Συμπεράσματα

Page 23: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

23Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Α. Μέσο τετραγωνικό σφάλμα (1 Α. Μέσο τετραγωνικό σφάλμα (1 ποσότητα)ποσότητα) Ελαχιστοποίση συνολικού τετραγωνικού (L2)

σφάλματος– Κανονικοποίηση– Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών– Αποδεδειγμένα βέλτιστη λύση– Μέσο τετραγωνικό σφάλμα = άθροισμα τετραγώνου των

συντελεστών που δεν επιλέγονται

Συντελεστές σώζονται ως πλειάδες με D+1 πεδία– D συντεταγμένες (1 για κάθε διάσταση)– “Κανονικοποιημένη” τιμή συντελεστή

Page 24: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

24Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Α. Μέσο τετραγωνικό σφάλμα Α. Μέσο τετραγωνικό σφάλμα (πολλές ποσότητες)(πολλές ποσότητες) Δύο υπάρχουσες τεχνικές:

– Ανεξάρτητη μέθοδος• Ξεχωριστή ανάλυση για κάθε ποσότητα

– Συνδυασμένη μέθοδος• Αντιμετωπίζει τις ποσότητες σαν πίνακες τιμών• Κρατάει τους πίνακες με τις B μεγαλύτερες L2

νόρμες

Page 25: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

25Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μειονεκτήματα Υπάρχουσων ΤεχνικώνΜειονεκτήματα Υπάρχουσων Τεχνικών Ακραίες υποθέσεις αποθήκευσης συντελεστών Για κάθε συνδυασμό συντεταγμάνων

– Ανεξάρτητη μέθοδος αποθηκεύει μόνο ΜΙΑ τιμή συντελεστή (μίας ποσότητας)

• Κάποιες συντεταγμένες συντελεστών μπορεί να αποθηκευθούν πολλές φορές

– Συνδυασμένη μέθοδος αποθηκεύει ΟΛΕΣ τις τιμές (για όλες τις ποσότητες)

• Μπορεί να αποθηκεύσει “μη χρήσιμες” τιμές

Μειωμένη Εκμετάλλευση Χώρου από τις 2 μεθόδους

Page 26: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

26Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ο Στόχος μαςΟ Στόχος μας Προσαρμοζόμενη μέθοδος αποθήκευσης

– Χωρίς προβλήματα Ανεξάρτητης/Συνδυασμένης μεθόδων– Βελτίωση εκμετάλλευσης χώρου– Δίκαιη κατανομή χώρου στις ποσότητες

Ιδέα: – Αποθήκευσε 1 ως M τιμές συντελεστών– Ένα bitmap μπορεί να δείξει

• Πόσες τιμές συντελεστών έχουν αποθηκευτεί• Ποιες τιμές συντελεστών έχουν αποθηκευτεί

101 1 2 0 100 5 917

Τιμές ΣυντελεστώνBitmap Συντεταγμένες

Page 27: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

27Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Επεκταμένοι Επεκταμένοι Wavelet Wavelet ΣυντελεστέςΣυντελεστές Ο Επεκταμένος Wavelet Συντελεστής είναι μία

τριάδα <C, β, V>– Συντεταγμένες συντελεστή C– Bitmap β– Αποθηκευμένες τιμές συντελεστή V

Ποιές τιμές συντελεστών να αποθηκεύσουμε δεδομένου ενός ορίου αποθήκευσης B ?

Page 28: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

28Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ορισμός ΠροβλήματοςΟρισμός Προβλήματος

Για ένα D-διάστατο σύνολο δεδομένων με M ποσότητες– Δεδομένου:

• Σύνολο βαρών για κάθε ποσότητα• Σύνολο N αρχικούς Συνδυασμένους συντελεστές• Όριο αποθήκευσης B

– Ελαχιστοποίησε το σταθμισμένο άθροισμα των τετραγωνικών σφαλμάτων για όλες τις ποσότητες

Οι αλγόριθμοί μας εφαρμόζονται στο τελικό στάδιο επιλογής συντελεστών

Καμία δέσμευση στον αλγόριθμο ανάλυσης

Page 29: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

29Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Παρατηρήσεις για ΛύσηΠαρατηρήσεις για Λύση Πρόβλημα παρόμοιο με το Knapsack Πρόβλημα

– Όριο αποθήκευσης B– Κάθε τιμή συντελεστή έχει:

• Σταθμισμένο όφελος = σταθμισμένο τετράγωνο τιμής• Απαιτούμενο χώρο

Πρόβλημα: Μεταβλητός χώρος για τιμές συντελεστή:– Για κάθε συντελεστή, η πρώτη αποθηκευμένη τιμή

συντελεστή χρειάζεται και χώρο για την “κεφαλή” του επεκταμένου συντελεστή (bitmap + συντεταγμένες)

– Δεν συμβαίνει το ίδιο για τις υπόλοιπες τιμές του συντελεστή αυτού

001 1 2 0 100 5 917

Τιμές ΣυντελεστώνBitmap Συντεταγμένες

101 1 2 0 100 5 917

Τιμές ΣυντελεστώνBitmap Συντεταγμένες

Page 30: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

30Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προτεινόμενες ΛύσειςΠροτεινόμενες Λύσεις Αλγόριθμος Δυναμικού Προγραμματισμού

– Χώρος: O(NMB), φραγμένο από O(N2M(D+M))– Χρόνος: O(NMB), φραγμένο από O(N2M(D+M))

Greedy Αλγόριθμος (GreedyL2)– Επιλογή set τιμών για αποθήκευση με μέγιστο

όφελος/χώρο– Χώρος: O(N(D+M)) : όμοια με μέγεθος εισόδου (input)– Χρόνος: O((N+Β)Mlog(NM)), φραγμένο από O(NM2log(NM))

Αποδεδειγμένο κλάσμα προσέγγισης 2– Στα πειράματα, το κλάσμα των οφελών ήταν μεγαλύτερο

του 99.99%

Page 31: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

31Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μέσο Σταθμισμένο Τετραγωνικό Μέσο Σταθμισμένο Τετραγωνικό ΣφάλμαΣφάλμα vs. vs. Μέγεθος ΣύνοψηςΜέγεθος Σύνοψης

Σφάλματα μέχρι 29% κοντινότερου αντιπάλου

2-διάστατα συνθετικα δεδομένα.

6 Zipfian κατανομές– Διαφορετικά κέντρα,

μορφές Πυκνές περιοχές 5-10% δεδομένων σε

αραιές περιοχές

Τυχαίες ερωτήσεις εύρους, έμφαση σε πυκνές περιοχές

Page 32: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

32Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μέσα Σταθμισμένα Σφάλματα Μέσα Σταθμισμένα Σφάλματα vs. vs. ΜέγεθοςΜέγεθος

Σφάλματα μέχρι 65% και 69% κοντινότερου αντιπάλου

Page 33: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

33Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ευαισθησία στην Απόκλιση Ευαισθησία στην Απόκλιση ((SkewSkew))

Οφέλη αυξάνουν για μέτρια προς μεγάλες αποκλίσεις δεδομένων– Μέχρι 3 φορές μικρότερα λάθη από τον κοντινότερο ανταγωνιστή

Page 34: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

34Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

B. B. Μέγιστο Σχετικό Σφάλμα (1 Μέγιστο Σχετικό Σφάλμα (1 ποσότητα)ποσότητα) Πιθανότητα yi επιλογής συντελεστή ci

Eλαχιστοποίηση του:

Σε κάθε κόμβο, ψάξε όλους τους τρόπους ανάθεσης χώρου– yi: στον τρέχον κόμβο– bL: στο αριστερό υπόδεντρο– Β-bL-yi: στο δεξί υπόδεντρο

Συνδυασμός λύσης με λύσεις υποδέντρων

)(

^),()(

ij dάcji yjVardVar

}|,max{|)(max)(max

^^

sddVardNSEi

i

iii

Data2 8 3 3

-+

+ +- --3

1

4

0

Page 35: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

35Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μέγιστο Σχετικό Σφάλμα (πολλές Μέγιστο Σχετικό Σφάλμα (πολλές ποσότητες)ποσότητες) Στόχοι:

– Ελαχιστοποίση μέγιστου σχετικού σφάλματος σε όλες τις ποσότητες

– Χρήση επεκταμένων συντελεστών για καλύτερη ακρίβεια

– Αλγόριθμοι πρακτικοί• Χώρος• Χρόνος

Greedy αλγόριθμός μας πολύ πιο αποδοτικός και για 1-Μ περίπτωση

Page 36: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

36Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Χρήση Επεκταμένων ΣυντελεστώνΧρήση Επεκταμένων Συντελεστών Περίπλοκη εξάρτηση χώρου

Βέλτιστη λύση: ανάθεση χώρου Bi < B σε κάθε υποδέντρο:– Κράτα σύνολο μη συγκρίσιμων διανυσμάτων R[i,Bi]– Η j συντεταγμένη είναι max NSE στο υποδέντρο του

κόμβου i για την ποσότητα j, όταν αναθέτουμε χώρο Bi

– Αποτυγχάνει η αρχή της βελτιστοποίησης αλγορίθμων Δ.Π.

• Δεν μπορείς να κρατήσεις το διάνυσμα του R[i,Bi] με την ελάχιστη max τιμή

M

jij

cjiji yHyECE

j 10|

))1(1(|][|

Page 37: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

37Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Βέλτιστος ΑλγόριθμοςΒέλτιστος Αλγόριθμος

Αλγόριθμος βασίζεται σε “μερική ταξινόμηση” λύσεων– Απορίπτει μερικές λύσεις που δεν μπορεί να συμβάλουν

στη βέλτιστη ολική λύση Πολυπλοκότητα χώρου/χρόνου απαγορευτική

Page 38: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

38Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

GreedyGreedy Αλγόριθμος Αλγόριθμος: : ΣκέψειςΣκέψεις Αρχικοποίησε ολές τις πιθανότητες επιλογής (ΠΕ) σε 0 Σε κάθε βήμα αύξησε ΠΕ ορισμένων τιμών

συντελεστών– Έχει νόημα να αυξήσουμε ΠΕ από ποσότητα που δεν έχει το

max{max NSE} ?– 1 ή πολλές ΠΕ μαζί?– Πώς διαλέγουμε ποιές τιμές να επιλέξουμε στο βήμα αυτό?

Σκοπός: Σε κάθε βήμα αύξησε την πιθανότητα επιλογής ενός SET τιμών συντελεστών– Συντελεστές από ποσότητα με max {max NSE}– Μεγιστοποίησε μείωση του max NSE / χώρος(SET)

Page 39: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

39Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

GreedyGreedy Αλγόριθμος Αλγόριθμος:: 3 στάδια αλγορίθμου :

– Κάθε κόμβος (για κάθε ποσότητα) εκτιμάει το max NSE δεδομένων κάτω από αυτόν

– Κάθε κόμβος (για κάθε ποσότητα) υπολογίζει το SET τιμών στο υποδέντρο του με τη μέγιστη μείωση του max NSE/χώρος(SET)

– Αύξηση πιθανότητας επιλογής των τιμών στο SET της ποσότητας με το max {max NSE}

Page 40: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

40Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Στάδιο 1: Εκτίμηση Στάδιο 1: Εκτίμηση max NSE max NSE στο στο υπόδεντρουπόδεντρο Υπολογισμός σαν να είμασταν στη βέλτιστη

λύση στην τρέχουσα ανάθεση πιθανοτήτων επιλογής

Υπολογισμός από κάτω προς τα πάνω

2i

i

2i+1G = [15,20]

G = [18,19]

Var(i,yi) = [0,2]

Niif

Niif

jiGjiNorm

ycVar

jiGjiNormycVar

jiG ijij

ijij

0

],12[),12(

),(

],2[),2(),(

max],[

Σωστό μόνο στη βέλτιστη

λύση

Page 41: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

41Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Στάδιο Στάδιο 22: Υπολογισμός Υποψηφίων : Υπολογισμός Υποψηφίων SETSET Επιλογή Set(i,j):

cij cij Set(k,j), k is index of subtree that determines

P[i,j] Set(2i,j) Set(2i+1,j)

Χώρος για αύξηση πιθανότητας επιλογής δyij:

Επιλογή λύσης με καλύτερο λόγο μείωσης P[i,j]/χώρου

jp

ipijijij yHyyECE ))1(1()|],[|(

)1|],[|(],[),( q

ECEjispace kjiSetcj

kj

Page 42: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

42Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Στάδιο Στάδιο 33: Αύξηση Πιθανοτήτων : Αύξηση Πιθανοτήτων ΕπιλογήςΕπιλογής Διάσχιση από πάνω προς τα κάτω Αν επιλογή Set(i,j):

cij, αύξησε πιθανότητα επιλογής του συντελεστή cij Set(k,j), αύξησε πιθανότητα επιλογής του

συντελεστή και προχώρησε στο σωστό υποδέντρο Set(2i,j) Set(2i+1,j), προχώρησε στα 2 υποδέντρα

Πολυπλοκότητες χαμηλές: Χώρος: Ο(ΝzΜ) Χρόνος: O((ΝzΜ + BMqlogN)D2D)

Page 43: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

43Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Χρόνος ΕκτέλεσηςΧρόνος Εκτέλεσης

Page 44: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

44Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μέγιστο ΣφάλμαΜέγιστο Σφάλμα

Page 45: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

45Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΔιάγραμμαΔιάγραμμα Εισαγωγή Σχετική Έρευνα Προσέγγιση με Wavelets (πολυδιάστατα

δεδομένα) Προσέγγιση χρονοσειρών

– Γραμμικές Συσχετίσεις– Προσέγγιση μέσω λεξικού– Κατασκευή λεξικού

Συμπεράσματα

Page 46: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

46Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ορισμός ΠροβλήματοςΟρισμός Προβλήματος Εμπνευσμένο από δίκτυα αισθητήρων

– Κόμβοι παρατηρούν πολλαπλές ποσότητες– Απλή εφαρμογή σε προσέγγιση πολλαπλών χρονοσειρών

Χρειάζεται να εκπέμψω NxM τιμές δεδομένων– N παρατηρούμενες ποσότητες με M τιμές η κάθε μία

Θέλω να καταναλώσω bandwidth (=συνολικές λέξεις που εκπέμπω) B << NxM

• Εδώ χρειάζεται η προσέγγιση

Ελαχιστοποίση ορισμένου μέτρου σφάλματος της συμπιεσμένης μορφής

Page 47: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

47Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Λογική της Λύσης μαςΛογική της Λύσης μας

Πολλές συλλεγμένες τιμές μπορεί να είναι συσχετισμένες– Συσχετίσεις μεταξύ διαφορετικών ποσοτήτων

• Πχ: πίεση και υγρασία– Συσχετίσεις μεταξύ τιμών της ίδιας ποσότητας

• Πχ: περιοδικότητα, παρόμοιες τάσεις

Πώς να εκμεταλλευτούμε τις συσχετίσεις?

Page 48: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

48Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Παράδειγμα Συσχετισμένων ΔεδομένωνΠαράδειγμα Συσχετισμένων Δεδομένων

Page 49: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

49Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κύρια ΙδέαΚύρια Ιδέα Δημιούργησε ένα λεξικό με

χαρακτηριστικά των δεδομένων (κύριο σήμα)

Χώρισε δεδομένα σε διαστήματα– Μεταβλητός αριθμός/μήκος διαστημάτων

ανά ποσότητα– Κωδικοποίησε κάθε διάστημα μέσω του

λεξικού– Χρησιμοποίησε γραμμική παλινδρόμηση για

την κωδικοποίησηbXaY

Page 50: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

50Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Σκίτσο της Τεχνικής μαςΣκίτσο της Τεχνικής μας

Total Size = B

Page 51: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

51Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Αποφάσεις ΑλγορίθμουΑποφάσεις Αλγορίθμου

1. Χώρος για κύριο σήμα (λεξικό)– Περισσότερος χώρος για το κύριο σήμα σημαίνει

λιγότερος χώρος για την προσέγγιση!2. Δημιούργησε/Ενημέρωσε το κύριο σήμα

– Βρες χαρακτηριστικά τμήματα, αναγνώρισε μεταβολές

3. Συμπίεσε δεδομένα μέσω του κύριου σήματος– Σπάσε δεδομένα σε διαστήματα μεταβλητού μεγέθους– Κωδικοποίησε κάθε διάστημα μέσω του κύριου

σήματος (εκμετάλλευση γραμμικών συσχετίσεων)

Page 52: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

52Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κωδικοποιώντας κάθε Σήμα Κωδικοποιώντας κάθε Σήμα ΔεδομένωνΔεδομένων Κύριο Σήμα αποτελείται από

διαστήματα μεγέθους W Ολίσθησε διάστημα δεδομένων στο

κύριο σήμα– Κωδικοποίησε στη θέση με το μικρότερο

λάθος

W W W W W W W W W W

Base Signal

Data Interval

Page 53: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

53Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προσεγγίζοντας τα ΣήματαΠροσεγγίζοντας τα Σήματα

Δημιούργησε 1 διάστημα για κάθε ένα από τα N σήματα– Προσεγγισμένα διαστήματα χρειάζονται 4 τιμές

Όσο υπάρχει ακόμα χώρος– Διάσπασε το διάστημα με το μεγαλύτερο σφάλμα σε 2

κομμάτια– Κωδικοποίησε κάθε κομμάτι με τον προηγούμενο αλγόριθμο

Αλγόριθμος δίνει περισσότερο χώρο σε σήματα που είναι δυσκολότερο να προσεγγιστούνε

Page 54: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

54Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κατασκευάζοντας το Κύριο ΣήμαΚατασκευάζοντας το Κύριο Σήμα Υποψήφια Διαστήματα Βάσης (ΥΔΒ) Προσέγγισε κάθε ΥΔΒ με όλα τα άλλα

– Όφελος προσέγγισης είναι μείωση λάθους σε σύγκριση με απλή γραμμική παλινδρόμηση

Διάλεξε ΥΔΒ με μεγαλύτερο όφελος– Προσάρμοσε οφέλη των άλλων ΥΔΒ & επανέλαβε

Μην εισάγεις όλα τα ΥΔΒ!– Δυαδική έρευνα για πόσα ΥΔΒ θα βάλουμε

Αντικατέστησε διαστήματα Κύριου Σήματος με LFU

WMN

Page 55: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

55Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Αποφασίζοντας το μέγεθος του κυρίου Αποφασίζοντας το μέγεθος του κυρίου σήματοςσήματος

Page 56: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

56Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κάποια ΑποτελέσματαΚάποια Αποτελέσματα (SSE (SSE σφάλμασφάλμα))

Συμπίεση

Weather

Phone Stock Mixed

5% 1.89 1.63 1.38 2.7910% 2.04 2.01 1.70 3.2915% 2.46 2.12 2.00 4.3520% 3.02 2.61 2.44 6.4325% 3.74 2.93 2.50 11.2230% 4.44 3.24 3.67 27.00Λόγος Σφάλματος της δεύτερης καλύτερης προσέγγισης προς το σφάλμα του αλγορίθμου μας

Page 57: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

57Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κάποια αποτελέσματαΚάποια αποτελέσματα (SSRE (SSRE σφάλμασφάλμα))

Συμπίεση Phone Mixed5% 9.78 18610% 5.97 23415% 4.31 28420% 5.37 37125% 5.21 1,03430% 6.22 526Λόγος Σφάλματος της δεύτερης καλύτερης προσέγγισης προς το σφάλμα του αλγορίθμου μας

Page 58: Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

58Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΣυμπεράσματαΣυμπεράσματα Δεδομένα με πολλαπλές ποσότητες δίνουν

ευκαιρίες για καλύτερη προσέγγιση– Συσχετίσεις– Δίκαιη κατανομή χώρου– Εξαρτήσεις στην αποθήκευση

Εκμετάλλευση παραπάνω χαρακτηριστικών– Μπορεί να γίνει αποδοτικά– Πολύ πιο ακριβείς συνόψεις από προηγούμενες

τεχνικές