Download - Descriptive Statistics Slides

Transcript
Page 1: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Περιγραφική Στατιστική

Page 2: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Παράδειγμα

1•

Γίνεται

μια

μελέτη

για

τους

τραυματισμούς

στο

μάτι

(σοβαροί

ή

όχι

τόσο

σοβαροί) κατά

τη

διάρκεια

αγώνων τέννις, squash, badminton και

ρακέτας.

Ηλικία Άντρας Γυναίκα Άντρας Γυναίκα< 30 7 1 4 5

30-50 9 10 10 27> 50 4 0 4 1

Σύνολο 20 11 18 33

Σοβαρός Τραυματισμός Επιπόλαιος Τραυματισμός

Page 3: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Παράδειγμα

2

Πραγματοποιείται

μια

μελέτη

για

την

επίδραση

του

αλκοόλ στα

επίπεδα

χοληστερόλης.

Χ

μετράει

το

ποσό

του

αλκοόλ

το

οποίο

μετριέται

ανά εβδομάδα

και

ανά

άτομο.

i Όρια f i F i F i /n1 0 - 2.5 201 201 0.2182 2.5 - 5.0 372 573 0.6213 5.0 - 7.5 260 833 0.9024 7.5 - 10 80 913 0.9895 ≥10 10 923 1.000

Page 4: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

f i f i /nA 19 0.543B 16 0.457 A

B

Page 5: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

f i f i /nA 19 0.543B 16 0.457

0.400

0.420

0.440

0.460

0.480

0.500

0.520

0.540

0.560

A B

Page 6: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

Τάξεις f i f i /n%0 - 9 5 7.7%

110 - 19 11 16.9%20 - 29 20 30.8%30 - 39 9 13.8%40 - 49 13 20.0%50 - 59 7 10.8%

0

5

10

15

20

25

0 -- 9 10 -- 19 20 -- 29 30 -- 39 40 -- 49 50 -- 59

Page 7: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

(Πολύγωνο

Συχνοτήτων)

Τάξεις f i f i /n%0 - 9 5 7.7%

110 - 19 11 16.9%20 - 29 20 30.8%30 - 39 9 13.8%40 - 49 13 20.0%50 - 59 7 10.8%

0

5

10

15

20

25

0 -- 9 10 -- 19 20 -- 29 30 -- 39 40 -- 49 50 -- 59

Page 8: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΓΡΑΦΙΚΕΣ

ΠΑΡΑΣΤΑΣΕΙΣ

1.

Κυκλικά

Διαγράμματα

(Pies)2.

Ραβδογράμματα

3.

Ιστογράμματα

(Κατανομή)

Τάξεις f i f i /n%0 - 9 5 7.7%

110 - 19 11 16.9%20 - 29 20 30.8%30 - 39 9 13.8%40 - 49 13 20.0%50 - 59 7 10.8%

0

5

10

15

20

25

0 -- 9 10 -- 19 20 -- 29 30 -- 39 40 -- 49 50 -- 59

Page 9: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Σχέση

Μέσου

-

Διαμέσου

-

Κορυφής

x

x

-2 -1 1 2

0.1

0.2

0.3

0.4

Αν

η

κατανομή

είναι

συμμετρικήτότε

αυτά

συμπίπτουν

2 4 6 8 10 12 14

0.02

0.04

0.06

0.08

0.1

0.12

Αν

η

κατανομή

είναι

θετικάΑσύμμετρη

(Μ < m <

)

0.2 0.4 0.6 0.8 1 1.2

0.2

0.4

0.6

0.8

Αν

η

κατανομή

είναι

αρνητικάΑσύμμετρη

(Μ >

m > )

x

x

Page 10: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ποσοστημόρια

(Percentiles)

ΟρισμόςΕίναι

εκείνη

η

τιμή

των

διατεταγμένων

δεδομένων, όπου

τουλάχιστον

το

100 p% αυτών

των

δεδομένων

είναι

κάτω

από αυτήν

την

τιμή

και

το

100 (1-p)% είναι

τουλάχιστον

πάνω

από

αυτήν

την

τιμή.

Page 11: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ποσοστημόρια

(Percentiles)

Ειδικές

Περιπτώσεις1.

Πρώτο

τεταρτημόριο

(quartile)

Q1

αφήνει

δεξιά

το

75% των

παρατηρήσεων2.

Τρίτο

τεταρτημόριο

Q3

αφήνει

δεξιά

το

25% των

παρατηρήσεων3.

Διάμεσος

(Q2

)4.

Δεκατημόρια

(Dk )

5.

Εκατοστημόρια

(Pk )

⎟⎠⎞

⎜⎝⎛ +

41n

⎟⎠⎞

⎜⎝⎛ +

4)1(3 n

⎟⎠⎞

⎜⎝⎛ +

10)1(nk

⎟⎠⎞

⎜⎝⎛ +

100)1(nk

Page 12: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ποσοστημόρια

(Percentiles)

Παράδειγμα

1 4, 6, 7, 15, 18, 20, 25n= 7,

Q1 = 6

Q3 = 20

24

17=

+

64

)17(3=

+

Page 13: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ποσοστημόρια

(Percentiles)

Παράδειγμα

2

4, 6, 7, 15, 18, 20, 23, 25n= 8,

Q1 = 6.25 (Πάω

στη

παρατήρηση και

παίρνω

το

25% της

απόστασής

της

από

την

.)

Q3 = 22.25

(Πάω

στη

παρατήρηση και

παίρνω

το

75% της

απόστασής

της

από

την

.)

25.24

18=

+

75.64

)18(3=

+

Page 14: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ομαδοποιημένα

Δεδομένα

Το

q ποσοστημόριο

εντοπίζεται

στην

κλάση

που περιέχει

την

qn παρατήρηση, δηλαδή

εάν,

Fi-1

< q n ≤

Fi

τότε

το

ποσοστημόριο

βρίσκεται

στην

i-τάξη

και δίνεται

από

τον

τύπο:

)( 11 −− −+= ii

ii Fqn

fhaP

Page 15: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΠαράδειγμαΤάξεις f i f i /h i F i

0 - 5 3 0,6 315 - 10 7 1,4 10

110 - 20 16 1,6 2620 - 35 18 1,2 4435 - 60 12 0,8 56

60 -100 4 0,1 60

Να

υπολογιστούν

η διάμεσος, Q3

, d7

, P5

.

Q2

= m , q = , q n = 60 = 30

Q2

= 20 + (30 -

26) = 23.33

21

21

1815

)( 11 −− −+= ii

ii Fqn

fhaP

Page 16: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΠαράδειγμαΤάξεις f i f i /h i F i

0 - 5 3 0,6 315 - 10 7 1,4 10

110 - 20 16 1,6 2620 - 35 18 1,2 4435 - 60 12 0,8 56

60 -100 4 0,1 60

Να

υπολογιστούν

η διάμεσος, Q3

, d7

, P5

.

q = , q n = 60 = 45

Q3

= 35 + (45 -

44) = 37.08

43

43

1225

)( 11 −− −+= ii

ii Fqn

fhaP

Page 17: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΠαράδειγμαΤάξεις f i f i /h i F i

0 - 5 3 0,6 315 - 10 7 1,4 10

110 - 20 16 1,6 2620 - 35 18 1,2 4435 - 60 12 0,8 56

60 -100 4 0,1 60

Να

υπολογιστούν

η διάμεσος, Q3

, d7

, P5

.

q = , q n = 60 = 42

d7

= 20 + (42 -

26) = 33.3

107

1815

107

)( 11 −− −+= ii

ii Fqn

fhaP

Page 18: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΠαράδειγμαΤάξεις f i f i /h i F i

0 - 5 3 0,6 315 - 10 7 1,4 10

110 - 20 16 1,6 2620 - 35 18 1,2 4435 - 60 12 0,8 56

60 -100 4 0,1 60

Να

υπολογιστούν

η διάμεσος, Q3

, d7

, P5

.

q = , q n = 60 = 3

P5

= 0 + (3 -

0) = 5

1005

35

1005

)( 11 −− −+= ii

ii Fqn

fhaP

Page 19: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Ασυμμετρία (skewness)

x

2 4 6 8 10 12 14

0.02

0.04

0.06

0.08

0.1

0.12

Αν

g1

> 0 → θετική ασυμμετρία

0.2 0.4 0.6 0.8 1 1.2

0.2

0.4

0.6

0.8

Πολλές

φορές

μας

ενδιαφέρει

να

ελέγξουμε

την

ασυμμετρία

της

κατανομής

( ) 23

23

1

2

1

3

'2

'3

1

)(1

)(1

⎟⎠

⎞⎜⎝

⎛−

−==

=

=

n

ii

n

ii

xxn

xxn

mmg

Αν

g1

< 0 → αρνητική

ασυμμετρία

Page 20: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Κύρτωση (Kurtosis)

Αν

g2 » → οι

ουρές

της

κατανομής

είναι

πλατιές. (outliers)

Αν

g2 « → οι

ουρές

της

κατανομής

είναι

κοντές.-4 -2 2 4

0.1

0.2

0.3

0.4

-4 -2 2 4

0.1

0.2

0.3

0.4

( ) 3)(1

)(1

3 2

1

2

1

4

2'2

'4

2 −

⎟⎠

⎞⎜⎝

⎛−

−=−=

=

=

n

ii

n

ii

xxn

xxn

mmg

Page 21: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Box Plots-100 36 42 -5

2 35 38 54 38 53 -116 34 -23 -38 29 -33 -2

12 9 -15 9515 10 -16 9213 30 -17 -6025 27 -9 3323 100 -4 -33

StatisticsvarMean 12.08Median 9.50Variance 1,428.328

Skewness -0.080Kurtosis 1.898Minimum -100Maximum 100Percentiles 25 -8.00

50 9.5075 33.75

Page 22: Descriptive Statistics Slides

Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

Box Plots-100 36 42 -5

2 35 38 54 38 53 -116 34 -23 -38 29 -33 -2

12 9 -15 9515 10 -16 9213 30 -17 -6025 27 -9 3323 100 -4 -33

-100

-50

0

50

100

var

A

AA