Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική...

43
Περιγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 16 Περιγραφική Στατιστική Όπως, ήδη έχουμε αναφέρει, στόχος της Περιγραφικής Στατιστικής είναι, «η ανάπτυξη μεθόδων για τη συνοπτική και την αποτελεσματική παρουσίαση των δεδομένων». Για το σκοπό αυτό, έχουν αναπτυχθεί, 1. Μέθοδοι πινακοποίησης των δεδομένων 2. Μέθοδοι γραφικής παρουσίασης των δεδομένων 3. Αριθμητικά περιγραφικά μέτρα 1 Οι μέθοδοι παρουσίασης-περιγραφής δεδομένων και γενικότερα οι Στατιστικές μέθοδοι, δεν εφαρμόζονται όλες σε όλους τους τύπους μεταβλητών. Για παράδειγμα, οι δυνατότητες που έχουμε για την περιγραφή των δεδομένων του Πίνακα-1 δεν είναι ίδιες και για τις τέσσερις μεταβλητές (επάγγελμα πατέρα, επίπεδο εκπαίδευσης πατέρα, μηνιαίο εισόδημα πατέρα και αριθμός παιδιών οικογένειας). Πίνακας-1 Οικογένεια Επάγγελμα πατέρα Επίπεδο εκπαίδευσης πατέρα 2 Μηνιαίο εισόδημα πατέρα σε Αριθμός παιδιών οικογένειας 1 Εργάτης 1 1.400 0 2 Οδηγός 3 1.500 1 3 Εργάτης 2 1.600 0 4 Δημ. Υπάλληλος 3 1.400 2 5 Δημ. Υπάλληλος 3 1.600 2 6 Δημ. Υπάλληλος 2 1.000 2 7 Δάσκαλος 3 1.800 3 8 Ιδιωτ. Υπάλληλος 4 2.000 2 9 Οδηγός 2 1.200 4 10 Εργάτης 2 1.200 1 11 Δάσκαλος 3 1.400 1 12 Δάσκαλος 3 1.200 2 13 Δάσκαλος 3 1.600 3 14 Δημ. Υπάλληλος 2 1.400 4 15 Ιδιωτ. Υπάλληλος 3 1.800 1 16 Δάσκαλος 3 2.000 2 17 Εργάτης 1 1.800 2 18 Δημ. Υπάλληλος 3 1.300 2 19 Δάσκαλος 3 1.500 2 20 Δημ. Υπάλληλος 4 1.600 2 Επίσης, συμβαίνει, οι ίδιες μέθοδοι σε κάποιες περιπτώσεις να διαφοροποιούνται μεταξύ διαφόρων τύπων μεταβλητών. Για παράδειγμα, η μέση τιμή της μεταβλητής κατεύθυνση του ίχνους της κίνησης πάγων του παρακάτω πίνακα, ως έννοια είναι ανάλογη της μέσης τιμής της μεταβλητής μηνιαίο εισόδημα πατέρα του Πίνακα-1, όμως η μέθοδος υπολογισμού της διαφοροποιείται σημαντικά. 1 Τα αριθμητικά περιγραφικά μέτρα είναι αριθμητικά μεγέθη τα οποία βοηθούν στην περιγραφή της κατανομής των δεδομένων. Πολλά από αυτά χρησιμοποιούνται και στη στατιστική συμπερασματολογία. Τα αριθμητικά περιγραφικά μέτρα για τον πληθυσμό ονομάζονται παράμετροι (parameters) ενώ για το δείγμα ονομάζονται στατιστικά (summary statistics). 2 1= Πρωτοβάθμια Εκπαίδευση, 2= Δευτεροβάθμια Εκπαίδευση, 3= Τριτοβάθμια Εκπαίδευση και 4=Μεταπτυχιακές Σπουδές

Transcript of Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική...

Page 1: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 16

Περιγραφική Στατιστική

Όπως, ήδη έχουμε αναφέρει, στόχος της Περιγραφικής Στατιστικής είναι, «η ανάπτυξη μεθόδων για τη συνοπτική και την αποτελεσματική παρουσίαση των δεδομένων». Για το σκοπό αυτό, έχουν αναπτυχθεί, 1. Μέθοδοι πινακοποίησης των δεδομένων 2. Μέθοδοι γραφικής παρουσίασης των δεδομένων 3. Αριθμητικά περιγραφικά μέτρα1 Οι μέθοδοι παρουσίασης-περιγραφής δεδομένων και γενικότερα οι Στατιστικές μέθοδοι, δεν εφαρμόζονται όλες σε όλους τους τύπους μεταβλητών. Για παράδειγμα, οι δυνατότητες που έχουμε για την περιγραφή των δεδομένων του Πίνακα-1 δεν είναι ίδιες και για τις τέσσερις μεταβλητές (επάγγελμα πατέρα, επίπεδο εκπαίδευσης πατέρα, μηνιαίο εισόδημα πατέρα και αριθμός παιδιών οικογένειας).

Πίνακας-1 Οικογένεια Επάγγελμα

πατέρα Επίπεδο

εκπαίδευσης πατέρα2

Μηνιαίο εισόδημα πατέρα σε €

Αριθμός παιδιών

οικογένειας 1 Εργάτης 1 1.400 0 2 Οδηγός 3 1.500 1 3 Εργάτης 2 1.600 0 4 Δημ. Υπάλληλος 3 1.400 2 5 Δημ. Υπάλληλος 3 1.600 2 6 Δημ. Υπάλληλος 2 1.000 2 7 Δάσκαλος 3 1.800 3 8 Ιδιωτ. Υπάλληλος 4 2.000 2 9 Οδηγός 2 1.200 4

10 Εργάτης 2 1.200 1 11 Δάσκαλος 3 1.400 1 12 Δάσκαλος 3 1.200 2 13 Δάσκαλος 3 1.600 3 14 Δημ. Υπάλληλος 2 1.400 4 15 Ιδιωτ. Υπάλληλος 3 1.800 1 16 Δάσκαλος 3 2.000 2 17 Εργάτης 1 1.800 2 18 Δημ. Υπάλληλος 3 1.300 2 19 Δάσκαλος 3 1.500 2 20 Δημ. Υπάλληλος 4 1.600 2

Επίσης, συμβαίνει, οι ίδιες μέθοδοι σε κάποιες περιπτώσεις να διαφοροποιούνται μεταξύ διαφόρων τύπων μεταβλητών. Για παράδειγμα, η μέση τιμή της μεταβλητής κατεύθυνση του ίχνους της κίνησης πάγων του παρακάτω πίνακα, ως έννοια είναι ανάλογη της μέσης τιμής της μεταβλητής μηνιαίο εισόδημα πατέρα του Πίνακα-1, όμως η μέθοδος υπολογισμού της διαφοροποιείται σημαντικά.

1 Τα αριθμητικά περιγραφικά μέτρα είναι αριθμητικά μεγέθη τα οποία βοηθούν στην περιγραφή της κατανομής των δεδομένων. Πολλά από αυτά χρησιμοποιούνται και στη στατιστική συμπερασματολογία. Τα αριθμητικά περιγραφικά μέτρα για τον πληθυσμό ονομάζονται παράμετροι (parameters) ενώ για το δείγμα ονομάζονται στατιστικά (summary statistics). 2 1= Πρωτοβάθμια Εκπαίδευση, 2= Δευτεροβάθμια Εκπαίδευση, 3= Τριτοβάθμια Εκπαίδευση και 4=Μεταπτυχιακές Σπουδές

Page 2: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 17

Κατεύθυνση-φορά του ίχνους της κίνησης πάγων

(σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου)

23 93 121 128 137 155 186 27 99 123 128 144 157 190 53 100 125 129 145 163 212 58 105 126 132 145 165 64 113 126 132 146 171 83 113 126 132 153 172 85 114 127 134 155 179 88 117 127 135 155 181

Στη συνέχεια, θα παρουσιάσουμε συνοπτικά τις δυνατότητες που μας προσφέρει η Περιγραφική Στατιστική ανά τύπο μεταβλητής. Έστω νχχχ ...,,, 21 οι τιμές μιας μεταβλητής στις ν μονάδες ενός δείγματος και

( )ν≤kyyy k...,,, 21 οι k διαφορετικές, μεταξύ τους, τιμές από τις νχχχ ...,,, 21 . Έστω, επίσης, kfff ,...,, 21 οι σχετικές συχνότητες, kννν ,...,, 21 οι απόλυτες συχνότητες, kFFF ,...,, 21 οι σχετικές αθροιστικές συχνότητες και kNNN ,...,, 21 οι αθροιστικές συχνότητες των kyyy ...,,, 21 . Ποσοτικές Μεταβλητές Για τις ποσοτικές μεταβλητές, η Περιγραφική Στατιστική προσφέρει, μεταξύ άλλων, τις ακόλουθες δυνατότητες:

Κατασκευή Πίνακα Συχνοτήτων Ο πίνακας συχνοτήτων μιας ποσοτικής μεταβλητής περιλαμβάνει τις συχνότητες, τις σχετικές συχνότητες, τις αθροιστικές συχνότητες και τις σχετικές αθροιστικές συχνότητες των τιμών της. Παράδειγμα: Ο πίνακας συχνοτήτων των τιμών της μεταβλητής αριθμός παιδιών οικογένειας είναι:

iy iν if iN iF 0 2 0,1 2 0,1 1 4 0,2 6 0,3 2 10 0,5 16 0,8 3 2 0,1 18 0,9 4 2 0,1 20 1 Σύνολα 20 1

Ο πίνακας συχνοτήτων των τιμών της μεταβλητής μηνιαίο εισόδημα πατέρα, ομαδοποιημένων σε έξι κλάσεις, είναι:

Κλάσεις iy iν if iN iF

<900 - 0 0 0 0 [900 1100) 1000 1 0,05 1 0,05 [1100 1300) 1200 4 0,2 5 0,25 [1300 1500) 1400 6 0,3 11 0,55 [1500 1700) 1600 4 0,2 15 0,75 [1700 1900) 1800 3 0,15 18 0,9 [1900 2100) 2000 2 0,1 20 1 ≥ 2100 - 0 0 20 1 Σύνολα 20 1

Page 3: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 18

Κατασκευή διαγραμμάτων

• Διάγραμμα και Πολύγωνο Συχνοτήτων, Σχετικών Συχνοτήτων, Αθροιστικών Συχνοτήτων και Σχετικών Αθροιστικών Συχνοτήτων (για διακριτές)

• Ιστόγραμμα και Πολύγωνο Συχνοτήτων, Σχετικών Συχνοτήτων, Αθροιστικών Συχνοτήτων και Σχετικών Αθροιστικών Συχνοτήτων (για συνεχείς κυρίως)

• Φυλλογράφημα • Θηκόγραμμα

Το ιστόγραμμα και το πολύγωνο συχνοτήτων και σχετικών συχνοτήτων της μεταβλητής μηνιαίο εισόδημα πατέρα του παραδείγματος είναι3:

Επισημαίνουμε ότι κάθε ορθογώνιο του ιστογράμματος σχεδιάζεται έτσι, ώστε, το εμβαδόν του να ισούται με τη συχνότητα (ή τη σχετική συχνότητα) της αντίστοιχης κλάσης4. Επομένως το συνολικό εμβαδόν των ορθογωνίων είναι ίσο με το πλήθος των παρατηρήσεων ν (ή είναι ίσο με 1). Επίσης, το εμβαδόν που περικλείεται μεταξύ του πολυγώνου συχνοτήτων ή σχετικών συχνοτήτων και του οριζόντιου άξονα είναι ίσο με ν ή με 1 αντίστοιχα. Οποιοδήποτε τμήμα αυτού του εμβαδού μπορεί να υπολογισθεί (ακριβέστερα, να εκτιμηθεί), δίνοντάς μας το ποσοστό των παρατηρήσεων που βρίσκονται μεταξύ δύο τιμών της μεταβλητής ή αριστερά μιας τιμής ή δεξιά μιας τιμής. Αν το πλάτος των κλάσεων είναι πολύ μικρό το πολύγωνο συχνοτήτων παίρνει μορφή λείας καμπύλης η οποία ονομάζεται καμπύλη συχνοτήτων.

3 Είναι προφανές ότι η μορφή του ιστογράμματος επηρεάζεται δραστικά από την επιλογή των κλάσεων. 4 Αν όλες οι κλάσεις έχουν ίδιο πλάτος, τότε προφανώς και τα ύψη των ορθογωνίων θα είναι ίσα με τις αντίστοιχες συχνότητες ή σχετικές συχνότητες. Αν όμως οι κλάσεις δεν έχουν ίδιο πλάτος τότε μόνο τα εμβαδά είναι ίσα με τις αντίστοιχες συχνότητες ή τις σχετικές συχνότητες και όχι τα ύψη.

01

23

45

67

800 1000 1200 1400 1600 1800 2000 2200

Συχνότητες

00,05

0,10,15

0,20,25

0,30,35

Σχετικές

Συχνότητες

01234567

800 1000 1200 1400 1600 1800 2000 2200

Συχνότητες

00,050,10,150,20,250,30,35

Σχετικές

Συχνότητες

Page 4: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 19

Οι καμπύλες συχνοτήτων, πέραν της προφανούς χρησιμότητάς τους στο πλαίσιο της Περιγραφικής Στατιστικής, έχουν μεγάλη σπουδαιότητα στη Θεωρία Πιθανοτήτων και στη Στατιστική Συμπερασματολογία5. Οι καμπύλες συχνοτήτων μπορεί να έχουν διάφορες μορφές όπως:

Όταν μια καμπύλη συχνοτήτων είναι συμμετρική ως προς τον κατακόρυφο άξονα που διέρχεται από την κορυφή της κατανομής, όπως η πρώτη από τις παραπάνω, τότε η κατανομή είναι συμμετρική. Τα δύο άκρα της καμπύλης λέγονται ουρές της κατανομής και πλησιάζουν ασυμπτωτικά τον άξονα των τιμών. Προφανώς, σε μια συμμετρική κατανομή, δεξιά και αριστερά του άξονα συμμετρίας βρίσκεται το ίδιο ποσοστό παρατηρήσεων (50%). Όταν η καμπύλη συχνοτήτων δεν είναι συμμετρική, δηλαδή, όταν δεξιά και αριστερά του κατακόρυφου άξονα που περνάει από την κορυφή δε βρίσκεται το ίδιο ποσοστό παρατηρήσεων, τότε η κατανομή είναι ασύμμετρη. Υπάρχουν δύο ειδών ασυμμετρίες:

5 Γιατί είναι μαθηματικά μοντέλα

Page 5: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 20

Θετικές και αρνητικές. Μια καμπύλη συχνοτήτων παρουσιάζει θετική ασυμμετρία όταν οι περισσότερες παρατηρήσεις βρίσκονται δεξιά της κορυφής, ενώ, παρουσιάζει αρνητική ασυμμετρία όταν οι περισσότερες παρατηρήσεις βρίσκονται αριστερά της κορυφής.

Θετική ασυμμετρία

Αρνητική ασυμμετρία Τέλος, οι καμπύλες συχνοτήτων, ανάλογα με το βαθμό συγκέντρωσης των παρατηρήσεων στο μέσο και στα άκρα της κατανομής, διακρίνονται σε μεσόκυρτες, λεπτόκυρτες, και πλατύκυρτες:

Μεσόκυρτη Λεπτόκυρτη Πλατύκυρτη Όταν η καμπύλη συχνοτήτων μιας κατανομής είναι συμμετρική και έχει κωδωνοειδές σχήμα η κατανομή ονομάζεται κανονική.

Η κανονική κατανομή είναι η πλέον χρησιμοποιούμενη κατανομή στη Θεωρία Πιθανοτήτων και στη Στατιστική Συμπερασματολογία. Στο επόμενο κεφάλαιο θα εξηγήσουμε γιατί συμβαίνει αυτό.

Page 6: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 21

Το ιστόγραμμα και το πολύγωνο αθροιστικών σχετικών συχνοτήτων της μεταβλητής μηνιαίο εισόδημα πατέρα του παραδείγματος είναι:

Το εμβαδόν (και το ύψος) κάθε ορθογωνίου είναι ίσο με την αθροιστική σχετική συχνότητα iF της αντίστοιχης κλάσης (ή με την αθροιστική συχνότητα iN ). Για παράδειγμα, μέχρι 1500€ μηνιαίο εισόδημα έχουν τόσοι πατεράδες όσο το εμβαδόν (και το ύψος) του ορθογωνίου που υψώνεται στο διάστημα με δεξί άκρο την τιμή 1500. Ερώτηση: Στα δύο σχήματα που ακολουθούν, φαίνονται τα πολύγωνα σχετικών συχνοτήτων και τα πολύγωνα αθροιστικών σχετικών συχνοτήτων δύο κατανομών δεδομένων. Σχολιάστε τη σχετική θέση των αντίστοιχων πολυγώνων στα δύο σχήματα. Ποια κατανομή είναι στοχαστικά μεγαλύτερη;

Page 7: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 22

Είναι προφανές, ότι με την ομαδοποίηση των παρατηρήσεων, χάνουμε σε πληροφορία αφού τόσο το ιστόγραμμα όσο και ο πίνακας συχνοτήτων δε διατηρούν τις αρχικές παρατηρήσεις. Αυτό το πρόβλημα μπορεί να αντιμετωπισθεί με την κατασκευή του φυλλογραφήματος (steam-leaf plots)6 των παρατηρήσεων. Για τη μεταβλητή μηνιαίο εισόδημα πατέρα, του παραδείγματος μας, μπορούμε να κατασκευάσουμε το φυλλογράφημα:

1 10|0 1 11| 4 12|000 5 13|0 9 14|0000 (2) 15|00 9 16|0000 5 17| 5 18|000 2 19| 2 20|00 Ως steam θεωρήσαμε τις εκατοντάδες και ως leaf τις δεκάδες. Δηλαδή, η τιμή 1200 αναπαρίσταται με 12|0 και η τιμή 1230 με 12 | 3. Είναι φανερό ότι από ένα φυλλογράφημα μπορεί κανείς, αμέσως, να διαπιστώσει αν μια συγκεκριμένη τιμή ανήκει (και πόσες φορές) στο δείγμα κάτι το οποίο δεν είναι δυνατόν να γίνει από ένα ιστόγραμμα. Για παράδειγμα, από το παραπάνω φυλλογράφημα εύκολα διαπιστώνουμε ότι η τιμή 1230 δεν υπάρχει στο δείγμα ενώ η τιμή 1600 υπάρχει και μάλιστα τέσσερις φορές. Το φυλλογράφημα, επηρεάζεται δραστικά από την επιλογή των steams όπως και το ιστόγραμμα επηρεάζεται δραστικά από την επιλογή των κλάσεων. Αξίζει, επίσης, να σημειώσουμε ότι η εικόνα-μορφή ενός φυλλογραφήματος είναι ανάλογη με αυτήν του αντίστοιχου ιστογράμματος (αν στραφεί κατά 900). Σημείωση: Στην πρώτη από αριστερά στήλη του φυλλογραφήματος φαίνονται οι αθροιστικές συχνότητες από πάνω προς τα κάτω και από κάτω προς τα πάνω μέχρι το steam στο οποίο περιλαμβάνεται η διάμεσος (στο παράδειγμά μας μέχρι το steam 15). Ας δούμε ένα ακόμη παράδειγμα: Με steam τις μονάδες και leaf τα δέκατα, το φυλλογράφημα των παρατηρήσεων 7,4 6,7 12,7 7,1 7,8 8,8 6,1 5,3 8,1 6,4 5,7 σε 5 steams είναι:

2 5|37 5 6|147 (3) 7|148 3 8|18 HI|12,7 Σημείωση: Με ΗΙ συμβολίζεται ένα steam που περιλαμβάνει μια «ασυνήθιστα μεγάλη τιμή». 6 Είναι μια από τις μεθόδους-τεχνικές της διερευνητικής ανάλυσης δεδομένων.

Page 8: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 23

Υπολογισμός μέτρων θέσης-κεντρικής τάσης (location measures-central

tendency measures) Τα μέτρα θέσης-κεντρικής τάσης μας δίνουν πληροφορίες για τη θέση της κατανομής των παρατηρήσεων. Τα πλέον χρησιμοποιούμενα είναι η μέση τιμή, η διάμεσος, η κορυφή και τα ποσοστημόρια.

Μέση τιμή ή Αριθμητικός μέσος (mean) Η μέση τιμή ενός πληθυσμού συμβολίζεται με μ και η μέση τιμή ενός δείγματος με χ .

∑∑

∑=

=

=

===k

iii

k

iii

ii yf

y

1

1

1

νχ

νχ

ν

Από τον ορισμό της μέσης τιμής, είναι φανερό ότι αν οι τιμές νχχχ ...,,, 21 είναι όλες μεταξύ τους ίσες, θα είναι ίσες με τη μέση τιμή τους. Φαίνεται, δηλαδή, ότι με τη μέση τιμή επιδιώκεται να ορισθεί ένας «τυπικός εκπρόσωπος» των παρατηρήσεων. Το γεγονός, όμως, ότι στον υπολογισμό της συμμετέχει το άθροισμα όλων των παρατηρήσεων, την καθιστά ευαίσθητη σε ακραίες-έκτροπες (outlying ή unusual) παρατηρήσεις7. Κατά συνέπεια, η μέση τιμή αποκρύπτει (από τον ανυποψίαστο) τις έκτροπες παρατηρήσεις. Δηλαδή, όταν υπάρχουν έκτροπες παρατηρήσεις, η μέση τιμή δίνει παραπλανητική εικόνα αν θεωρηθεί «τυπικός εκπρόσωπος» των παρατηρήσεων. Βέβαια, αν πάρουμε τις διαφορές των παρατηρήσεων από τη μέση τιμή τους, οι ακραίες τιμές αποκαλύπτονται. Παράδειγμα: Ο ιδιοκτήτης μιας μικρής επιχείρησης που απασχολεί πέντε εργαζομένους ισχυρίσθηκε σε δημοσιογράφο τοπικής εφημερίδας ότι οι εργαζόμενοι στην επιχείρησή του είναι πολύ καλά αμειβόμενοι αφού ο μέσος μισθός τους είναι 2.000 €. Ο «υποψιασμένος» δημοσιογράφος ερεύνησε λεπτομερέστερα το θέμα και βρήκε ότι οι μισθοί των εργαζομένων ήταν 400, 400, 500, 700 και 8.000 € αντίστοιχα!8 Η μέση τιμή έχει, μεταξύ άλλων, τις παρακάτω ενδιαφέρουσες ιδιότητες:

♦ 0)()(11

=−=− ∑∑==

i

k

ii

ii y νχχχ

ν

Δηλαδή, το άθροισμα των αποστάσεων (αποκλίσεων) των παρατηρήσεων νχχχ ...,,, 21 από τη μέση τιμή τους χ , είναι 0. Δηλαδή, η μέση τιμή είναι το σημείο

ισορροπίας της κατανομής των δεδομένων. Παράδειγμα: Για την κατανομή

iy iν 2 1 3 5 4 3 6 1

Σύνολο 10

7 Στο πλαίσιο όμως της Θεωρίας Πιθανοτήτων και της Στατιστικής Συμπερασματολογίας, αυτό είναι το μεγάλο της πλεονέκτημα! (βλ. Κεντρικό Οριακό Θεώρημα στο επόμενο κεφάλαιο) 8 Ο μισθός των 8.000 € ήταν του manager και συνιδιοκτήτη!

Page 9: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 24

προφανώς, είναι χ = 3,5 που σημαίνει ότι, αν στις θέσεις iy ενός άξονα τοποθετήσουμε ως βάρη τις αντίστοιχες συχνότητες iν τότε ο άξονας θα έχει σημείο ισορροπίας τη θέση 3,5.

Επίσης, αυτή η ιδιότητα μας λεει ότι αν από τις ν διαφορές χχ −i γνωρίζουμε τις 1−ν , τότε μπορούμε να υπολογίσουμε και τη ν -οστή. Επομένως, μπορούμε να

υπολογίσουμε το άθροισμα ∑=

−ν

χχ1

2)(i

i αν γνωρίζουμε τους 1−ν από τους ν όρους

του. Στη συνέχεια του μαθήματος θα επανέλθουμε στη σημασία αυτής της ιδιότητας.

♦ λλχχχνν

∀−<− ∑∑==

,)()( 2

11

2

ii

ii

Δηλαδή, το άθροισμα των τετραγώνων των αποκλίσεων των παρατηρήσεων

νχχχ ...,,, 21 από τη μέση τιμή τους χ , είναι μικρότερο από το άθροισμα των τετραγώνων των αποκλίσεών τους από οποιαδήποτε άλλη τιμή λ . Ή αλλιώς, το

άθροισμα ∑=

−ν

λχ1

2)(i

i γίνεται ελάχιστο αν και μόνο αν χλ = .

♦ Αν βχω += ii τότε βχω += . Δηλαδή, αν στις παρατηρήσεις νχχχ ...,,, 21 προσθέσουμε μια σταθερή ποσότητα β (θετική ή αρνητική), τότε ο αριθμητικός μέσος τους θα αυξηθεί (ή θα μειωθεί) κατά την ίδια ποσότητα. ♦ Αν ii χαω ⋅= τότε χαω ⋅= . Δηλαδή, αν οι παρατηρήσεις νχχχ ...,,, 21 πολλαπλασιασθούν με την ίδια ποσότητα α , τότε ο αριθμητικός μέσος τους θα πολλαπλασιασθεί με την ίδια ποσότητα. ♦ Γενικά, αν βχαω +⋅= ii τότε βχαω +⋅= Συνοπτικά, η μέση τιμή έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα:

Πλεονεκτήματα Μειονεκτήματα • Για τον υπολογισμό της χρησιμοποιούνται όλες οι τιμές.

• Είναι μοναδική για κάθε σύνολο δεδομένων.

• Είναι εύκολα κατανοητή. • Ο υπολογισμός της είναι σχετικά εύκολος.

• Αξιοποιείται στη στατιστική συμπερασματολογία

• Επηρεάζεται πολύ από ακραίες τιμές.

• Μπορεί να μην αντιστοιχεί σε δυνατή τιμή της μεταβλητής.

• Δεν υπολογίζεται για ποιοτικά δεδομένα.

• Είναι δύσκολος ο υπολογισμός της σε ομαδοποιημένα δεδομένα με ανοικτές τις ακραίες κλάσεις.

Page 10: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 25

Σταθμικός αριθμητικός μέσος (weighted mean) Χρησιμοποιείται στις περιπτώσεις που τα νχχχ ...,,, 21 έχουν διαφορετική αξία (διαφορετικό βάρος) νwww ...,,, 21 , αντίστοιχα.

=

== ν

ν

χχ

1

1

ii

iii

w

w

w

Ο σταθμικός αριθμητικός μέσος διατηρεί τις ιδιότητες του αστάθμητου αριθμητικού μέσου. Παράδειγμα: Ένας οδηγός φορτηγού διανομής τροφίμων, αγόρασε σε μια ημέρα πετρέλαιο από τρία διαφορετικά πρατήρια. Από το πρώτο αγόρασε 6 λίτρα προς 0,75 € το λίτρο, από το δεύτερο 12 λίτρα προς 0,84 € το λίτρο και από το τρίτο 5 λίτρα προς 0,76 € το λίτρο. Προφανώς, για να υπολογισθεί το μέσο ποσό που πλήρωσε ανά λίτρο ο οδηγός πρέπει να χρησιμοποιηθεί ο σταθμικός μέσος:

799.05126

76.0584,01275,06

1

1 =++

⋅+⋅+⋅==

=

ν

χχ

ii

iii

w

w

w€ ανά λίτρο

Ο αριθμητικός μέσος των αριθμητικών μέσων k δειγμάτων μεγέθους knnn ...,,, 21 , αντίστοιχα, είναι,

=

== k

ii

k

iii

n

n

1

χ

Ουσιαστικά πρόκειται για σταθμικό αριθμητικό μέσο. Παράδειγμα: Αν το μέσο ύψος 10 φοιτητών είναι 170 cm και το μέσο ύψος 5 φοιτητριών είναι 160 cm τότε το μέσο ύψος φοιτητών και φοιτητριών είναι

7,16615

1605170102

1

2

1 =⋅+⋅

==

=

=

ii

iii

n

n χχ cm

Ερώτηση: Στην έκδοση της αμερικανικής κυβέρνησης “Science Indicators” του 1980, αναφέρεται ότι ο μέσος μισθός των γυναικών σε όλους τους επιστημονικούς τομείς είναι μόνο το 77% του μέσου μισθού των ανδρών επιστημόνων. Στην ίδια πηγή όμως, αναφέρεται ότι σε κάθε επιστημονικό τομέα ξεχωριστά, ο μέσος μισθός των γυναικών είναι τουλάχιστον το 92% του μέσου μισθού των ανδρών. Εξηγήστε πώς εμφανίζεται αυτή η φαινομενική διαφορά. Απάντηση: Οι γυναίκες είναι συγκεντρωμένες στους τομείς που αμείβονται λιγότερο. Έτσι, για τις γυναίκες, ο μέσος μισθός συνολικά θα είναι χαμηλότερος των ανδρών ακόμη και αν κερδίζουν το ίδιο ποσό με τους άνδρες σε κάθε τομέα ξεχωριστά.

Page 11: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 26

Παρατηρήσεις: 1. Αν θέλουμε να παραλείψουμε τις ακραίες τιμές από τον υπολογισμό της μέσης τιμής,

μπορούμε να δημιουργήσουμε έναν ισοσταθμισμένο μέσο (trimmed mean) θέτοντας στον σταθμικό μέσο, βάρος 0 για τις ακραίες τιμές που θέλουμε να παραληφθούν και βάρος 1 για όλες τις υπόλοιπες.

2. Παρότι η μέση τιμή, ως μέτρο θέσης-τάσης δεν είναι πάντα το καταλληλότερο για

την περιγραφή των δεδομένων (μάλιστα, μπορεί και να παραπλανήσει), εντούτοις, έχει μεγάλη σημασία και χρησιμοποιείται ευρέως στη Στατιστική Συμπερασματολογία. Ένας από τους λόγους που συμβαίνει αυτό, είναι το γεγονός

ότι ελαχιστοποιεί το άθροισμα ∑=

−ν

λχ1

2)(i

i . Αυτή η ιδιότητα της μέσης τιμής είναι

«πολύ καλή» μαθηματική ιδιότητα9 και γι΄ αυτό έχει επηρεάσει τον ορισμό και άλλων στατιστικών μέτρων. Στη συνέχεια του μαθήματος θα αναφερθούμε και σε άλλους λόγους που δικαιολογούν τη μεγάλη χρησιμότητα της μέσης τιμής στη Στατιστική Συμπερασματολογία.

Κορυφή ή Επικρατούσα τιμή (mode)

Η κορυφή του δείγματος συμβολίζεται με 0M . Είναι η τιμή που εμφανίζεται στο δείγμα με την μεγαλύτερη συχνότητα και έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα:

Πλεονεκτήματα Μειονεκτήματα • Υπολογίζεται εύκολα • Είναι εύκολα κατανοητή. • Υπολογίζεται και από ελλιπή δεδομένα.

• Δεν επηρεάζεται από ακραίες τιμές.

• Υπολογίζεται και για ποιοτικά δεδομένα.

• Δε χρησιμοποιούνται όλες οι τιμές για τον υπολογισμό της.

• Στη στατιστική συμπερασματολογία έχει περιορισμένη σημασία

• Δεν ορίζεται πάντα μονοσήμαντα. Δηλαδή, μπορεί να υπάρχουν περισσότερες από μία ή και καθόλου.

Για τον υπολογισμό της σε ομαδοποιημένες παρατηρήσεις μπορεί να χρησιμοποιηθεί ο τύπος:

21

10 Δ+Δ

Δ⋅+= i

ic

LM

όπου, iL είναι το κάτω άκρο της επικρατούσας κλάσης10, ic είναι το πλάτος της επικρατούσας κλάσης, 11 −−=Δ ii νν η διαφορά της συχνότητας της προηγούμενης κλάσης από τη συχνότητα της επικρατούσας κλάσης και 12 +−=Δ ii νν η διαφορά της συχνότητας της επόμενης κλάσης από τη συχνότητα της επικρατούσας κλάσης. Παρατήρηση: Πρέπει να επισημάνουμε ότι η κορυφή είναι, βέβαια, η τιμή με τη μεγαλύτερη συχνότητα, δηλαδή η πιο «δημοφιλής» τιμή, αλλά αυτό δε σημαίνει ότι είναι κατ’ ανάγκη και «πλειοψηφούσα» τιμή. Μπορεί, μάλιστα, να αποτελεί ένα μικρό ποσοστό των παρατηρήσεων.

9 Ικανοποιεί το κριτήριο των ελαχίστων τετραγώνων 10 Επικρατούσα κλάση είναι η κλάση με τη μεγαλύτερη συχνότητα.

Page 12: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 27

Διάμεσος (median)

Η διάμεσος του δείγματος συμβολίζεται με δ . Είναι το σημείο της κατανομής των παρατηρήσεων κάτω από το οποίο βρίσκεται το 50% των παρατηρήσεων και πάνω από αυτό το υπόλοιπο 50% των παρατηρήσεων. Εκφράζει την κεντρική θέση της κατανομής των παρατηρήσεων και γι΄ αυτό στη βιβλιογραφία συναντάται και ως μέσος θέσης (position average). Αν το πλήθος ν των παρατηρήσεων είναι αριθμός περιττός τότε

21+= νχδ ενώ, αν

είναι άρτιος τότε 2

122 ++

=νν χχ

δ . (Επισημαίνουμε ότι ο υπολογισμός της διαμέσου

γίνεται αφού προηγουμένως τα νχχχ ...,,, 21 διαταχθούν κατά αύξουσα σειρά) Για τον υπολογισμό της διαμέσου σε ομαδοποιημένες παρατηρήσεις, χρησιμοποιείται το πολύγωνο αθροιστικών συχνοτήτων ή ο τύπος:

ii

ii c

NL ⋅

−+= −

νδ

ν12

όπου, iL είναι το κάτω άκρο της μεσαίας κλάσης11, ic είναι το πλάτος της μεσαίας κλάσης, iν είναι η συχνότητα της μεσαίας κλάσης και 1−iN είναι η αθροιστική συχνότητα της προηγούμενης από τη μεσαία κλάσης. Η διάμεσος έχει, μεταξύ άλλων, και την ακόλουθη ιδιότητα:

♦ λλχδχνν

∀−<− ∑∑==

,11 i

ii

i

Δηλαδή, το άθροισμα των απολύτων αποκλίσεων των παρατηρήσεων νχχχ ...,,, 21 από τη διάμεσό τους δ , είναι μικρότερο από το άθροισμα των απολύτων αποκλίσεών

τους από οποιαδήποτε άλλη τιμή λ . Ή αλλιώς, το άθροισμα ∑=

−ν

λχ1i

i γίνεται

ελάχιστο αν και μόνο αν δλ = . Επίσης, έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα:

Πλεονεκτήματα Μειονεκτήματα • Είναι εύκολα κατανοητή. • Δεν επηρεάζεται από ακραίες τιμές.

• Υπολογίζεται και στην περίπτωση που οι ακραίες κλάσεις είναι ανοικτές.

• Ο υπολογισμός της είναι απλός. • Είναι μοναδική σε κάθε σύνολο δεδομένων.

• Δε χρησιμοποιούνται όλες οι τιμές για τον υπολογισμό της.

• Είναι δύσκολη η αξιοποίησή της στη στατιστική συμπερασματολογία.

• Δεν υπολογίζεται για κατηγορικά δεδομένα .

• Για τον υπολογισμό της μπορεί να χρειαστεί παρεμβολή.

Παρατήρηση: Η διάμεσος δεν επηρεάζεται ιδιαιτέρως από ακραίες τιμές. Έτσι, για την περιγραφή παρατηρήσεων που εμφανίζουν ακραίες τιμές προτιμάται ως μέτρο θέσης από τη μέση τιμή η οποία επηρεάζεται πολύ από ακραίες τιμές. Εξηγείται, έτσι, γιατί ο ΟΗΕ διακρίνει τις αναπτυσσόμενες από τις ανεπτυγμένες χώρες, μεταξύ άλλων, από τη διάμεσο της ηλικίας των κατοίκων και όχι από τη μέση τιμή της ηλικίας. Δηλαδή, γιατί 11 Μεσαία κλάση είναι η κλάση στην οποία ανήκει η διάμεσος.

Page 13: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 28

ως μέτρο γήρανσης του πληθυσμού χρησιμοποιεί τη διάμεσο και όχι τη μέση τιμή. Έτσι, μπορούμε, επίσης, να εξηγήσουμε γιατί στις διαπραγματεύσεις των συνδικαλιστών με τους εργοδότες για το ύψος των αποδοχών, συνήθως, οι συνδικαλιστές χρησιμοποιούν τη διάμεσο των αποδοχών ενώ οι εργοδότες τη μέση τιμή.

Ποσοστιαία σημεία ή Ποσοστημόρια (quantiles) Τα ποσοστημόρια του δείγματος συμβολίζονται με αp . Αποτελούν γενίκευση της διαμέσου και δίνουν αναλυτικότερη περιγραφή της θέσης της κατανομής των παρατηρήσεων. Το ποσοστημόριο αp είναι το σημείο της κατανομής για το οποίο το α% των παρατηρήσεων είναι μικρότερες ή ίσες από αυτό και το υπόλοιπο (1-α)% των παρατηρήσεων είναι μεγαλύτερες ή ίσες από αυτό. Ειδικότερα έχουμε: Εκατοστημόρια (percentiles) 9921 ...,,, ppp Δεκατημόρια (deciles) αν 902010 ...,,, ppp Τεταρτημόρια (quartiles) 375250125 ,, QpQpQp ==== δ Τα ποσοστημόρια σε ομαδοποιημένες παρατηρήσεις μπορούν να υπολογισθούν από τον τύπο:

ii

ia

ia cN

Lp ⋅−⋅

+= −

νν 1100

όπου, iL είναι το κάτω άκρο της κλάσης στην οποία ανήκει η παρατήρηση με σειρά να ⋅100 , ic είναι το πλάτος της, iν είναι η συχνότητά της και 1−iN είναι η αθροιστική

συχνότητα της προηγούμενης κλάσης. Παράδειγμα: Στον παρακάτω πίνακα συχνοτήτων δίνεται η κατανομή της βαθμολογίας 50 μαθητών Λυκείου. Αν στο 5% των μαθητών με την υψηλότερη βαθμολογία δοθεί υποτροφία, τι βαθμό πρέπει να έχει ένας μαθητής για να πάρει υποτροφία;

iy iν iN

[10 12) 11 5 5 [12 14) 13 10 15 [14 16) 15 20 35 [16 18) 17 10 45 [18 20) 19 5 50

Προφανώς, ζητούμενο είναι το ποσοστημόριο

1925

455095.018110095

95 ≈⋅−⋅

+=⋅−⋅

+= −i

i

ii c

NLp

νν

Προσοχή: Τα ποσοστημόρια υποδιαιρούν την κατανομή των παρατηρήσεων σε «ίσα» τμήματα, όχι με όρους μονάδων μέτρησης των παρατηρήσεων (δηλαδή, απόστασης), αλλά με όρους ποσοστών. Δηλαδή, τα τμήματα αυτά είναι «ίσα» με την έννοια ότι περιέχουν ίσα

Page 14: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 29

ποσοστά παρατηρήσεων. Έτσι, ίσες αποστάσεις μπορεί να περιέχουν διαφορετικά ποσοστά παρατηρήσεων και αντίστροφα, άνισες αποστάσεις μπορεί να περιέχουν ίδια ποσοστά παρατηρήσεων. Τα ποσοστημόρια επομένως είναι μέτρα σχετικής θέσης και όχι σχετικής απόστασης. Ας δούμε ένα παράδειγμα: Τα παρακάτω δεδομένα αναφέρονται στις ώρες απουσίας 28 εργαζομένων από την εργασία τους το τελευταίο τρίμηνο του 1999. 15, 11, 11, 11, 22, 9, 11, 7, 11, 12, 12, 16, 8, 11, 15, 9, 10, 14, 9, 10, 11, 10, 6, 17, 11, 10, 8, 11. Εύκολα βρίσκουμε: 125,9 31 == QQ και 11=δ .

Παρατηρείστε ότι μεταξύ των άνισων αποστάσεων 6 μέχρι 9.5, 9.5 μέχρι 11, 11 μέχρι 12 και 12 μέχρι 22 βρίσκονται ίδια ποσοστά παρατηρήσεων (25%). Ερώτηση: Αν σε ένα σύνολο παρατηρήσεων η μικρότερη τιμή είναι 20 και η μεγαλύτερη 80 γιατί η

διάμεσος δεν είναι, κατ΄ ανάγκη, 2

802050 += ;

Παρατηρήσεις: 1. Τα ποσοστημόρια είναι μέτρα θέσης ιδιαιτέρως χρήσιμα στη μελέτη οικονομικών,

κοινωνικών, δημογραφικών κ.α. φαινομένων γιατί, μεταξύ άλλων, μας επιτρέπουν να απαντήσουμε σε ερωτήσεις που αφορούν συγκεκριμένες παρατηρήσεις. Για παράδειγμα: μια συγκεκριμένη παρατήρηση, βρίσκεται κοντά στα άκρα ή κοντά στο κέντρο της κατανομής; ή πόσες παρατηρήσεις είναι μικρότερες από μια συγκεκριμένη παρατήρηση; Έτσι, αν σε μια κατανομή βαθμολογίας φοιτητών, είναι

5,795 =p αυτό σημαίνει, εκτός των άλλων, ότι αν ένας φοιτητής έχει βαθμό π.χ. 8 τότε ανήκει σε ένα ποσοστό 5% φοιτητών που ο βαθμός τους είναι μεγαλύτερος του 7,5.

2. Τα ποσοστημόρια μπορούν να βοηθήσουν και στην αντιμετώπιση πρακτικών προβλημάτων που αντιμετωπίζουν πολλές φορές οι ερευνητές όπως, π.χ. αν συμβεί να μη γνωρίζουν τις κατώτερες ή τις ανώτερες τιμές των παρατηρήσεων. Για παράδειγμα, αν ένας ερευνητής θέλει να υπολογίσει το χρόνο ζωής μιας ομάδας πειραματόζωων, πρέπει να περιμένει να πεθάνει και το τελευταίο πειραματόζωο προκειμένου να υπολογίσει το μέσο χρόνο ζωής τους. Για να υπολογίσει, όμως, τη διάμεσο του χρόνου ζωής ή κάποιο άλλο ποσοστημόριο, δεν απαιτείται να περιμένει μέχρι να πεθάνουν όλα και έτσι κερδίζει χρόνο που μπορεί να είναι κρίσιμος στην εξέλιξη της έρευνάς του.

Σύγκριση μέσης τιμής, κορυφής και διαμέσου Αν συγκρίνουμε αυτά τα τρία μέτρα θέσης με μαθηματικούς όρους, τότε, εύκολα μπορούμε να αποφανθούμε για το καλύτερο. Δηλαδή, αν για παράδειγμα, θέσουμε ως

κριτήριο την ελαχιστοποίηση του αθροίσματος ∑=

−ν

λχ1

2)(i

i τότε το καλύτερο είναι η

μέση τιμή ενώ αν θέσουμε ως κριτήριο την ελαχιστοποίηση του αθροίσματος

∑=

−ν

λχ1i

i τότε το καλύτερο είναι η διάμεσος. Αν, όμως, τα συγκρίνουμε με όρους

Περιγραφικής Στατιστικής, δηλαδή, με κριτήριο την καταλληλότητα περιγραφής της θέσης της κατανομής, τότε, φαίνεται να υπερέχει η διάμεσος. Όμως, κάθε μέτρο θέσης, έχει την ιδιαίτερη αξία του για την περιγραφή της κατανομής των παρατηρήσεων, και επομένως, πρέπει όλα να μπορούμε να τα ερμηνεύουμε

Page 15: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 30

σωστά ώστε αφενός, να τα χρησιμοποιούμε σωστά και αφετέρου, να μην πέφτουμε θύματα πλάνης επιτηδείων ή ημιμαθών. Παράδειγμα: Το ύψος της βροχής σε mm στην Αθήνα για τις ημέρες από 1-12-61 έως 31-12-61 ήταν: 0 0 0 0 0 0 1,2 28,6 1,2 0 0 0 0 0 0 0 1,1 2,9 1,5 0,4 0 2,8 0 0 0 0 1,2 3 0,1 0 8,5

Εύκολα διαπιστώνεται, ακόμη και με μια πρόχειρη ματιά στις παρατηρήσεις, ότι η μέση τιμή 7,1=χ παρέχει ελάχιστη πληροφορία για την πραγματική εικόνα του ύψους της βροχής. Όμως, τα ποσοστημόρια 2,1,0,0 321 === QQQ συμπληρώνουν τη γνώση για την κατανομή και δίνουν την αληθινή εικόνα των παρατηρήσεων που είναι η μεγάλη συγκέντρωση τιμών στο 0. Σχετική θέση μέσης τιμής, κορυφής και διαμέσου ♦ Όταν η καμπύλη συχνοτήτων της κατανομής είναι συμμετρική ισχύει:

0M== δχ και 2

31 QQ +=δ

♦ Όταν η καμπύλη συχνοτήτων της κατανομής παρουσιάζει θετική ασυμμετρία ισχύει:

0M>> δχ και 2

31 QQ +<δ

♦ Όταν η καμπύλη συχνοτήτων της κατανομής παρουσιάζει αρνητική ασυμμετρία

ισχύει: 0M<< δχ και 2

31 QQ +>δ

Είναι φανερό ότι, ακόμη και αν κάποιος μπορεί να ερμηνεύσει σωστά τα μέτρα θέσης, απαιτείται αρκετή εμπειρία για να μπορεί να συνοψίζει, να συνδυάζει και να συμπυκνώνει όλες τις πληροφορίες που αυτά δίνουν για την κατανομή. Η διερευνητική ανάλυση δεδομένων με μια έξυπνη και πολύ απλή τεχνική μας βοηθάει να παρουσιάσουμε τα κυριότερα μέτρα θέσης με τέτοιο τρόπο που να διευκολύνεται πολύ η εξαγωγή συμπερασμάτων για την κατανομή. Αναφερόμαστε στην κατασκευή θηκογράμματος (box plot). Το θηκόγραμμα είναι γνωστό και ως το διάγραμμα των πέντε αριθμών. Πρόκειται για ένα ορθογώνιο με δύο κεραίες (whiskers) το οποίο κατασκευάζεται ως εξής: η κάτω βάση του ορθογωνίου βρίσκεται στο 1Q και η πάνω στο 3Q . Η διάμεσος δ αναπαριστάνεται με ένα οριζόντιο ευθύγραμμο τμήμα μέσα στο ορθογώνιο. Το μήκος των βάσεων του ορθογωνίου λαμβάνεται αυθαίρετα. Η πάνω και η κάτω κεραία που έχουν τη μορφή Τ και ανεστραμμένου Τ αντίστοιχα, εκτείνονται μέχρι τις οριακές τιμές που μπορεί να είναι: α) η μέγιστη και η ελάχιστη παρατήρηση

Page 16: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 31

β) η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση από το ανώτερο εσωτερικό φράγμα )(5,1 133 QQQ −⋅+ και η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση από το κατώτερο εσωτερικό φράγμα )(5,1 131 QQQ −⋅− γ) η μεγαλύτερη παρατήρηση που είναι μικρότερη ή ίση από το ανώτερο εξωτερικό φράγμα )(3 133 QQQ −⋅+ και η μικρότερη παρατήρηση που είναι μεγαλύτερη ή ίση από το κατώτερο εξωτερικό φράγμα )(3 131 QQQ −⋅− . Για τα δεδομένα με τις ώρες απουσίας των 28 εργαζομένων είναι:

125,9 31 == QQ και 11=δ . Αν για τον υπολογισμό των οριακών τιμών χρησιμοποιήσουμε τα εσωτερικά φράγματα έχουμε: Το ανώτερο εσωτερικό φράγμα είναι 75,15)5,912(5,112)(5,1 133 =−⋅+=−⋅+ QQQ άρα η πάνω οριακή τιμή είναι η παρατήρηση που είναι ίση με 15 (η μεγαλύτερη παρατήρηση που είναι ίση ή μικρότερη από 15,75). Το κατώτερο εσωτερικό φράγμα είναι 75,5)5,912(5,15,9)(5,1 131 =−⋅−=−⋅− QQQ άρα η κάτω οριακή τιμή είναι η παρατήρηση που είναι ίση με 6 (η μικρότερη παρατήρηση που είναι ίση ή μεγαλύτερη από 5,75).

6

10

14

18

22

Ας δούμε τι πληροφορίες μας δίνει το θηκόγραμμα για την κατανομή των ωρών απουσίας των εργαζομένων. Η κατανομή παρουσιάζει μια μικρή αρνητική ασυμμετρία διότι η διάμεσος βρίσκεται πιο κοντά στην πάνω πλευρά του ορθογωνίου. Το 50% των παρατηρήσεων βρίσκεται σε ένα διάστημα ίσο με το ύψος του ορθογωνίου το οποίο είναι αρκετά «συμπιεσμένο» και, επιπλέον, τοποθετείται περίπου στη μέση του εύρος των παρατηρήσεων (εξαιρουμένων των ακραίων). Η κατανομή παρουσιάζει δυο ακραίες12 τιμές και μια εξαιρετικά ακραία13 τιμή (είναι οι τιμές 16, 17 και 22). Το θηκόγραμμα του ύψους της βροχής, που φαίνεται παρακάτω, είναι φανερό ότι συνοψίζει με παραστατικό τρόπο τα συμπεράσματα που σχολιάσαμε στο σχετικό παράδειγμα και, επιπλέον, αναδεικνύει τις ακραίες τιμές.

0

5

10

15

20

25

30

12 Μια τιμή χαρακτηρίζεται ακραία αν βρίσκεται εκτός των εσωτερικών φραγμάτων 13 Μια τιμή χαρακτηρίζεται εξαιρετικά ακραία αν βρίσκεται εκτός και των εξωτερικών φραγμάτων

Page 17: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 32

Διευκρίνηση: Το ανώτερο εσωτερικό φράγμα είναι 3)02,1(5,12,1)(5,1 133 =−⋅+=−⋅+ QQQ άρα η πάνω οριακή τιμή είναι η παρατήρηση που είναι ίση με 3 (η μεγαλύτερη παρατήρηση που είναι ίση ή μικρότερη από 3). Το κατώτερο εσωτερικό φράγμα είναι

8,1)02,1(5,10)(5,1 131 −=−⋅−=−⋅− QQQ άρα η κάτω οριακή τιμή είναι η παρατήρηση που είναι ίση με 0 (η μικρότερη παρατήρηση που είναι ίση ή μεγαλύτερη από –1,8). Το θηκόγραμμα προσφέρεται ιδιαιτέρως για την ανίχνευση ακραίων τιμών και για την αναγνώριση της συμμετρίας ή του είδους της ασυμμετρίας της κατανομής. Αν το ευθύγραμμο τμήμα που αναπαριστά τη διάμεσο βρίσκεται στο μέσο του ορθογωνίου, η κατανομή είναι συμμετρική, αν βρίσκεται προς την κάτω πλευρά του ορθογωνίου, η κατανομή παρουσιάζει θετική ασυμμετρία και τέλος, αν βρίσκεται προς την πάνω πλευρά του ορθογωνίου, η κατανομή παρουσιάζει αρνητική ασυμμετρία. Επίσης, τα θηκογράμματα είναι εξαιρετικά χρήσιμα για τη σύγκριση των κατανομών δύο ή περισσοτέρων δειγμάτων (θα δούμε σχετικό παράδειγμα στη συνέχεια).

Υπολογισμός μέτρων διασποράς (dispersion measures) Στον παρακάτω πίνακα, φαίνονται οι χρόνοι αναμονής σε min, των πελατών μιας τράπεζας που παρατηρήθηκαν σε τέσσερα διαφορετικά δείγματα πελατών μεγέθους πέντε το καθένα.

Πίνακας 2 Δείγμα Ι Δείγμα ΙΙ Δείγμα ΙΙΙ Δείγμα IV

8 4 1 1 9 7 5 3

10 10 10 10 11 13 15 17 12 16 19 19

Τα τέσσερα δείγματα έχουν ίσες διαμέσους και ίσες μέσες τιμές ( 10== δχ ). Αν, όμως, παρατηρήσουμε τα αντίστοιχα θηκογράμματα, αβίαστα προκύπτει ότι οι κατανομές τους είναι διαφορετικές. Πιο συγκεκριμένα, οι αποκλίσεις των παρατηρήσεων από τη μέση τιμή ή τη διάμεσο έχουν πολύ διαφορετική μεταβλητότητα στα τέσσερα δείγματα. Τα μέτρα διασποράς ορίσθηκαν για να περιγράφουν με αριθμητικά μεγέθη αυτή τη μεταβλητότητα.

I II III IV0

4

8

12

16

20

Page 18: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 33

Τα πλέον χρησιμοποιούμενα μέτρα διασποράς είναι το εύρος, η ενδοτεταρτημοριακή απόκλιση, η τυπική απόκλιση και η διασπορά14.

Εύρος (range) και Ενδοτεταρτημοριακή Απόκλιση (interquantile deviation) Ορίζεται ως η διαφορά της μικρότερης από τη μεγαλύτερη παρατήρηση ( minmax χχ −=R ) του δείγματος. Είναι το πιο απλό μέτρο διασποράς και έχει τα ακόλουθα πλεονεκτήματα και μειονεκτήματα:

Πλεονεκτήματα Μειονεκτήματα • Είναι πολύ απλό στον υπολογισμό. • Χρησιμοποιείται αρκετά στον έλεγχο ποιότητας.

• Μπορεί να χρησιμοποιηθεί για την εκτίμηση της τυπικής απόκλισης.

• Δε θεωρείται αξιόπιστο μέτρο διασποράς, επειδή βασίζεται μόνο στη μικρότερη και στη μεγαλύτερη παρατήρηση και συνεπώς είναι ευαίσθητο σε έκτροπες τιμές .

• Δε χρησιμοποιείται για περαιτέρω στατιστική ανάλυση.

Αν χρησιμοποιήσουμε το εύρος για την αριθμητική περιγραφή της μεταβλητότητας στα τέσσερα δείγματα του παραπάνω παραδείγματος, βλέπουμε ότι ενώ ανιχνεύει τη διαφορά στη μεταβλητότητα μεταξύ π.χ. των δειγμάτων Ι και ΙΙ (το Ι έχει εύρος 12-8 = 4 ενώ το ΙΙ έχει εύρος 16-4 = 12) εντούτοις, δεν ανιχνεύει τη διαφορά που υπάρχει στη μεταβλητότητα μεταξύ των δειγμάτων ΙΙΙ και ΙV (και το III και το ΙV έχουν εύρος 19-1 = 18). Δηλαδή, υπάρχουν κατανομές που έχουν ίσες μέσες τιμές, ίσες διαμέσους και ίδιο εύρος και εντούτοις, διαφέρουν σημαντικά. Δεν αρκεί επομένως το εύρος για να αποτυπωθεί αριθμητικά η μεταβλητότητα μιας κατανομής. Είναι φανερό ότι αυτό οφείλεται στο ότι στον υπολογισμό του εμπλέκονται μόνο δυο παρατηρήσεις. Για να αντιμετωπίσουμε αυτό το πρόβλημα μπορούμε να χρησιμοποιήσουμε ως μέτρο της μεταβλητότητας τη διαφορά 13 QQ − για τον υπολογισμό της οποίας συμμετέχουν σαφώς περισσότερες παρατηρήσεις (όσες συμμετέχουν στον υπολογισμό των 1Q και

3Q ). Η διαφορά αυτή ονομάζεται ενδοτεταρτημοριακή απόκλιση (interquantile deviation)15. Επειδή μεταξύ των 1Q και 3Q βρίσκεται το 50% των παρατηρήσεων είναι φανερό ότι όσο μικρότερη είναι η ενδοτεταρτημοριακή απόκλιση τόσο μικρότερη είναι η μεταβλητότητα των παρατηρήσεων16. Επίσης, σε αντίθεση με την τυπική απόκλιση και τη διασπορά, η ενδοτεταρτημοριακή απόκλιση δεν επηρεάζεται από ακραίες τιμές. Αν χρησιμοποιήσουμε την ενδοτεταρτημοριακή απόκλιση για την αριθμητική περιγραφή της μεταβλητότητας στα τέσσερα δείγματα του παραδείγματός μας, βλέπουμε ότι πλέον ανιχνεύονται όλες οι υπάρχουσες διαφορές μεταξύ των τεσσάρων δειγμάτων. Επισήμανση: Αξίζει να επισημάνουμε, ότι το εύρος, σε αντίθεση με την ενδοτεταρτημοριακή απόκλιση, είναι πολύ ευαίσθητο σε αλλαγές στο μέγεθος του δείγματος. Δηλαδή, είναι δυνατόν, αύξηση του μεγέθους του δείγματος ακόμη και κατά μια μονάδα να προκαλέσει δυσανάλογη αύξηση του εύρους. Αν για παράδειγμα, οι παρατηρήσεις 1, 3, 3, 4, 4, 4 και 5 συμπληρωθούν με την παρατήρηση 10, το εύρος του δείγματος από 4 γίνεται 9! 14 Ένα ακόμη μέτρο διασποράς είναι η μέση απόκλιση (mean deviation): ∑

=

−=ν

χχν 1

1i

iMD

15 Ανάλογα ορίζεται η ενδοδεκατημοριακή απόκλιση 1090 pp − 16 Η ενδοτεταρτημοριακή απόκλιση αποτελεί την «καρδιά» της κατανομής.

Page 19: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 34

Τυπική απόκλιση (standard deviation) και Διασπορά (variance)

Η τυπική απόκλιση του πληθυσμού συμβολίζεται με σ και του δείγματος με s .

⎟⎠

⎞⎜⎝

⎛⋅−

−=−

−= ∑∑

==

2

1

2

1

2

11)(

11 χνχ

νχχ

ν

νν

ii

iis ή

⎟⎠

⎞⎜⎝

⎛⋅−⋅

−=⋅−

−= ∑∑

==

2

1

2

1

2

11)(

11 χνν

ννχ

ν

k

iii

k

iii yys

Εύκολα αποδεικνύεται ότι η τυπική απόκλιση έχει τις ακόλουθες ιδιότητες: ♦ Αν οι παρατηρήσεις είναι μεταξύ τους ίσες τότε η τυπική απόκλιση τους είναι μηδέν (γιατί;). ♦ Αν βχω += ii τότε ss =ϖ . Δηλαδή, αν στις παρατηρήσεις νχχχ ...,,, 21 προσθέσουμε μια σταθερή ποσότητα β (θετική ή αρνητική), τότε η τυπική τους απόκλιση δεν μεταβάλλεται. ♦ Αν ii χαω ⋅= τότε ss ⋅= αϖ . Δηλαδή, αν οι παρατηρήσεις νχχχ ...,,, 21 πολλαπλασιασθούν με την ίδια ποσότητα α , τότε η τυπική τους απόκλιση θα πολλαπλασιασθεί με την ποσότητα α .

♦ Γενικά, αν βχαω +⋅= ii τότε ss ⋅= αϖ . Είναι φανερό ότι η τυπική απόκλιση απαντά στο ερώτημα: πόσο μακριά από τη μέση τιμή τους βρίσκονται οι παρατηρήσεις; Έτσι, όταν οι παρατηρήσεις δε διαφέρουν πολύ από τη μέση τιμή τους, η τυπική απόκλιση είναι μικρή, ενώ αντίθετα, η τυπική απόκλιση μεγαλώνει, όσο περισσότερο «διασκορπίζονται» οι παρατηρήσεις γύρω από τη μέση τιμή τους. Δηλαδή, η τυπική απόκλιση μας δίνει ένα μέτρο της μέσης απόστασης-απόκλισης των παρατηρήσεων από τη μέση τιμή τους. Συνεπώς, έχει νόημα να χρησιμοποιείται, μόνο σε συνδυασμό με τη μέση τιμή. Πρακτικά, όμως, τι σημαίνει «μεγάλη» ή «μικρή» τυπική απόκλιση; Ας προσπαθήσουμε να απαντήσουμε μέσα από συγκεκριμένα προβλήματα. 1) Αν για καθένα από τα τέσσερα δείγματα του Πίνακα 2, υπολογίσουμε την τυπική απόκλισή του, παίρνουμε, 1,6 4,7 7,3 και 8,1 αντίστοιχα. Μπορούμε να ισχυρισθούμε ότι η μεταβλητότητα, π.χ. του δείγματος IV είναι μεγαλύτερη από τη μεταβλητότητα του δείγματος I επειδή είναι 8,1>1,6; Η απάντηση είναι ναι, γιατί τα δείγματα έχουν την ίδια μέση τιμή. Αν, όμως, επιχειρήσουμε να συγκρίνουμε τις μεταβλητότητες δύο ή περισσοτέρων δειγμάτων που έχουν άνισες μέσες τιμές, με βάση μόνο τις τυπικές αποκλίσεις τους, τότε είναι πολύ πιθανό να οδηγηθούμε σε λάθος συμπεράσματα. Το ίδιο θα συμβεί αν συγκρίνουμε, με βάση μόνο τις τυπικές αποκλίσεις τους, τις μεταβλητότητες δύο ή περισσοτέρων δειγμάτων που μετρώνται σε διαφορετικές μονάδες. Αν, για παράδειγμα, σε δύο δείγματα είναι 1,5 == sχ και 12,150 == sχ αντίστοιχα, μπορούμε να ισχυρισθούμε ότι το δεύτερο δείγμα παρουσιάζει μεγαλύτερη μεταβλητότητα από το πρώτο επειδή 12>1; Φυσικά όχι, αφού «άλλο 1 στα 5 και άλλο 12 στα 150». Είναι, επομένως, λογικό να αναζητήσουμε ένα μέτρο το οποίο να εκφράζει την τυπική απόκλιση των παρατηρήσεων ως ποσοστό της μέσης

Page 20: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 35

τιμής τους. Δηλαδή, ένα μέτρο σχετικής μεταβλητότητας. Ένα τέτοιο μέτρο, είναι ο συντελεστής μεταβλητότητας (coefficient of variation):

%100⋅=χsCV

Έτσι, αν συγκρίνουμε τις τυπικές αποκλίσεις των δύο δειγμάτων, αφού προηγουμένως κάθε μια τη δούμε ως ποσοστό της μέσης τιμής με βάση την οποία υπολογίσθηκε, δηλαδή, αν υπολογίσουμε τους συντελεστές μεταβλητότητας CV, παρατηρούμε ότι:

Για το πρώτο δείγμα είναι %20%10051

=⋅=CV και για το δεύτερο δείγμα είναι

%8%10015012

=⋅=CV . Δηλαδή, στο πρώτο δείγμα η τυπική απόκλιση είναι το 20%

της μέσης τιμής του ενώ στο δεύτερο δείγμα η τυπική απόκλιση είναι το 8% της μέσης τιμής του. Συνεπώς, η μεγαλύτερη μεταβλητότητα παρουσιάζεται στο πρώτο και όχι στο δεύτερο δείγμα (μάλιστα είναι 5,28

20 = φορές μεγαλύτερη!). Από τα παραπάνω, είναι φανερό, ότι ο CV μπορεί να χρησιμοποιηθεί: • Ως μέτρο σύγκρισης της μεταβλητότητας δύο ή περισσοτέρων δειγμάτων που έχουν

διαφορετικές μέσες τιμές ή διαφορετικές μονάδες μέτρησης. • Ως μέτρο ομοιογένειας ενός δείγματος (αν σε ένα δείγμα είναι CV<10% τότε το

δείγμα θεωρείται ομοιογενές). 2) Ας δούμε ένα ακόμη πρακτικό πρόβλημα. Ένας φοιτητής, βαθμολογήθηκε στις εξετάσεις του Ιουνίου 2002 στο μάθημα της Στατιστικής με 8. Ένας άλλος φοιτητής βαθμολογήθηκε στο ίδιο μάθημα στις εξετάσεις του Ιουνίου 2003 με 7. Με κριτήριο το βαθμό στις εξετάσεις, ποιος από τους δύο φοιτητές είναι καλύτερος στη Στατιστική; Αν δε βιαστούμε να απαντήσουμε, διαπιστώνουμε ότι, ουσιαστικά, μας ζητούν να συγκρίνουμε «ανόμοια πράγματα», αφού πρέπει να συγκρίνουμε δυο τιμές η κάθε μια από τις οποίες ανήκει σε διαφορετική κατανομή. Η τιμή 8 ανήκει στην κατανομή βαθμολογίας των εξετάσεων του Ιουνίου 2002 ενώ η τιμή 7 ανήκει στην κατανομή της βαθμολογίας των εξετάσεων του Ιουνίου 2003. Για να συγκριθούν επομένως οι δύο τιμές, πρέπει να προσδιορισθεί πρώτα η σχετική απόσταση της κάθε μίας μέσα στην κατανομή της. Έτσι, αν οι βαθμολογίες των φοιτητών τον Ιούνιο 2002 είχαν μέση τιμή 7,5 και τυπική απόκλιση 0,6 και τον Ιούνιο του 2003 είχαν μέση τιμή 5,5 και τυπική

απόκλιση 1,1 τότε είναι προφανές ότι το κλάσμα 8,06,05,0

6,05,78

+==− εκφράζει την

απόσταση-απόκλιση της τιμής 8 από τη μέση τιμή της κατανομής της, σε μονάδες τυπικής απόκλισης. Δηλαδή, δείχνει «πόσες φορές χωράει η τυπική απόκλιση 0,6

στην απόστταση 5,78 − ». Ομοίως, το κλάσμα 4,11,15,1

1,15,57

+==− δείχνει «πόσες

φορές χωράει η τυπική απόκλιση 1,1 στην απόσταση 5,57 − ». Είναι, πλέον, φανερό ότι ο βαθμός 7 είναι καλύτερος από το βαθμό 8 με την έννοια ότι απέχει από τη μέση τιμή της κατανομής του +1,4 τυπικές αποκλίσεις ενώ ο βαθμός 8 απέχει από τη μέση τιμή της δικής του κατανομής +0,8 τυπικές αποκλίσεις. Δηλαδή, ο βαθμός 7 είναι 1,4 τυπικές αποκλίσεις μεγαλύτερος από τη μέση τιμή της κατανομής του ενώ ο βαθμός 8 είναι 0,8 τυπικές αποκλίσεις μεγαλύτερος από τη μέση τιμή της δικής του κατανομής.

Page 21: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 36

Η τυπική απόκλιση των παρατηρήσεων μπορεί, επομένως, να χρησιμοποιηθεί ως μονάδα μέτρησης της απόστασης των παρατηρήσεων από τη μέση τιμή τους.

Αν μετασχηματίσουμε κάθε τιμή iχ , σε s

i χχ − , δημιουργούμε μια νέα κατανομή

sssχχχχχχ ν −−− ...,, 21 .

Ας συμβολίσουμε τις νέες τιμές με iz , δηλαδή, s

z ii

χχ −= . Οι iz -τιμές έχουν τις

ακόλουθες, πολύ ενδιαφέρουσες, ιδιότητες: • Η iz -τιμή μιας τιμής iχ , εκφράζει, σε μονάδες τυπικής απόκλισης, την

απόσταση της iχ από τη μέση τιμή χ . • Αν μια iz -τιμή είναι θετική αυτό σημαίνει ότι η τιμή iχ είναι μεγαλύτερη από τη

μέση τιμή ενώ αν είναι αρνητική σημαίνει ότι η τιμή iχ είναι μικρότερη από τη μέση τιμή.

• Η μέση τιμή των iz -τιμών είναι πάντα 0 και η τυπική τους απόκλιση είναι πάντα 1. Δηλαδή, 0=z και 1=zs . (Η απόδειξη είναι προφανής αν παρατηρήσουμε ότι ο

μετασχηματισμός s

z ii

χχ −= είναι της γνωστής μας μορφής βχα +⋅= iiz με

s1

=α και sχβ −

= ).

• Ίσες αποστάσεις iz -τιμών μιας κατανομής, έχουν ταυτόσημο νόημα. Για παράδειγμα, η διαφορά μεταξύ των z-τιμών 2 και 2,5 είναι ταυτόσημη με τη διαφορά μεταξύ των z-τιμών 3 και 3,5. Και οι δύο διαφορές δείχνουν μια απόσταση μισής τυπικής απόκλισης.

• Στις z-τιμές το 0 έχει νόημα, δηλαδή, δεν ορίζεται συμβατικά-αυθαίρετα. Η z-τιμή 0 σημαίνει «έλλειψη απόστασης», δηλαδή, η τιμή iχ συμπίπτει με τη μέση τιμή χ .

• Η μορφή της κατανομής των iz -τιμών είναι όμοια με τη μορφή της κατανομής των iχ τιμών (διατηρούνται π.χ. οι ασυμμετρίες ή η συμμετρία). Έτσι, αν η κατανομή των iχ τιμών έχει μορφή κανονικής κατανομής, τότε και η κατανομή των iz -τιμών θα έχει μορφή κανονικής κατανομής.

• Οι z-τιμές μπορούν να χρησιμοποιηθούν για τη σύγκριση τιμών που ανήκουν σε διαφορετικές κατανομές. Δες και την παρατήρηση στην επόμενη σελίδα.

Ας δούμε ένα ακόμη παράδειγμα. Στην Ελλάδα, ως γνωστόν, η βαθμολογία των αποφοίτων δευτεροβάθμιας εκπαίδευσης δίνεται σε κλίμακα από 1 μέχρι 20. Στις Η.Π.Α., συνήθως δίνεται σε μια κλίμακα από 1 μέχρι 4. Σε πολλές άλλες χώρες δίνεται σε κλίμακα από 1 μέχρι 100. Σε ένα σχολείο των Η.Π.Α. η κατανομή της βαθμολογίας των αποφοίτων έχει μέση τιμή 3,2 και τυπική απόκλιση 0,2, σε ένα ελληνικό σχολείο έχει μέση τιμή 14,2 και τυπική απόκλιση 2,1 και σε ένα ολλανδικό έχει μέση τιμή 76 και τυπική απόκλιση 7. Πώς μπορούμε να συγκρίνουμε το βαθμό 3,6 ενός μαθητή του σχολείου των Η.Π.Α. με το βαθμό 18,4 ενός μαθητή του ελληνικού σχολείου και με το βαθμό 90 ενός μαθητή του ολλανδικού σχολείου;

Page 22: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 37

Οι αντίστοιχες z-τιμές των βαθμών είναι: 22,0

2,36,3+=

− , 21,2

2,144,18+=

− και

27

7690+=

− . Συνεπώς, οι τρεις μαθητές πήραν τα απολυτήριά τους με βαθμούς που

βρίσκονται σε ίσες αποστάσεις πάνω από τη μέση βαθμολογία του σχολείου τους. Πώς μπορούμε να απαντήσουμε στην ερώτηση: Σε ποιο ποσοστό αποφοίτων του σχολείου του βρίσκεται ο κάθε ένας από τους τρεις μαθητές; Παρατήρηση: Οι z-τιμές είναι ένα μέτρο σχετικής απόστασης. Επομένως, όταν χρησιμοποιούνται για τη σύγκριση τιμών που ανήκουν σε διαφορετικές κατανομές, θα πρέπει οι κατανομές αυτές να έχουν παραπλήσιες μορφές. Διαφορετικά, η πληροφορία που θα πάρουμε από τη σύγκριση z-τιμών θα είναι διφορούμενη-ασαφής (θυμηθείτε ότι με όρους ποσοστών, ίσες αποστάσεις μπορεί να περιέχουν πολύ διαφορετικά ποσοστά παρατηρήσεων). Ας δούμε ένα παράδειγμα: Στον παρακάτω πίνακα φαίνονται οι τιμές που πήραμε από δύο δείγματα μεγέθους 11.

Δείγμα Ι 7,46 6,77 12,74 7,11 7,81 8,84 6,10 5,39 8,15 6,42 5,73 Δείγμα ΙΙ 9,14 8,14 8,74 8,77 9,26 8,10 6,10 3,10 9,13 7,26 4,74

I

freq

uenc

y

4,5 5,5 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,50

0,5

1

1,5

2

2,5

3

II

freq

uenc

y

2,5 3,5 4,5 5,5 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,50

1

2

3

4

5

Ακόμη και με μια πρόχειρη ματιά στις τιμές, εύκολα διαπιστώνουμε ότι οι δύο κατανομές διαφέρουν σημαντικά αφού στην Ι οι τιμές κατανέμονται μεταξύ 4,5 και 9,5 με μια ακραία τιμή προς τα δεξιά, ενώ στη ΙΙ υπάρχει μεγάλη συγκέντρωση τιμών μεταξύ 8,5 και 9,5 και οι υπόλοιπες κλάσεις έχουν από μία μόνο τιμή (εκτός από μια που έχει δύο τιμές). Παρόλα αυτά, οι δύο κατανομές έχουν ίσες μέσες τιμές και ίσες τυπικές αποκλίσεις ( 5,7=χ και 93,1=s ).

Page 23: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 38

Η τιμή 6,1 ανήκει και στα δύο δείγματα και επομένως θα έχει ίδια z-τιμή και στα δύο

δείγματα 73.093,1

5,71,61,6 −=

−=z . Δηλαδή, η τιμή 6,1 και στα δύο δείγματα βρίσκεται

0,73 τυπικές αποκλίσεις αριστερά της μέσης τιμής. Αυτό όμως δεν «εμποδίζει» καθόλου να είναι η πραγματικότητα για την τιμή 6,1 πολύ διαφορετική στις δύο κατανομές. Αν παρατηρήσουμε τα αντίστοιχα ιστογράμματα των κατανομών βλέπουμε ότι στην κατανομή Ι η τιμή 6,1 έχει «δεσπόζουσα θέση» (βρίσκεται στο mainstream της κατανομής) ενώ στην ΙΙ βρίσκεται μόνη της και περιβάλλεται από κλάσεις με μια μόνο τιμή! Η σύγκριση, επομένως, δύο z-τιμών από διαφορετικές κατανομές, δεν αποδίδει την πραγματική εικόνα αν οι κατανομές έχουν διαφορετική μορφή. 3) Μπορούμε να καθορίσουμε με βάση την τυπική απόκλιση διαστήματα γύρω από τη μέση τιμή στα οποία να βρίσκεται συγκεκριμένο ποσοστό παρατηρήσεων17; Η απάντηση είναι ότι μπορούμε. Η ανισότητα του Chebyshev μας βεβαιώνει ότι: το ποσοστό των παρατηρήσεων που βρίσκεται π.χ. στο διάστημα )2,2( ss +− χχ είναι τουλάχιστον 75%. Άρα, όσο πιο «στενό» είναι αυτό το διάστημα (δηλαδή όσο πιο μικρή είναι η τυπική απόκλιση), τόσο πιο κοντά στη μέση τιμή είναι οι παρατηρήσεις και κατά συνέπεια τόσο πιο μικρή είναι η μεταβλητότητα των παρατηρήσεων. Γενικά, η ανισότητα του Chebyshev μας λεει ότι: το ποσοστό των παρατηρήσεων που βρίσκονται στο διάστημα ),( ksks +− χχ είναι τουλάχιστον 2

11k

− για κάθε 1>k . Ειδική περίπτωση18: Αν η κατανομή των δεδομένων είναι κανονική τότε: Στο διάστημα ),( ss +− χχ βρίσκεται το 68% περίπου των παρατηρήσεων Στο διάστημα )2,2( ss +− χχ βρίσκεται το 95% περίπου των παρατηρήσεων Στο διάστημα )3,3( ss +− χχ βρίσκονται όλες σχεδόν οι παρατηρήσεις (99,7%)

17 Δηλαδή κάτι ανάλογο με τα διαστήματα που καθορίζουμε με βάση τα ποσοστημόρια. Π.χ. γνωρίζουμε ότι στο διάστημα 1090 pp − βρίσκεται το 80% των παρατηρήσεων. 18 Καθόλου «ειδική περίπτωση», όπως θα δούμε στο επόμενο κεφάλαιο.

Page 24: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 39

Τα παραπάνω μας επιτρέπουν να μπορούμε να απαντήσουμε και σε ερωτήματα όπως: Μια αυτόματη μηχανή συσκευασίας τροφίμων έχει προγραμματισθεί να συσκευάζει δημητριακά σε φακελάκια των 13 γραμμαρίων. Αν σε ένα δείγμα από φακελάκια διαπιστώθηκε ότι το μέσο βάρος είναι 12,9 γραμμάρια με τυπική απόκλιση 0,1 γραμμάρια, ποιο ποσοστό συσκευασιών περιέχουν ποσότητα δημητριακών μεταξύ 12,7 και 13,1 γραμμάρια; Από την ανισότητα του Chebyshev γνωρίζουμε ότι μεταξύ ks−χ και ks+χ δηλαδή σε ένα διάστημα πλάτους ks2 περιέχεται τουλάχιστον το 2

11k

− των παρατηρήσεων. Έχουμε, 13,1-12,7 = 0,4 = 22,04,01,02 =⇒⋅=⇒⋅⋅ kkk . Άρα, στο διάστημα (12,7 13,1) περιέχεται τουλάχιστον το 75,01 22

1 =− (ή το 75%) των παρατηρήσεων. Αν, επιπλέον, γνωρίζαμε ότι η κατανομή του βάρους είναι κανονική, τότε θα γνωρίζαμε, επίσης, ότι στο διάστημα αυτό περιέχεται το 95% περίπου των παρατηρήσεων. Το τετράγωνο της τυπικής απόκλισης των παρατηρήσεων ονομάζεται διασπορά και συμβολίζεται με 2σ για τον πληθυσμό και με 2s για το δείγμα. Δηλαδή η διασπορά δίνεται από τον τύπο:

⎟⎠

⎞⎜⎝

⎛⋅−

−=−

−= ∑∑

==

2

1

2

1

22

11)(

11 χνχ

νχχ

ν

νν

ii

iis ή

⎟⎠

⎞⎜⎝

⎛⋅−⋅

−=⋅−

−= ∑∑

==

2

1

2

1

22

11)(

11 χνν

ννχ

ν

k

iii

k

iii yys

Η διασπορά, ως μέτρο μεταβλητότητας, δε διαφέρει ουσιαστικά από την τυπική απόκλιση. Παρότι, έχει το μειονέκτημα ότι δεν εκφράζεται στις ίδιες μονάδες με την μεταβλητή της οποίας τη μεταβλητότητα μετράει, εντούτοις, χρησιμοποιείται ευρύτατα στη Στατιστική Συμπερασματολογία για τις καλές της μαθηματικές ιδιότητες. Αυτός είναι και ο βασικός λόγος που επέβαλε τον ορισμό της. Συνοπτικά, η διασπορά και η τυπική απόκλιση έχουν τα ακόλουθα πλεονεκτήματα και μειονέκτηματα:

Πλεονεκτήματα Μειονεκτήματα • Για τον υπολογισμό τους, λαμβάνονται υπόψη όλες οι παρατηρήσεις.

• Έχουν μεγάλη εφαρμογή στη στατιστική συμπερασματολογία

• Με βάση την τυπική απόκλιση και τη μέση τιμή, μπορούν να ορισθούν διαστήματα στα οποία βρίσκεται γνωστό ποσοστό παρατηρήσεων

• Το κυριότερο μειονέκτημα της διασποράς είναι ότι δεν εκφράζεται στις ίδιες μονάδες με τη μεταβλητή. Το μειονέκτημα αυτό παύει να υπάρχει με τη χρησιμοποίηση της τυπικής απόκλισης

• Απαιτούνται περισσότερες αλγεβρικές πράξεις για τον υπολογισμό τους απ’ ότι στα άλλα μέτρα.

Παρατήρηση: Ίσως δημιουργεί απορίες το γεγονός, ότι στον τύπο της τυπικής απόκλισης, και κατ’

επέκταση και της διασποράς, διαιρούμε το άθροισμα ∑=

−ν

χχ1

2)(i

i με 1−ν αντί με ν .

Αυτό γίνεται διότι μπορεί να αποδειχθεί ότι, όταν διαιρούμε με 1−ν , η δειγματική διασπορά 2s είναι αμερόληπτη εκτιμήτρια της πληθυσμιακής διασποράς 2σ . Δηλαδή, αν πάρουμε όλα τα δυνατά δείγματα μεγέθους ν και υπολογίσουμε τις δειγματικές

Page 25: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 40

διασπορές τους 2s τότε η μέση τιμή τους θα είναι ίση με τη διασπορά 2σ του πληθυσμού19!! Ποιοτικές Μεταβλητές Για τις ποιοτικές μεταβλητές, η Περιγραφική Στατιστική προσφέρει, μεταξύ άλλων, τις ακόλουθες δυνατότητες: α) Ποιοτικές Μεταβλητές Κατηγορίας

Κατασκευή Πίνακα Συχνοτήτων Ο πίνακας συχνοτήτων της ποιοτικής μεταβλητής κατηγορίας επάγγελμα πατέρα, είναι:

iy iν if Δάσκαλος 6 0,3Δημ. Υπάλληλος 6 0,3Εργάτης 4 0,2Ιδιωτ. Υπάλληλος 2 0,1Οδηγός 2 0,1Σύνολα 20 1

Σημειώνουμε ότι σε ποιοτικές μεταβλητές κατηγορίας δεν έχουν νόημα οι αθροιστικές και οι σχετικές αθροιστικές συχνότητες.

Ραβδόγραμμα

Κυκλικό Διάγραμμα

Κορυφή ή Επικρατούσα τιμή Η μεταβλητή επάγγελμα πατέρα έχει δύο κορυφές: την τιμή Δάσκαλος και την τιμή Δημ. Υπάλληλος. Άλλα αριθμητικά περιγραφικά μέτρα δεν υπολογίζονται (δεν έχει νόημα) σε ποιοτικές μεταβλητές κατηγορίας. β) Ποιοτικές Μεταβλητές Διάταξης

Κατασκευή Πίνακα Συχνοτήτων Ο πίνακας συχνοτήτων της ποιοτικής μεταβλητής διάταξης επίπεδο εκπαίδευσης πατέρα, είναι:

iy iν if iN iF 1 2 0,10 2 0,10 2 5 0,25 7 0,35 3 11 0,55 18 0,90 4 2 0,10 20 1 Σύνολα 20 1

19 Το «μυστικό» της απόδειξης βρίσκεται στην ιδιότητα 0)(

1

=−∑=

ν

χχi

i της μέσης τιμής. Αυτή η σχέση

μας λεει ότι αν από τις ν διαφορές χχ −i γνωρίζουμε τις 1−ν , τότε μπορούμε να υπολογίσουμε και

τη ν -οστή. Επομένως, μπορούμε να υπολογίσουμε το άθροισμα ∑=

−ν

χχ1

2)(i

i αν γνωρίζουμε τους 1−ν

από τους ν όρους του. Δηλαδή οι «βαθμοί ελευθερίας» που έχουμε είναι 1−ν και όχι ν .

Page 26: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 41

Σε ποιοτικές μεταβλητές διάταξης έχουν νόημα οι αθροιστικές και οι σχετικές αθροιστικές συχνότητες. Για παράδειγμα, έχει νόημα να πούμε ότι επίπεδο εκπαίδευσης μέχρι και τριτοβάθμια εκπαίδευση έχουν 18 άτομα.

Ραβδόγραμμα

Κυκλικό Διάγραμμα

Κορυφή ή Επικρατούσα τιμή Η κορυφή της κατανομής της μεταβλητής επίπεδο εκπαίδευσης πατέρα, είναι η τιμή 3 (τριτοβάθμια εκπαίδευση). Σε ποιοτικές μεταβλητές διάταξης μπορούμε επίσης να υπολογίσουμε και τη διάμεσο (και γενικότερα ποσοστημόρια) παρότι δεν αντιστοιχεί πάντα σε τιμή της μεταβλητής. Μεταβλητές Διεύθυνσης και Κατεύθυνσης (κυκλικά δεδομένα) Όπως ήδη έχουμε αναφέρει (σελ. 9-11), οι μεταβλητές που εκφράζουν χαρακτηριστικά διεύθυνσης ή κατεύθυνσης μετρώνται σε κυκλική κλίμακα. Ένας κύκλος διαιρείται σε 360 ίσα μέρη. Ως μονάδα μέτρησης ορίζεται η μία μοίρα (10). Οι μηδέν μοίρες (00) αντιστοιχίζονται στο βορρά και στο βορρά, επίσης, αντιστοιχίζονται οι 3600. Επομένως, στις μεταβλητές κατεύθυνσης ή διεύθυνσης αποδίδονται τιμές γωνιών σε μοίρες20. Οι γωνίες μετρώνται από το βορρά και κατά τη φορά των δεικτών του ωρολογίου. Όπως δείξαμε με αντιπαραδείγματα (σελ. 9-11), οι μέθοδοι παρουσίασης, περιγραφής και ανάλυσης κυκλικών δεδομένων, διαφέρουν από τις αντίστοιχες που εφαρμόζονται σε δεδομένα κλίμακας διαστήματος ή κλίμακας αναλογίας (παρότι, ως έννοιες, είναι ανάλογες). Ας δούμε, μέσω συγκεκριμένων παραδειγμάτων, ποιες μέθοδοι χρησιμοποιούνται για τη γραφική αναπαράσταση κυκλικών δεδομένων και πώς ορίζονται και υπολογίζονται τα αριθμητικά περιγραφικά της κατανομής τους.

20 Οι γωνίες μετρώνται και σε βαθμούς (radians). Ένας βαθμός ορίζεται ως μια γωνία που βαίνει σε τόξο ίσο με την ακτίνα r του κύκλου. Επειδή ο κύκλος έχει μήκος (περιφέρεια) 2πr, οι 3600 αντιστοιχούν σε 2π βαθμούς και επομένως, ένας βαθμός ισούται με 3600/2π =1800 /π, δηλαδή, περίπου με 570.

3600

00

900

1800

2700

Page 27: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 42

Γραφική παρουσίαση κυκλικών δεδομένων Στον πίνακα που ακολουθεί δίδονται οι κατευθύνσεις (directions) των ιχνών της κίνησης των πάγων (glacial striations) σε μια έκταση 35 Km2 στη νότια Φιλανδία.

Κατεύθυνση-φορά του ίχνους της κίνησης πάγων (σε μοίρες από το βορρά και κατά τη φορά των δεικτών του

ωρολογίου) 23 93 121 128 137 155 186 27 99 123 128 144 157 190 53 100 125 129 145 163 212 58 105 126 132 145 165 64 113 126 132 146 171 83 113 126 132 153 172 85 114 127 134 155 179 88 117 127 135 155 181

Πρόκειται για δεδομένα κατεύθυνσης. Δηλαδή, τα δεδομένα αυτά ορίζουν και διεύθυνση και φορά. Για παράδειγμα, οι 530 και οι 2330 ορίζουν την ίδια διεύθυνση 530-2330 αλλά ταυτόχρονα ορίζουν και δύο αντίθετες κατευθύνσεις: την κατεύθυνση 530 και την κατεύθυνση 2330. Η γραφική παρουσίαση των δεδομένων μπορεί να γίνει: α) Με κυκλικό διάγραμμα διασποράς

0

90

180

270

β) Με ροδόγραμμα (rose diagram) Το ροδόγραμμα είναι αντίστοιχο του γραμμικού ιστογράμματος. Τα δεδομένα ομαδοποιούνται σε κλάσεις και αντίστοιχα ο κύκλος διαιρείται σε κυκλικούς τομείς. Δηλαδή, αν για παράδειγμα, ως πλάτος της κλάσης επιλεγούν οι 300, ο κύκλος διαιρείται σε 12 τομείς των 300. Η συχνότητα κάθε κλάσης αναπαρίσταται είτε με την ακτίνα (σχήμα Ι) είτε με το εμβαδόν (σχήμα ΙΙ) του αντίστοιχου κυκλικού τομέα.

Page 28: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 43

(Ι)

25 25

25

25

20 20

20

20

15 15

15

15

10 10

10

10

5 5

5

5

0

90

180

270

(ΙΙ)

25 25

25

25

16 16

16

16

9 9

9

9

4 4

4

4

1 1

1

1

0

90

180

270

Επειδή η οπτική εντύπωση που δημιουργεί ένας κυκλικός τομέας διαμορφώνεται πρωτίστως από το εμβαδόν του και δευτερευόντως από την ακτίνα του, το ροδόγραμμα Ι μπορεί να παρασύρει σε λάθος συμπεράσματα αφού υπερτονίζει (οπτικά) τις μεγάλες συχνότητες και υποβαθμίζει τις μικρές. Έτσι, μπορεί να δημιουργηθεί η εντύπωση ότι κάποια κατεύθυνση «ξεχωρίζει» ιδιαίτερα έναντι των άλλων, ενώ τα δεδομένα μπορεί να μην υποστηρίζουν ένα τέτοιο συμπέρασμα. Για το λόγο αυτό, στη βιβλιογραφία προτείνεται οι συχνότητες (ή οι σχετικές συχνότητες) των κλάσεων να αναπαρίστανται με τα εμβαδά και όχι με τις ακτίνες των αντίστοιχων τομέων. Δηλαδή, η ακτίνα κάθε τομέα προτείνεται να είναι ανάλογη με την τετραγωνική ρίζα της αντίστοιχης συχνότητας και όχι με τη συχνότητα (γιατί;). Είναι προφανές ότι στο ιστόγραμμα μη κυκλικών δεδομένων δε δημιουργείται ανάλογο πρόβλημα (γιατί;). Είναι, επίσης, προφανές ότι το ροδόγραμμα, όπως και το ιστόγραμμα μη κυκλικών δεδομένων, επηρεάζεται δραστικά από το πλάτος των κλάσεων (συγκρίνετε το ροδόγραμμα ΙΙΙ που σχεδιάσθηκε σε τομείς 100 με το ροδόγραμμα ΙΙ που σχεδιάσθηκε σε τομείς 300). (ΙΙΙ)

16 16

16

16

9 9

9

9

4 4

4

4

1 1

1

1

0

90

180

270

Page 29: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 44

γ) Με κυκλικό ιστόγραμμα (circular histogram) Στο κυκλικό ιστόγραμμα οι συχνότητες ή οι σχετικές συχνότητες αναπαρίστανται με ράβδους αντίστοιχου μήκους που σχεδιάζονται από την περιφέρεια ενός κύκλου. Το παρακάτω κυκλικό ιστόγραμμα είναι το αντίστοιχο του ροδογράμματος ΙΙΙ. Τα κυκλικά ιστογράμματα χρησιμοποιούνται ευρέως για τη γραφική παρουσίαση της φοράς ανέμων.

12.5 12.5

12.5

12.5

10 10

10

10

7.5 7.5

7.5

7.5

5 5

5

5

2.5 2.5

2.5

2.5

0

90

180

270

Αν για την αναπαράσταση των συχνοτήτων ή των σχετικών συχνοτήτων χρησιμοποιηθούν διανύσματα, το κυκλικό ιστόγραμμα παίρνει τη μορφή: δ) Με γραμμικό ιστόγραμμα Πρόκειται για το σύνηθες γραμμικό ιστόγραμμα. Ένα μειονέκτημά του είναι ότι η οπτική εντύπωση που δημιουργεί διαφοροποιείται ανάλογα με την επιλογή της αρχής των αξόνων σημαντικά. Γι’ αυτό, όταν το εύρος των τιμών είναι μεγάλο (πάνω από 1800) δεν προτείνεται για την αναπαράσταση κυκλικών δεδομένων. Το παρακάτω γραμμικό ιστόγραμμα είναι το αντίστοιχο του ροδογράμματος ΙΙΙ

12.5

10

7.5

5

2.5

0360270180900

0

90

180

270

Page 30: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 45

Ας δούμε ένα ακόμη παράδειγμα. Στον πίνακα που ακολουθεί δίδονται οι διευθύνσεις (orientations) των κύριων (μεγαλύτερων) αξόνων 99 ελλειπτικών γεωλογικών σχηματισμών στις νότιες ακτές του Ατλαντικού σε μια περιοχή της North Carolina.

Πίνακας Διεύθυνση του κύριου άξονα ελλειπτικών γεωλογικών σχηματισμών

(σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου) 218 42.8 225.3 50.9 234.8 54 229.6 40.8 231.9 49.4 217.9 42.7 226.8 50.9 234.7 51.8 230 44.9 227.3 46.1 218.8 43.8 227.4 51.4 238.3 51.9 229.3 45.8 221.9 47 219.4 43.9 228.6 51.7 246.8 50.9 228.8 46.6 221.3 44.9 219.8 43.8 228.9 51.9 246.8 50.9 227.9 48 219.4 51.9 220.1 44.8 230 52.4 238.9 51 227 49.9 231.9 54.1 220.8 45.8 229.9 53.7 235.8 50.5 225.8 53 233.7 46.1 220.8 45.8 229.7 53.9 235.8 49.9 225.9 50 235 46 222 46.1 229.9 53.9 233.9 49.8 226 47.9 236 50.8 221.9 45.8 231.3 54.9 232.9 50 222 49.9 229.9

Πρόκειται για δεδομένα διεύθυνσης. Δηλαδή, δεν ενδιαφέρει η φορά αλλά μόνο η διεύθυνση. Πρακτικά, αυτό σημαίνει ότι παρατηρήσεις που διαφέρουν κατά 1800 προσδιορίζουν μια τιμή της μεταβλητής «διεύθυνση του κύριου άξονα ελλειπτικών γεωλογικών σχηματισμών». Για παράδειγμα, η παρατήρηση 500 προσδιορίζει τη διεύθυνση 500-2300. Ομοίως, η παρατήρηση 2300 προσδιορίζει την ίδια διεύθυνση 500-2300. Δηλαδή, η τιμή 500-2300 της μεταβλητής «διεύθυνση του κύριου άξονα ελλειπτικών γεωλογικών σχηματισμών» μπορεί να αποδοθεί είτε με τις 500 είτε με τις 2300. Με βάση όσα ήδη έχουμε αναφέρει για τις μεταβλητές διεύθυνσης (σελ. 10-11), η κατανομή δεδομένων διεύθυνσης είναι προφανές ότι αναπαρίσταται σε ημικύκλιο (ή σε κύκλο ως δύο συμμετρικά ως προς το κέντρο του κύκλου γραφήματα). Έτσι για τα δεδομένα του παραδείγματος έχουμε τα γραφήματα: α) Κυκλικό διάγραμμα διασποράς

0

90

180

270

Page 31: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 46

β) Ροδόγραμμα (σε τομείς 100)

64 64

64

64

36 36

36

36

16 16

16

16

4 4

4

4

0

90

180

270

γ) Κυκλικό ιστόγραμμα (σε τομείς 100)

60 60

60

60

50 50

50

50

40 40

40

40

30 30

30

30

20 20

20

20

10 10

10

10

0

90

180

270

δ) Γραμμικό ιστόγραμμα (σε κλάσεις 100)

60

50

40

30

20

10

0360270180900

Ερώτηση: Δείτε το επόμενο ροδόγραμμα. Αφορά στα ίδια δεδομένα και σχεδιάσθηκε σε ίδιους τομείς 100, όπως το παραπάνω ροδόγραμμα (β). Τι μπορεί να συνέβη και άλλαξε;

36 36

36

36

25 25

25

25

16 16

16

16

9 9

9

9

4 4

4

4

1 1

1

1

0

90

180

270

Page 32: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 47

Μέτρα θέσης και διασποράς της κατανομής κυκλικών δεδομένων Όπως ήδη έχουμε αναφέρει, τα μέτρα θέσης και διασποράς της κατανομής κυκλικών δεδομένων ενώ είναι ανάλογα (εννοιολογικά) με τα αντίστοιχα μέτρα της κατανομής μη κυκλικών δεδομένων, εντούτοις, τα περισσότερα από αυτά ορίζονται και υπολογίζονται διαφορετικά. Για παράδειγμα, η διασπορά της κατανομής κυκλικών δεδομένων εκφράζει, όπως και η διασπορά της κατανομής μη κυκλικών, το βαθμό συγκέντρωσης των δεδομένων γύρω από τη μέση τιμή τους. Όμως, υπολογίζεται διαφορετικά. Ας δούμε πώς ορίζονται και πώς υπολογίζονται τα βασικότερα μέτρα θέσης και διασποράς της κατανομής κυκλικών δεδομένων. Μέσος κυκλικών δεδομένων α) Μέση κατεύθυνση Έστω nϑϑϑ ...,, 21 , n τιμές μιας μεταβλητής κατεύθυνσης. Θα προσπαθήσουμε να ορίσουμε τη μέση κατεύθυνση των nϑϑϑ ...,, 21 , δηλαδή, έναν «τυπικό εκπρόσωπό» τους, ϑ . Επειδή τιμές σε μεταβλητές κατεύθυνσης αποδίδονται με γωνίες (σε μοίρες ή βαθμούς), είναι προφανές ότι πρέπει να ανατρέξουμε στα αντίστοιχα μαθηματικά εργαλεία. Δηλαδή, στον τριγωνομετρικό κύκλο21 και τις τριγωνομετρικές συναρτήσεις. Μια γωνία ϑ , αναπαριστάνεται στην περιφέρεια του τριγωνομετρικού κύκλου με το πέρας ενός μοναδιαίου διανύσματος ),( ημϑσυνϑ . Είναι, επομένως, λογικό, να ορίσουμε τη μέση τιμή γωνιών μέσω της συνισταμένης μοναδιαίων διανυσμάτων.

Έτσι, ως μέση κατεύθυνση των nϑϑϑ ...,, 21 , ορίζεται η κατεύθυνση ϑ της συνισταμένης rr των μοναδιαίων διανυσμάτων ),( 11 ημϑσυνϑ ,

),( 22 ημϑσυνϑ ,…, ),( nn ημϑσυνϑ 22. Αν ryrx , είναι οι συντεταγμένες της συνισταμένης rr των μοναδιαίων διανυσμάτων

),( 11 ημϑσυνϑ , ),( 22 ημϑσυνϑ , … , ),( nn ημϑσυνϑ , τότε, από τον ορισμό του

αθροίσματος διανυσμάτων, έχουμε: ∑=

=n

iirx

1συνϑ και ∑

==

n

iiry

1ημϑ .

21 Ο τριγωνομετρικός κύκλος είναι ένας προσανατολισμένος κύκλος που έχει ακτίνα ένα. Η αρχή (00) ορίζεται στο θετικό ημιάξονα Οχ, και ως θετική φορά η αντίθετη φορά των δεικτών του ωρολογίου. 22 και φυσικά, όχι ο αριθμητικός μέσος τους

nnϑϑϑ +++ ...21 .

Page 33: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 48

Επομένως, η μέση κατεύθυνση ϑ , των nϑϑϑ ...,, 21 , υπολογίζεται από τη σχέση:

∑∑

=

== ni i

ni i

1

1

συνϑ

ημϑτοξεφϑ

σε συνδυασμό με το πρόσημο των rx και ry (αφού οι τιμές της εφαπτομένης

επαναλαμβάνονται ανά 1800). Στη Γεωλογία , στη Μετεωρολογία και σε άλλες επιστήμες, έχει καθιερωθεί, οι 00 να ορίζονται στο θετικό ημιάξονα Οy, δηλαδή στο βορρά, και η θετική φορά να ορίζεται ως η φορά των δεικτών του ωρολογίου. Στην περίπτωση αυτή, το μοναδιαίο διάνυσμα που αντιστοιχεί στη γωνία ϑ έχει συντεταγμένες ),( συνϑημϑ (γιατί;) και συνεπώς

∑=

=n

iirx

1ημϑ και ∑

==

n

iiry

1συνϑ .

Η μέση κατεύθυνση υπολογίζεται και πάλι από τη σχέση ∑∑

=

== ni i

ni i

1

1

συνϑ

ημϑτοξεφϑ σε

συνδυασμό με το πρόσημο των rx και ry .

Ας υπολογίσουμε τη μέση κατεύθυνση τριών ανέμων: 700, 1600 και 800. Οι κατευθύνσεις των τριών ανέμων μετρήθηκαν από το βορρά και κατά τη διεύθυνση των δεικτών του ωρολογίου. Γραφικά, η μέση κατεύθυνση μπορεί να βρεθεί με το γνωστό κανόνα του παραλληλογράμμου ως η συνισταμένη rr των τριών μοναδιαίων διανυσμάτων

)70,70( 00 συνημ , )160,160( 00 συνημ και )80,80( 00 συνημ .

Page 34: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 49

Ας υπολογίσουμε τις συντεταγμένες rx και ry της rr . Έχουμε:

ϑ συνϑ ημϑ 700 0.34202 0.939693 1600 -0.93969 0.34202 800 0.173648 0.984808

Αθροίσματα -0.42402 2.266521 Άρα,

0266521.23

1>=∑

==

iirx ημϑ

042402.03

1<−=∑

==

iiry συνϑ

και )3453.5(42402.0

266521.2−=

−= τοξεφτοξεφϑ .

Συνεπώς, =ϑ –79.40 ή =ϑ 1800 + (–79.40) = 100.60.

Όμως, επειδή 0>rx και 0<ry η μέση κατεύθυνση των τριών ανέμων είναι =ϑ 100.60

και όχι –79.40, δηλαδή, είναι περίπου ανατολική και όχι περίπου δυτική! Παρατήρηση Στο προηγούμενο σχήμα, οι συντεταγμένες rr yx , της συνισταμένης rr , έχουν διαιρεθεί με το μέγεθος του δείγματος n (έχουν τυποποιηθεί). Δηλαδή, το πέρας της

rr βρίσκεται στο σημείο ⎟⎟

⎜⎜

⎛ ∑∑ ==

nn

n

i in

i i 11 ,συνϑημϑ , δηλαδή, στο σημείο ⎟

⎠⎞

⎜⎝⎛

ny

nx rr , και

όχι στο ( )rr yx , . Έτσι, το rr στο σχήμα, δεν έχει σχεδιασθεί με μήκος ίσο με το

μέτρο του 22ryrxrr +==

r , αλλά, με μήκος ίσο με nr

nrx

nrx

r =⎟⎟

⎜⎜

⎛+

⎟⎟

⎜⎜

⎛=

22.

Το nrr = ονομάζεται μέσο μέτρο της rr . Ποια σκοπιμότητα εξυπηρετεί ο ορισμός

του nrr = θα φανεί στη συνέχεια όταν ορίσουμε τα μέτρα διασποράς.

Page 35: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 50

β) Μέση διεύθυνση Έστω nϑϑϑ ...,, 21 , n τιμές μιας μεταβλητής διεύθυνσης. Η μέση διεύθυνση, ϑ , των

nϑϑϑ ...,, 21 , ορίζεται όπως και η μέση κατεύθυνση, όμως, υπολογίζεται αφού προηγουμένως οι τιμές μετασχηματισθούν. Στην ενότητα για τις κλίμακες απόδοσης τιμών σε μεταβλητές (σελ. 9-11), εξηγήσαμε ότι σε μια διεύθυνση αποδίδουμε τιμή επιλέγοντας την τιμή μιας οποιασδήποτε από τις δύο αντίθετες κατευθύνσεις που ορίζει. Εξηγήσαμε, επίσης, ότι η ανάλυση δεδομένων που αφορούν μεταβλητές διεύθυνσης γίνεται αφού προηγουμένως αυτά μετασχηματισθούν. Ας δούμε ένα παράδειγμα. Τρεις γραμμώσεις σε μια εικόνα Landsat έχουν διευθύνσεις: 700-2500, 800-2600 και 1600-3400. Οι διευθύνσεις των γραμμώσεων μετρήθηκαν από το βορρά και κατά τη διεύθυνση των δεικτών του ωρολογίου.

Θα υπολογίσουμε τη μέση διεύθυνση των τριών γραμμώσεων. Επιλέγουμε ως τιμές των διευθύνσεων των γραμμώσεων τις 700, 800 και 1600 αντίστοιχα. Διπλασιάζουμε τις τιμές αυτές και εργαζόμαστε όπως στο προηγούμενο παράδειγμα που αφορούσε μεταβλητή κατεύθυνσης. Υπολογίζουμε τις συντεταγμένες rx και ry της rr . Έχουμε:

ϑ ϑ2 )2( ϑσυν )2( ϑημ 700 1400 -0.76604 0.642788 800 1600 -0.93969 0.34202

1600 3200 0.766044 -0.64279 Αθροίσματα -0.93969 0.34202

Άρα,

0342020.03

1)2( >=∑

==

iirx ϑημ

093969.03

1)2( <−=∑

==

iiry ϑσυν

και )36397.0(93969.0

34202.02 −=−

= τοξεφτοξεφϑ .

Συνεπώς, =ϑ2 –200 ή =ϑ2 180 + (–200) = 1600 και επειδή 0>rx και 0<ry είναι

=ϑ2 1600.

Page 36: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 51

Έτσι, η μέση διεύθυνση των τριών γραμμώσεων είναι =ϑ 800, δηλαδή, η διεύθυνση 800 - 2600.

Σχόλιο: Είναι φανερό, ότι αν ως τιμές των διευθύνσεων 700-2500, 800-2600 και 1600-3400, αντί των 700, 800 και 1600 επιλέγαμε π.χ. τις 2500, 800 και 3400, θα είχαμε το ίδιο αποτέλεσμα αφού για τον υπολογισμό της μέσης διεύθυνσης θα χρησιμοποιούσαμε και πάλι τις ίδιες τιμές: 2.(2500) – 3600 = 1400, 2.(800) = 1600 και 2.(3400)-3600 = 3200. Ερωτήσεις 1) Πότε η μέση κατεύθυνση ή η μέση διεύθυνση δεν ορίζεται23;

2) Το μέτρο 22ryrxr += και το μέσο μέτρο

nrr = του διανύσματος rr , τι εκφράζουν

άραγε24; Παρατηρήσεις • Η μέση κατεύθυνση ϑ , όπως ορίσθηκε, έχει το εξής μειονέκτημα: Όταν το μέτρο

του rr είναι πολύ μικρό, τότε, μικρή αλλαγή σε κάποιο από τα μοναδιαία διανύσματα (δηλαδή σε κάποια κατεύθυνση) μπορεί να προκαλέσει μεγάλη αλλαγή στη μέση κατεύθυνση ϑ .

• Όπως συμβαίνει και με τη μέση τιμή μη κυκλικών δεδομένων (βλ. σελ. 23-24), ο μέσος κυκλικών δεδομένων είναι το κέντρο ισορροπίας (το κέντρο βάρους) της κατανομής τους. Έτσι, αν σε ένα κυκλικό δίσκο αμελητέου βάρους όπως, για παράδειγμα, ο παρακάτω, θεωρήσουμε ότι στα σημεία ),( ii συνϑημϑ βρίσκονται ίσα βάρη, τότε, το κέντρο ισορροπίας (το κέντρο βάρους) του δίσκου βρίσκεται

στο πέρας του rr , δηλαδή, στο σημείο ⎟⎠⎞

⎜⎝⎛

ny

nx rr , (το rr έχει σχεδιασθεί με μήκος

r ).

23 Σκεφθείτε τι συμβαίνει όταν 0

rr=r

24 Η απάντηση στη συνέχεια!

Page 37: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 52

Διασπορά κυκλικών δεδομένων α) Διασπορά δεδομένων κατεύθυνσης Έστω nϑϑϑ ...,, 21 , n τιμές μιας μεταβλητής κατεύθυνσης. Θα προσπαθήσουμε να ορίσουμε τη διασπορά των nϑϑϑ ...,, 21 , δηλαδή, ένα μέτρο που να εκφράζει πόσο διασκορπισμένες είναι οι τιμές nϑϑϑ ...,, 21 γύρω από τη μέση τιμή τους, δηλαδή, γύρω από τη μέση κατεύθυνση, ϑ . Θεωρούμε, πάλι, τρεις κατευθύνσεις ανέμων: 1400, 3300 και 200. Εύκολα υπολογίζεται ότι η μέση κατεύθυνση αυτών των ανέμων είναι ϑ = 250. Πόσο διασκορπισμένες είναι οι κατευθύνσεις των ανέμων γύρω από την τιμή αυτή;

Με μια πρώτη ματιά, φαίνεται ότι οι τιμές 1400, 3300 και 200 είναι σαφώς περισσότερο διασκορπισμένες γύρω από τη μέση κατεύθυνσή τους ϑ = 250, από όσο είναι οι τιμές 700, 1600 και 800 των κατευθύνσεων των ανέμων του προηγούμενου παραδείγματος από τη μέση κατεύθυνσή τους ϑ = 100.60 (δες το αντίστοιχο σχήμα στη σελ. 49). Επίσης, αν παρατηρήσουμε το μέσο μέτρο r της συνισταμένης rr στις δύο ομάδες δεδομένων, διαπιστώνουμε ότι η ομάδα δεδομένων που είναι περισσότερο συγκεντρωμένη γύρω από τη μέση κατεύθυνσή της, που έχει δηλαδή μικρότερη διασπορά, έχει συνισταμένη rr με μεγαλύτερο μέσο μέτρο. Η ίδια διαπίστωση, αβίαστα, προκύπτει και από τα παρακάτω παραδείγματα όπου όλες οι ομάδες δεδομένων έχουν την ίδια μέση κατεύθυνση ϑ = 500, όμως, οι κατανομές τους είναι διαφορετικές. Στις περισσότερο διασκορπισμένες (γύρω από τη μέση κατεύθυνση ϑ = 500) ομάδες δεδομένων, αντιστοιχεί μικρότερο r .

Page 38: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 53

Φαίνεται, δηλαδή, ότι το μέτρο r (και φυσικά και το μέσο μέτρο r ) της συνισταμένης rr των μοναδιαίων διανυσμάτων που αντιστοιχούν στις κατευθύνσεις nϑϑϑ ...,, 21 , περιέχει πληροφορία για τη διασπορά των nϑϑϑ ...,, 21 γύρω από τη μέση κατεύθυνσή τους ϑ . Έτσι, είναι λογικό, ως ένα μέτρο διασποράς των n κατευθύνσεων nϑϑϑ ...,, 21 , να ορισθεί π.χ. η ποσότητα r−1 ή η ποσότητα r−1 . Όμως, για να είναι δυνατή η σύγκριση των διασπορών δύο ή περισσοτέρων δειγμάτων διαφορετικού μεγέθους, είναι προφανές ότι πρέπει να χρησιμοποιηθεί η ποσότητα r−1 , αφού, το μέτρο του rr δεν επηρεάζεται μόνο από τη διασπορά του δείγματος αλλά προφανώς και από το μέγεθός του n. Έτσι, ως ένα μέτρο διασποράς των n κατευθύνσεων nϑϑϑ ...,, 21 γύρω από τη μέση κατεύθυνσή τους ϑ , ορίζουμε την ποσότητα

rS −= 12

όπου, n

yxnrr rr

22 +== το μέσο μέτρο της συνισταμένης rr .

Ως μέτρα διασποράς κυκλικών δεδομένων ορίζονται, με βάση επίσης το μέσο μέτρο r , και τα παρακάτω:

)1(22 rs −⋅= rs ln22

0 ⋅−= Η τυπική απόκλιση των nϑϑϑ ...,, 21 ορίζεται ως η τετραγωνική ρίζα της διασποράς

2s ή της διασποράς 20s . Δηλαδή, )1(2 rs −⋅= ή rs ln20 ⋅−= .

Παρατηρήσεις • Τα τρία μέτρα διασποράς 2

022 ,, ssS , όπως ορίσθηκαν παραπάνω, δίνουν τη

διασπορά σε βαθμούς στο τετράγωνο (rad2). Για να πάρουμε την τιμή της διασποράς σε μοίρες στο τετράγωνο αρκεί να πολλαπλασιάσουμε με 20180

⎟⎟⎠

⎞⎜⎜⎝

⎛π

.

Έτσι, οι αντίστοιχοι τύποι γίνονται:

)1(18020

2 rS −⎟⎟⎠

⎞⎜⎜⎝

⎛=

π

)1(180220

2 rs −⎟⎟⎠

⎞⎜⎜⎝

⎛⋅=

π και )1(21800

rs −⋅⋅=π

)ln2(18020

20 rs ⋅−⎟⎟

⎞⎜⎜⎝

⎛=

π και rs ln21800

0 ⋅−=π

.

• Η διασπορά rS −= 12 παίρνει τιμές από 0 μέχρι 1. Η τιμή 0 σημαίνει ότι όλες οι κατευθύνσεις είναι συγκεντρωμένες σε μία κατεύθυνση ενώ η τιμή 1 σημαίνει ότι οι παρατηρήσεις έχουν τη μέγιστη διασπορά. Όμως προσοχή! Η τιμή 1 δε σημαίνει ότι οι παρατηρήσεις (κατευθύνσεις) είναι, κατ’ ανάγκη, ομοιόμορφα κατανεμημένες στην περιφέρεια του κύκλου.

• Η διασπορά )1(22 rs −⋅= παίρνει τιμές από 0 μέχρι 2 ενώ η rs ln220 ⋅−=

παίρνει τιμές από 0 μέχρι ∞+ .

Page 39: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 54

• Σε ομαδοποιημένες παρατηρήσεις, για τον υπολογισμό της διασποράς, στη βιβλιογραφία προτείνεται να γίνεται «διόρθωση» του r . Έτσι, αντί του r

προτείνεται να χρησιμοποιείται το rrd

d

c ⋅=)( 2

0360

ημ

π

, όπου, d το πλάτος των

κλάσεων σε μοίρες. Για πλάτος κλάσεων μικρότερο των 300, η διόρθωση αυτή είναι αμελητέα.

Στο παράδειγμα της σελίδας 48, βρήκαμε ότι η μέση κατεύθυνση των τριών κατευθύνσεων 700, 1600 και 800 είναι =ϑ 100.60 και, επίσης, ότι οι συντεταγμένες

rr yx , του rr είναι:

266521.23

1=∑

==

i irx ημϑ

42402.03

1−=∑

==

i iry συνϑ .

Ας υπολογίσουμε τη διασπορά και την τυπική απόκλιση των κατευθύνσεων αυτών γύρω από τη μέση τιμή τους. Το μέσο μέτρο του rr είναι:

77.033.2

3)42.0(27.2

3

22

==−+

==rr .

Άρα, 23.077.0112 =−=−= rS rad2.

46.0)77.01(2)1(22 =−⋅=−⋅= rs rad2 και 68.046.0 ==s rad = 38.960. 523.0)77.0ln(2ln22

0 =⋅−=⋅−= rs rad2 και 723.0523.00 ==s rad = 41.420. β) Διασπορά δεδομένων διεύθυνσης Έστω nϑϑϑ ...,, 21 , n τιμές μιας μεταβλητής διεύθυνσης. Η διασπορά και η τυπική απόκλισή τους γύρω από τη μέση διεύθυνσή τουςϑ , ορίζονται όπως η διασπορά και η τυπική απόκλιση δεδομένων κατεύθυνσης. Όμως, υπολογίζονται αφού προηγουμένως οι τιμές μετασχηματισθούν. Στο παράδειγμα της σελίδας 50, βρήκαμε ότι η μέση διεύθυνση των τριών διευθύνσεων 700-2500, 800-2600 και 1600-3400 είναι =ϑ 800 και, επίσης, ότι οι συντεταγμένες rr yx , του rr , για τα μετασχηματισμένα δεδομένα, είναι:

342020.03

1)2( =∑

==

i irx ϑημ

93969.03

1)2( −=∑

==

i iry ϑσυν

Ας υπολογίσουμε τη διασπορά και την τυπική απόκλιση των διευθύνσεων αυτών γύρω από τη μέση τιμή τους. Το μέσο μέτρο του rr , για τα μετασχηματισμένα δεδομένα, είναι:

333.03999.0

3)94.0(34.0

3

22

==−+

==rr .

Άρα, για τα μετασχηματισμένα δεδομένα είναι,

666.0333.0112 =−=−= rS rad2 33.1)333.01(2)1(22 =−⋅=−⋅= rs rad2 και 15.133.1 ==s rad = 66.080

Page 40: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 55

199.2)333.0ln(2ln220 =⋅−=⋅−= rs rad2 και 48.1199.20 ==s rad = 84.9680

και για τα αρχικά δεδομένα, αντίστοιχα, είναι

333.02666.02 ==S .

665.0233.12 ==s rad2 και 575.0

215.1

==s rad = 330.

099.12199.22

0 ==s rad2 και 74.0248.1

0 ==s rad = 42.40.

Ερώτηση: Πώς σχολιάζετε τις διαφορές μεταξύ των τιμών των 0, ss στα παραπάνω παραδείγματα; Στις κατανομές κυκλικών δεδομένων, ορίζονται και άλλα γνωστά μέτρα θέσης και διασποράς όπως η διάμεσος, τα ποσοστημόρια, η κορυφή, το εύρος, καθώς και μέτρα συμμετρίας και κύρτωσης. Ως έννοιες, όλα ορίζονται ανάλογα με τα αντίστοιχα της κατανομής μη κυκλικών δεδομένων, όμως, υπολογίζονται διαφορετικά. Επίσης, κάποια υπολογίζονται απλά, αλλά, απαιτείται προσοχή γιατί εύκολα μπορεί να γίνουν λάθη. Για παράδειγμα, το εύρος ορίζεται ως το μικρότερο τόξο του κύκλου που περιλαμβάνει όλα τα δεδομένα. Έτσι, οι κατανομές που φαίνονται παρακάτω, έχουν εύρος: η (a) 00, η (b) 220 (μεταξύ 380 και 600), η (c) 830 (μεταξύ 100 και 930) η (d) 1730 (μεταξύ 3220 και 1350) και όχι 3220 - 1350 = 1870! η (e) 2460 (μεταξύ 2850 και 1710) και όχι 2850 - 1710 = 1140!, και η (f) 3000 (γιατί;).

Άλλα μέτρα απαιτούν πολύπλοκους υπολογισμούς, αλλά πλέον, το πρόβλημα αυτό μπορεί να αντιμετωπισθεί με κατάλληλο λογισμικό. Το λογισμικό, μας απαλλάσσει από τους πολύπλοκους και χρονοβόρους αριθμητικούς υπολογισμούς, όμως, όπως τονίσαμε και στην εισαγωγή (βλ. σελ. 13), για τη σωστή ερμηνεία των αποτελεσμάτων των αριθμητικών υπολογισμών, απαιτείται να έχουμε κατανοήσει το νόημα και τη σημασία των αντίστοιχων εννοιών. Από την «υποχρέωση» αυτή, το λογισμικό δε μας απαλλάσσει! (παρότι, αν είναι κατάλληλα σχεδιασμένο, μπορεί επιπλέον να βοηθήσει και στην κατανόηση των εννοιών γιατί διευκολύνει εναλλακτικές προσεγγίσεις, πολλαπλές αναπαραστάσεις, πολλαπλές δοκιμές, διερεύνηση κτλ.).

Page 41: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 56

Προβλήματα Με τη βοήθεια κατάλληλου λογισμικού, να εφαρμόσετε τις καταλληλότερες, κατά περίπτωση, μεθόδους της Περιγραφικής Στατιστικής (Πίνακες Συχνοτήτων, Γραφικές Μεθόδοι Παρουσίασης, Αριθμητικά Περιγραφικά Μέτρα) για την πληρέστερη παρουσίαση και περιγραφή των παρακάτω δεδομένων:

α) Σε κοιλάδες τρίτης τάξης μετρήθηκαν α) ο αριθμός των ρυακιών πρώτης τάξης β) η πυκνότητα αποστράγγισης25 γ) το εμβαδόν κάθε κοιλάδας δ) η υψομετρική διαφορά του υψηλότερου και του χαμηλότερου σημείου της λεκάνης κάθε κοιλάδας και ε) το σχήμα κάθε κοιλάδας26. Τα αποτελέσματα των μετρήσεων φαίνονται στον πίνακα που ακολουθεί. Κοιλάδα Αριθμός

ρυακιών Υ

Πυκνότητα αποστράγγισης

Χ1 (Km/Km2 )

Εμβαδόν Χ2

(Km2 )

Υψομετρική διαφορά

Χ3 (m)

Σχήμα Χ4

1 25 7.16 0.968 998 0.42 2 7 8.28 0.198 562 0.53 3 12 11.73 0.254 542 0.33 4 59 11.47 1.018 817 0.25 5 5 14.62 0.117 635 0.17 6 12 10.53 0.339 332 0.41 7 6 14.76 0.126 275 0.65 8 23 10.57 0.564 786 0.73 9 6 11.62 0.154 695 0.47 10 7 11.28 0.218 885 0.45 11 5 7.32 0.254 690 0.71 12 10 9.43 0.332 592 0.36 13 9 7.76 0.595 735 0.66 14 6 7.06 0.306 548 0.42 15 5 12.14 0.098 576 0.38 16 9 11.76 0.272 713 0.25 17 11 12.52 0.440 805 0.31 18 7 12.44 0.156 384 0.39 19 17 8.46 0.766 910 0.32 20 5 9.55 0.179 507 0.42

β) Στο πλαίσιο μιας εδαφολογικής μελέτης, μια ερευνητική ομάδα πήρε δείγματα από 227 διαφορετικούς τομείς μιας περιοχής. Σε κάθε τομέα πήρε δείγματα από τρία διαφορετικά βάθη (ένα δείγμα από κάθε βάθος). Οι μετρήσεις, μεταξύ άλλων, αφορούσαν τα ποσοστά σε άργιλο, ιλύ και άμμο καθώς και το PΗ. Επίσης, οι ερευνητές κατέταξαν τα δείγματα σε κλάσεις ως προς την κοκκομετρική τους σύσταση. Τα αποτελέσματα των μετρήσεων βρίσκονται στο αρχείο edaf.sf3. Μέρος των αποτελεσμάτων φαίνεται στον πίνακα που ακολουθεί.

25Η πυκνότητα αποστράγγισης της κοιλάδας ορίζεται ως το πηλίκο του συνολικού μήκους όλων των ρυακιών της κοιλάδας προς το εμβαδόν της κοιλάδας. 26 Ως σχήμα της κοιλάδας ορίζεται το πηλίκο του πλάτους προς το μήκος της κοιλάδας.

Page 42: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 57

γ) Στον πίνακα που ακολουθεί δίδονται οι κατευθύνσεις-φορές (directions), σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου, των διασταυρούμενων στρωματώσεων σε ένα σχηματισμό ψαμμίτη.

Κατεύθυνση-φορά των διασταυρούμενων στρωματώσεων σε ένα σχηματισμό ψαμμίτη

(σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου) 121 113 97 113 100 118 354 256 220 192 283 128 145 335 333 6 342 45 54 169 172 160 146 177 179 169 33 14 25 4 338 321 335 22 338 128 44 59 199 208 28 30 24 58 199 208 175 197 328 339 215 176 85 295 299 1 16 334

ε) Στον πίνακα που ακολουθεί δίδονται οι κατευθύνσεις-φορές (directions), σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου, των πτυχώσεων δύο σχηματισμών ψαμμίτη.

Σχηματισμός Α΄ 216 118 223 305 242 198 172 222 155 233 269 238 189 219 111 217 141 201 260 276 182 212 245 221 177 248 192 210 222 251 214 228 217 262 280 234 244 218 208 191 201 Σχηματισμός Β΄ 72 216 255 217 341 222 257 278 242 148 171 251 190 196 290 288 313 300 275 135 255 227 163 96 35 93 106 320 349 215 333 237 15 105 118 179 205 180 271 223 123

στ) Στον πίνακα που ακολουθεί δίδονται οι χρόνοι προσπέλασης δύο μονάδων δίσκων.

Χρόνος προσπέλασης δύο μονάδων δίσκων ( σε msec)

Μονάδα δίσκων Ι Μονάδα δίσκων ΙΙ 59 73 74 61 71 63 40 34 49 92 60 84 58 38 47 60 71 54 73 47 70 40 56 53 68 108 75 33 49 39 80 72 50

Άργιλος (%)

Ιλύς (%)

Άμμος (%)

Κοκκομετρική Σύσταση

PH

Βάθος 1

Βάθος 2

Βάθος 3

Βάθος 1

Βάθος 2

Βάθος 3

Βάθος 1

Βάθος 2

Βάθος 3

Βάθος 1

Βάθος 2

Βάθος 3

Βάθος 1

Βάθος 2

Βάθος 3

31 33 37 40 38 35 29 29 28 CL CL CL 7.6 7.6 7.6 35 61 61 44 27 27 21 12 12 CL C C 7.6 7.5 7.5 58 59 59 31 31 30 11 10 11 C C C 7.5 7.6 7.6 . . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 52 49 53 29 26 30 19 25 17 C C C 7.3 7.4 7.5

Page 43: Περιγραφική Στατιστική - AUAΠεριγραφική Στατιστική Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος

Περιγραφική Στατιστική

Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) 58

ζ) Στον πίνακα που ακολουθεί δίδονται οι διευθύνσεις (orientations), σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου, των αξονικών επιπέδων των αντικλίνων καθώς και οι γραμμώσεις από τις δορυφορικές εικόνες Landsat στο ανατολικό Μπανγκλαντές.

Διεύθυνση των αξονικών επιπέδων των αντικλίνων (σε μοίρες από το βορρά και κατά τη φορά των δεικτών του ωρολογίου)

Διεύθυνση των Landsat γραμμώσεων

(σε μοίρες από το βορρά και κατά τη φορά των δεικτών

του ωρολογίου) 12 16 14 5 350 32 15 8 192 202 169 163 214 192 16 26 186 186 24 344 356 218 198 221 343 346 161 341 350 18 221 342 339 150 169 336 160 205 35 337 351 156 159 352 2 171 196 14 152 150 341 181 184 246 175 25 348 156 156 354 213 26 212 330 162 20 42 354 13 202