Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ -...

37
118 ΚΕΦΑΛΑΙΟ 7 ΜΕΡΙΚΕΣ ΕΙΔΙΚΕΣ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ Στο κεφάλαιο αυτό, θα μελετήσουμε μερικές ειδικές διακριτές κατανομές που παρουσιάζουν ιδιαίτερο ενδιαφέρον λόγω, κυρίως των πολλών εφαρμογών τους. Πριν όμως ορίσουμε και μελετήσουμε τις κατανομές αυτές, θα ορίσουμε μια μορφή πειράματος που έχει άμεση σχέση με πολλές από αυτές. Ορισμός: Ένα τυχαίο πείραμα θα λέγεται πείραμα Bernoulli αν είναι δυνατόν να καταλήξει σε ένα από δύο μόνο, ξένα μεταξύ τουs, ενδεχόμενα που η ένωσή τους αποτελεί τον δειγματικό χώρο. Συνήθως χρησιμοποιούμε τους όρους επιτυχία” (success) (S) και αποτυχία” (failure) (F) για τα ενδεχόμενα αυτά και συμβολίζουμε με p = P(S) και q = 1-p = P(F) , 0 p 1 Ο δειγματικός χώρος, δηλαδή, σένα πείραμα Bernoulli αποτελείται από δύο μόνο σημεία, τα S και F. Παραδείγματα πειραμάτων Bernoulli αποτελούν το στρίψιμο ενός νομίσματος (κεφάλι-γράμματα), η ποιότητα ενός βιομηχανικού προϊόντος (ελαττωματικό-μη ελαττωματικό), η γέννηση ενός παιδιού (αγόρι - κορίτσι) κ.λ.π. Ορισμός: Θα λέμε ότι έχουμε μια ακολουθία n δοκιμών Bernoulli όταν έχουμε n ανεξάρτητες επαναλήψεις ενός πειράματος Bernoulli με τέτοιο τρόπο ώστε η πιθανότητα επιτυχίας p να μένει ίδια από δοκιμή σε δοκιμή. Ο δειγματικός χώρος σε μια ακολουθία n δοκιμών Bernoulli αποτελειται από 2 n σημεία της μορφής S και F. Παραδείγματα ακολουθίας δοκιμών Bernoulli έχουμε στο στρίψιμο ενός νομίσματος n φορές, στο ρίξιμο ενός ζαριού n φορές κ.λ.π. Στην περίπτωση ακολουθίας δοκιμών Bernoulli, επειδή οι δοκιμές είναι ανεξάρτητες, οι πιθανότητες πολλαπλασιάζονται. Με άλλα λόγια, η πιθανότητα οποιασδήποτε συγκεκριμένης ακολουθίας

Transcript of Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ -...

Page 1: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

118

ΚΕΦΑΛΑΙΟ 7

ΜΕΡΙΚΕΣ ΕΙΔΙΚΕΣ ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ

Στο κεφάλαιο αυτό, θα μελετήσουμε μερικές ειδικές διακριτές κατανομές που παρουσιάζουν ιδιαίτερο ενδιαφέρον λόγω, κυρίως των πολλών εφαρμογών τους. Πριν όμως ορίσουμε και μελετήσουμε τις κατανομές αυτές, θα ορίσουμε μια μορφή πειράματος που έχει άμεση σχέση με πολλές από αυτές. Ορισμός: Ένα τυχαίο πείραμα θα λέγεται πείραμα Bernoulli αν είναι δυνατόν να καταλήξει σε ένα από δύο μόνο, ξένα μεταξύ τουs, ενδεχόμενα που η ένωσή τους αποτελεί τον δειγματικό χώρο. Συνήθως χρησιμοποιούμε τους όρους “επιτυχία” (success) (S) και “αποτυχία” (failure) (F) για τα ενδεχόμενα αυτά και συμβολίζουμε με

p = P(S) και q = 1-p = P(F) , 0 ≤ p ≤ 1 Ο δειγματικός χώρος, δηλαδή, σ’ ένα πείραμα Bernoulli

αποτελείται από δύο μόνο σημεία, τα S και F. Παραδείγματα πειραμάτων Bernoulli αποτελούν το στρίψιμο

ενός νομίσματος (κεφάλι-γράμματα), η ποιότητα ενός βιομηχανικού προϊόντος (ελαττωματικό-μη ελαττωματικό), η γέννηση ενός παιδιού (αγόρι - κορίτσι) κ.λ.π. Ορισμός: Θα λέμε ότι έχουμε μια ακολουθία n δοκιμών Bernoulli όταν έχουμε n ανεξάρτητες επαναλήψεις ενός πειράματος Bernoulli με τέτοιο τρόπο ώστε η πιθανότητα επιτυχίας p να μένει ίδια από δοκιμή σε δοκιμή.

Ο δειγματικός χώρος σε μια ακολουθία n δοκιμών Bernoulli αποτελειται από 2n σημεία της μορφής S και F.

Παραδείγματα ακολουθίας δοκιμών Bernoulli έχουμε στο στρίψιμο ενός νομίσματος n φορές, στο ρίξιμο ενός ζαριού n φορές κ.λ.π. Στην περίπτωση ακολουθίας δοκιμών Bernoulli, επειδή οι δοκιμές είναι ανεξάρτητες, οι πιθανότητες πολλαπλασιάζονται. Με άλλα λόγια, η πιθανότητα οποιασδήποτε συγκεκριμένης ακολουθίας

Page 2: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

119

είναι το γινόμενο που παίρνουμε αντικαθιστώντας τα σύμβολα S και F με p και q αντίστοιχα. Έτσι P(SSFFS...SFS) = ppqqp...pqp

Η ΚΑΤΑΝΟΜΗ BERNOULLI

Ορισμός: Έστω X μια τυχαία μεταβλητή με πεδίο τιμών το 0, 1 και κατανομή πιθανότητας

P(X=x) = ⎩⎨⎧

=−=

0 xαν p11 xαν p

, 0 ≤ p ≤ 1

Η τυχαία μεταβλητή X λέγεται τυχαία μεταβλητή Bernoulli (Bernoulli random variable) και η κατανομή πιθανότητας της X λέγεται κατανομή Bernoulli (Bernoulli distribution).

Είναι προφανές ότι η κατανομή Bernoulli είναι μια καλώς ορισμένη κατανομή (

x∑ P(x) = 1, P(x)≥0).

Μοντέλα που οδηγούν στην κατανομή Bernoulli

Αν έχουμε ένα πείραμα Bernoulli και ορίσουμε την τυχαία μεταβλητή X με τιμές X(S)=1 και X(F)=0 και κατανομή πιθανότητας

P(X=x) = ⎩⎨⎧

=−=

0 xαν p11 xαν p

, 0 ≤ p ≤ 1 , q = 1-p

λέμε ότι η X ακολουθεί την κατανομή Bernoulli. Πρόταση: Αν X ακολουθεί την κατανομή Bernoulli, τότε

E(X) = p, Δ(X) =pq Απόδειξη: Προφανής.

Η ΔΙΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ Ορισμός: Έστω X μια διακριτή τυχαία μεταβλητή με

P(X=x) = xnx qpxn −⎟⎟⎠

⎞⎜⎜⎝

x=0,1,...,n , n=1,2,... , 0 ≤ p ≤ 1 , q = 1-p

Page 3: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

120

Θα λέμε ότι η τυχαία μεταβλητή X ακολουθεί την διωνυμική κατανομή (Binomial distribution) με παραμέτρους n και p και θα συμβολίζουμε X ∼ b(x;n,p). Παρατήρηση: Η διωνυμική κατανομή είναι μια καλά ορισμένη κατανομή γιατί P(x) ≥ 0 και από το διωνυμικό ανάπτυγμα έχουμε ότι

1q)(pqpxn

P(x) n

0x

n

0x

xnx =+=⎟⎟⎠

⎞⎜⎜⎝

⎛=∑ ∑

= =

Μοντέλα που οδηγούν στην διωνυμική κατανομή

i) Έστω X ο αριθμός των επιτυχιών σε μια ακολουθία n δοκιμών Bernoulli. Τότε X ∼ b(x;n,p). Απόδειξη: Το ενδεχόμενο x επιτυχίες σε n δοκιμές είναι η ένωση ενδεχομένων που αποτελούν αποτελέσματα n δοκιμών Bernoulli, x από τις οποίες έχουν καταλήξει σε επιτυχία και n-x σε αποτυχία (μια και μας ενδιαφέρει ο αριθμός των επιτυχιών στις n δοκιμές και όχι η σειρά με την οποία εμφανίζονται). Δηλαδή x επιτυχίες σε n δοκιμές

= ∪X

1iiA

=

όπου Αi είναι μια ακολουθία δοκιμών Bernoulli από x “S”

και n-x “F”. Τα Αi , όμως είναι ξένα μεταξύ τους και ισοπίθανα αφού P(Ai) = px qn-x , i=1,2,...,n

Ο αριθμός των Αi είναι ⎟⎟⎠

⎞⎜⎜⎝

⎛xn (όσοι και οι δυνατοί συνδυασμοί των x

επιτυχιών στις n δοκιμές). Επομένως

P(X x) P(A )nx

p qii 1

nx

x n x= = =⎛⎝⎜

⎞⎠⎟

=

⎛⎝⎜

⎞⎠⎟

−∑ , x=0,1,...,n

ii) Αν X1 ,X2 ,..., Xn είναι μια ακολoυθία ανεξάρτητων τυχαίων μεταβλητών Bernoulli με παράμετρο p, τότε μπορεί να αποδειχθεί ότι η τυχαία μεταβλητή

X = X1 +X2 +...+ Xn ακολουθεί την διωνυμική κατανομή με παραμέτρους n και p.

Page 4: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

121

Δηλαδή, X ∼ b(x;n,p). Παρατήρηση: Είναι προφανές ότι η κατανομή Bernoulli μπορεί να θεωρηθεί ως ειδική περίπτωση της διωνυμικής κατανομής για n=1. Πρόταση: Αν X ∼ b(x;n,p) τότε

E(X) = np και Δ(X) = npq

Απόδειξη: Κάνοντας χρήση του μοντέλου (ii) που οδηγεί στη διωνυμική κατανομή έχουμε ότι

E(X) = E X E(X ) p npii 1

n

ii 1

n

i 1

n

= ==∑ ∑∑⎛⎝⎜

⎞⎠⎟ = = =

και

Δ(X) = Δ(ΣXi) =∑ ∑= =

==Δn

1i

n

1ii npqqp)(X

(μια και οι Xi είναι ανεξάρτητες). Σημείωση: Αν X ∼ b(x;n,p), η συνάρτηση κατανομής του X στο

σημείο x δίνεται από τον τύπο P(X≤x) = ni

p qi n i

i 0

x ⎛⎝⎜

⎞⎠⎟ −

=∑ .

Τιμές της συνάρτησης κατανομής της διωνυμικής κατανομής για διάφορες του n και του p δίνονται στον πίνακα 1 του παραρτήματος. Παράδειγμα: Ένα διαγώνισμα πολλαπλής επιλογής αποτελείται από 15 ερωτήσεις. Για κάθε ερώτηση, υπάρχουν 5 πιθανές απαντήσεις μια μόνο από τις οποίες είναι σωστή. Η βαθμολογία είναι 1 για κάθε σωστή απάντηση και 0 για κάθε λάθος απάντηση. Ένας φοιτητής διαλέγει την απάντηση σε κάθε ερώτηση στην τύχη. Να υπολογισθεί η πιθανότητα α) Ο παραπάνω φοιτητής να πάρει το πολύ οκτώ. β) Ο φοιτητής αυτός να βαθμολογηθεί με οκτώ. γ) Να πάρει βαθμό μεγαλύτερο από 3 και μικρότερο από οκτώ. Λύση: Έστω X η βαθμολογία του φοιτητή και p η πιθανότητα σωστής απάντησης. Είναι p=1/5=0.2 και n=15.

Page 5: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

122

Επομένως κάνοντας χρήση των πινάκων

α) P(X≤8|n=15, p=0.2) = x=∑

0

8

b(x;15, 0.2) = 0.9992

β) P(X=8) = x=∑

0

8

b(x;15, 0.2) - x=∑

0

8

b(x;15, 0.2)

= 0.9992 - 0.9958 = 0.0034

γ) P(3<X<8) = P(4≤X≤7) = 0.9958 - 0.6482 = 0.3476 Παράδειγμα: Στο προηγούμενο παράδειγμα, να βρεθεί α) ο μέσος αναμενόμενος βαθμός των φοιτητών που απαντούν στην τύχη. β) Ποιά θα είναι η βάση που θα πρέπει να καθορίσει ο καθηγητής έτσι ώστε ένας φοιτητής που απαντά μόνο στην τύχη να έχει πιθανότητα το πολύ ίση με 0.05 να περάσει; Λύση: α) E(X) = np = 3. β) Έστω α η ζητούμενη βάση. Τότε θα πρέπει P(X≥α) ≤ 0.05 ή ισοδύναμα

1-P(X≤ α-1) ≤ 0.05 ⇔ P(X≤ α-1) ≥ 1-0.05 ⇔

⇔ P(X≤ α-1) ≥ 0.95 .

Από τους πίνακες, βρίσκουμε ότι α-1 = 6 ⇒ α=7. Παράδειγμα: Αυτοκίνητα φθάνουν σε μια διασταύρωση όπου θα πρέπει υποχρεωτικά να στρίψουν δεξιά ή αριστερά. Έστω ότι τα αυτοκίνητα που φθάνουν στην διασταύρωση διαλέγουν την κατεύθυνση που θα στρίψουν ανεξάρτητα το ένα απο το άλλο. Έστω ότι η πιθανότητα p να στρίψει ένα αυτοκίνητο αριστερά είναι 0.7. Να υπολογισθεί η πιθανότητα α) Τουλάχιστον 10 από τα επόμενα 15 αυτοκίνητα να στρίψουν αριστερά.

Page 6: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

123

β) Μέσα στα επόμενα 15 αυτοκίνητα τουλάχιστον 10 να στρίψουν στην ίδια κατεύθυνση. Λύση: Έστω X ο αριθμός των αυτοκινήτων, μεταξύ των 15, που στρίβουν αριστερά και Y ο αριθμός αυτών που στρίβουν δεξιά. Προφανώς, X ∼ b(x;15, 0.7) και Y ∼ b(y;15, 0.3). Επομένως

α) P(τουλάχιστον 10 στρίβουν αριστερά) = P(X≥10) =P(X=10)+P(X=11)+P(X=12)+P(X=13)+P(X=14)+P(X=15) =P(Y=5)+P(Y=4)+P(Y=3)+P(Y=2)+P(Y=1)+P(Y=0)

=y=∑

0

5

b(y;15, 0.3) = 0.7216.

β) P(τουλάχιστον 10 στρίβουν στην ίδια κατεύθυνση) =P(τουλάχιστον 10 στρίβουν δεξιά ή τουλάχιστον 10 στρίβουν αριστερά)

=P(X≥10)+P(Y≥10)

=P(X≥10)+1-P(Y≤9)

=y=∑

0

5

(y;15, 0.3) + 1 - y=∑

0

9

(y;15, 0.3)

= 0.7216 + 1 - 0.9963 = 0.726. Σημείωση: Η λύση της άσκησης βασίσθηκε σε μια τεχνική που δίνει τη δυνατότητα χρησιμοποίησης των πινάκων της συνάρτησης κατανομής της διωνυμικής κατανομής για p>0.5. Συγκεκριμένα, στηρίζεται στην ιδιότητα που εύκολα μπορεί να αποδείξει κανείς ότι

b(x;n,p) = b(n-x;n,1-p) Σημείωση: Πολλά βιβλία δίνουν πίνακες της κατανομής πιθανότητας και όχι της συνάρτησης κατανομής της διωνυμικής. Οι πίνακες αυτοί απαιτούν συνήθως περισσότερο χρόνο για τον υπολογισμό πιθανοτήτων.

Page 7: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

124

Παράδειγμα: Ρίχνουμε ένα αμερόληπτο ζάρι 300 φορές. Να υπολογισθεί η πιθανότητα του ενδεχομένου να εμφανισθεί 1 ή 2 λιγότερες από 70 φορές. Λύση: Στην προηγούμενη ενότητα βρήκαμε ένα άνω φράγμα της πιθανότητας αυτής. Με την χρήση της διωνυμικής κατανομής μπορούμε να την υπολογίσουμε ακριβώς. Είχαμε δει εκεί ότι αν X είναι ο αριθμός των 1 και 2 στις 300 δοκιμές τότε

X = X1 +X2 +...+ X300 όπου Xi , i=1,2,...,300 είναι τυχαίες μεταβλητές Bernoulli με p=1/3. Επομένως, X ∼ b(x;300,1/3) και P(το 1 και το 2 εμφανίζονται

λιγότερες από 70 φορές) = P(X<70) = x=∑

0

69

b(x;300,1/3).

Παράδειγμα: (Συνέχεια του παραδείγματος της δίκης του Collins). Στο παράδειγμα εκείνο, είχαμε δει ότι το ζευγάρι που είχε κατηγορηθεί για τη ληστεία καταδικάσθηκε γιατί είχε όλα τα χαρακτηριστικά των ληστών και η πιθανότητα ένα ζευγάρι να είχε όλα αυτά τα χαρακτηριστικά ήταν 1 στα 12 εκατομμύρια. Το ζευγάρι έκανε έφεση και αθωώθηκε, χρησιμοποιώντας τον εξής μαθηματικό συλλογισμό: Έστω ότι η πιθανότητα να έχει ένα ζευγάρι όλα τα χαρακτηριστικά των ληστών είναι πραγματικά p=1/12.000.000 (μία παραδοχή που δεν την έκαναν και τόσο εύκολα). Έστω ότι υπάρχει ένα τέτοιο ζευγάρι σε ένα πληθυσμό N ζευγαριών. Ποιά είναι η πιθανότητα να υπάρχουν και άλλα τέτοια ζευγάρια; Θεωρούμε κάθε ένα από τα N ζευγάρια του πληθυσμού σαν μια δοκιμή Bernoulli με “επιτυχία” το ενδεχόμενο το ζευγάρι να έχει τα χαρακτηριστικά των ληστών. Είναι p=1/12.000.000. Έστω X ο αριθμός των ζευγαριών που έχουν τα χαρακτηριστικά αυτά. Χρησιμοποιώντας τη διωνυμική κατανομή και τις ιδιότητες της δεσμευμένης πιθανότητας βλέπουμε ότι P(να υπάρχουν περισσότερα από ένα τέτοια ζευγάρια | υπάρχει τουλάχιστον ένα τέτοιο ζευγάρι) = P(X ≥ 2 | X ≥ 1)

Page 8: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

125

1)P(X12)P(X1

1)P(X2)P(X

1)P(X1)X2,P(X

<−<−

=≥≥

=≥

≥≥=

p)N,b(0,1p)N,b(1,p)N,b(0,1

−−−

=

N

1NN

p)(11p)Np(1p)(11

−−−−−−

=−

Ο πίνακας που ακολουθεί δίνει την πιθανότητα αυτή για διάφορες τιμές του N.

Πίνακας Αριθμός ζευγαριών Ν

(Σε εκατομμύρια) Πιθανότητες ύπαρξης ζευγαριού με τα συγκεκριμένα χαρακτηριστικά

1 2 3 4 5 6 7 8 9 10 15 20 25 30 40 50 75 100

0.0402 0.0786 0.1160 0.1522 0.1875 0.2216 0.2547 0.2868 0.3179 0.3479 0.4835 0.5959 0.6875 0.7610 0.8644 0.9256 0.9852 0.9973

Η υπεράσπιση χρησιμοποίησε την τιμή N=12.000.000 και κατέληξε στο συμπέρασμα ότι η πιθανότητα να υπάρχουν και άλλα ζευγάρια με τα χαρακτηριστικά των ληστών είναι περίπου 0.40. Το δικαστήριο δέχθηκε το επιχείρημα και έκανε δεκτή την προσφυγή. (Περισσότερες πληροφορίες για τη δίκη αυτή μπορεί να βρει κανείς στο περιοδικό TIME, της 26/4/68 σε άρθρο με τίτλο “Δίκη με την

Page 9: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

126

χρήση μαθηματικών” (Trial by Mathematics). Επίσης, βλέπε Fairly & Mosteller (1974). Παράδειγμα: Διαγωνίσματα πολλαπλής επιλογής. Μια πρακτική εφαρμογή των δοκιμών Bernoulli και της διωνυμικής κατανομής συναντάται στα διαγωνίσματα πολλαπλής επιλογής (multiple choice). Συνήθως, στα διαγωνίσματα αυτά, υπάρχουν τέσσερις δυνατές απαντήσεις (Α, Β, Γ, Δ), από τις οποίες μία μόνο είναι σωστή. Κάποιος που επιλέγει απάντηση στην τύχη έχει πιθανότητα p = 0.25 επιλογής της σωστής απάντησης. Αν υπάρχουν n = 20 ερωτήσεις σε κάποιο τέστ, τότε, σύμφωνα με την μέση τιμή της διωνυμικής κατανομής, ο αναμενόμενος αριθμός των σωστών απαντήσεων που θα βασίζονται σε τυχαίες επιλογές θα είναι 5(0.25)(20)pn == . Επομένως, σε επανάληψη τέτοιας μορφής διαγωνισμάτων ένας φοιτητής που απαντατά πάντοτε στην τύχη θα έχει κατά μέσο όρο πέντε σωστές απαντήσεις ανά διαγώνισμα.

Είναι προφανές ότι, σε ένα συγκεκριμένο διαγώνισμα αυτής της μορφής, ο φοιτητής που επιλέγει τυχαία τις απαντήσεις μπορεί να μαντέψει λιγότερες ή περισσότερες από πέντε σωστές απαντήσεις. Οι ακριβείς πιθανότητες δίνονται από την διωνυμική κατανομή για p=0.25 και n = 20. Ο πίνακας που ακολουθεί δείχνει τις πιθανότητες που αντιστοιχούν σε μια σειρά από σωστές απαντήσεις.

Αριθμός ορθών απαντήσεων

Πιθανότητα

< 3 0.0913 3 0.1339 4 0.1896 5 0.2024 6 0.1686 7 0.1124

> 7 0.1018

Πολλά διαγωνίσματα πολλαπλής επιλογής βαθμολογούνται με τέτοιο τρόπο, ώστε αυτός που απαντά στην τύχη να έχει αναμενόμενο βαθμό μηδέν, τον ίδιο βαθμό, δηλαδή, με κάποιο που δεν γνωρίζει τις ερωτήσεις και δεν τις απαντά. Δεδομένου ότι κάποιος που απαντά

Page 10: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

127

στην τύχη είναι δυνατόν να επιλέξει σωστές απαντήσεις - και προκειμένου η αναμενόμενη βαθμολογία να είναι μηδέν - θα πρέπει να αφαιρούνται βαθμοί για τις λανθασμένες απαντήσεις. Όπως προαναφέρθηκε, σε ένα διαγώνισμα 20 ερωτήσεων, ο αναμενόμενος αριθμός σωστών απαντήσεων για κάποιον που απαντά στην τύχη είναι 5 και, επομένως, ο αναμενόμενος αριθμός λανθασμένων απαντήσεων για το άτομο αυτό είναι 15. Είναι προφανές ότι για να έχει ένας τέτοιος φοιτητής μέσο αναμενόμενο βαθμό μηδέν, θα πρέπει από κάθε λανθασμένη απάντηση να αφαιρείται 1/3 του βαθμού για κάθε λανθασμένη απάντηση.

Γενικότερα, αν Χ είναι ο αριθμός των σωστών απαντήσεων σε ένα διαγώνισμα n ερωτήσεων όπου ο υποψήφιος απαντά με τυχαίο τρόπο και δίνεται ένας βαθμός για κάθε σωστή ερώτηση, τότε, αν ω είναι οι βαθμοί που αφαιρούνται για κάθε λανθασμένη απάντηση, θα πρέπει, χρησιμοποιώντας τις ιδιότητες της μέσης τιμής, να έχουμε ότι ω)pn(1ω)(n)(ω)(Χ)(1ω)(n)(ΕX)(-ω)-(n(X)(1)E ++−=++−=+

Προκειμένου ο μέσος βαθμός σε τέτοια διαγωνίσματα για

κάποιον που απαντά στην τύχη να είναι μηδέν, θα πρέπει να έχουμε ω=p/(1-p).

Έτσι, με τέσσερις δυνατές απαντήσεις για κάθε ερώτηση όπου p = 0.25, η “ποινή” για κάθε λάθος απάντηση θα πρέπει να είναι

31

75.025.0

==ω . Με πέντε δυνατές απαντήσεις, p = 0.2 και η “τιμή” θα

πρέπει να είναι 41

8.02.0==ω . (Αυτές είναι και οι “ποινές” που

χρησιμοποιούνται στο SAT τέστ και στο GMAT τέστ σε άλλες γνωστές διεθνείς εξετάσεις πολλαπλής επιλογής).

Για ένα διαγώνισμα της μορφής αυτής τίθεται το ερώτημα αν “συμφέρει” ένα φοιτητή που δεν γνωρίζει την σωστή απάντηση να απαντά στην τύχη ή όχι. Στις περίπτωσεις αυτές, είναι φυσικά προτιμότερο να χρησιμοποιεί κανείς την κρίση του. Αν μπορεί να αποκλείσει μία από τις δυνατές απαντήσεις, η τυχαία επιλογή θα αυξήσει τον αναμενόμενο βαθμό που είναι καλύτερος από το μηδέν

Page 11: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

128

που θα πάρει, αν αφήσει την ερώτηση αναπάντητη. Για παράδειγμα, ας υποθέσουμε ότι υπάρχει μια δύσκολη ερώτηση με τέσερις δυνατές απαντήσεις (Α, Β, Γ, Δ). Ας υποθέσουμε ότι ο υποψήφιος μπορεί να αποκλείσει μία από τις απαντήσεις, έστω την Α, αλλά δεν έχει ιδέα για το ποιά από τις υπόλοιπες είναι σωστή. Αν επιλέξει στην τύχη έχει πιθανότητα 1/3 να επιλέξει την σωστή απάντηση (και να κερδίσει τον ένα βαθμό) και 2/3 να επιλέξει λανθασμένη απάντηση (και να “τιμωρηθεί” με 1/3 βαθμού). Η αναμενόμενη βαθμολογία σε αυτή την ερώτηση θα είναι

(1)(1/3) + (-1/3)(2/3) = 1/9 η οποία, έστω και αν είναι μικρή, είναι θετική. Κατά μέσο όρο, μακροπρόθεσμα, αυτή η στρατηγική που στηρίζεται στην κριτική επιλογή με τυχαίο τρόπο θα αυξήσει την βαθμολογία του φοιτητή κατά 1/9 βαθμών ανά ερώτηση.

Τί συμβαίνει στην περίπτωση που οι απαντήσεις δίνονται με εντελώς τυχαίο τρόπο επειδή ο υποψήφιος δεν έχει την δυνατότητα να επιλέξει με κριτικό τρόπο; Αν για παράδειγμα κάποιος δεν έχει χρόνο και του έχουν μείνει μια σειρά από αναπάντητες ερωτήσεις, είναι καλύτερα να τις απαντήσει στην τύχη ή να τις αφήσει αναπάντητες; Συνήθως, οι οδηγίες τέτοιων διαγωνισμάτων πολλαπλής επιλογής αναφέρουν ότι “η τυχαία επιλογή είναι πιθανόν να οδηγήσει σε μηδενική βαθμολογία και, επομένως, δεν αποτελεί μια σωστή στρατηγική”. Είναι βέβαια σωστό ότι απαντήσεις στην τύχη θα έχουν ένα αναμενόμενο μέσο βαθμό μηδέν και, επομένως, μια τέτοια στρατηγική κατά μέσο όρο δεν θα αποδώσει μακροπρόθεσμα. Δεδομένου όμως ότι αυτός που παίρνει το διαγώνισμα ενδιαφέρεται για το συγκεκριμένο διαγώνισμα, ο υποθετικός μακροχρόνιος μέσος δεν έχει σημασία για αυτόν. Σε ένα συγκεκριμένο διαγώνισμα, η τυχαία επιλογή απαντήσεων σε κάποιες ερωτήσεις ίσως αυξήσει αλλά ίσως και μειώσει την συνολική βαθμολογία.

Όπως έχουμε ήδη δει, εάν απαντήσει κανείς τυχαία σε ένα διαγώνισμα 20 ερωτήσεων, υπάρχει πιθανότητα μόνο 0.2 σωστής επιλογής. Επομένως, υπάρχει πιθανότητα 0.8 ότι αυτός που απαντά στην τύχη θα απαντήσει περισσότερες ή λιγότερες από τον αναμενόμενο αριθμό των σωστών απαντήσεων. Επομένως, σε ένα

Page 12: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

129

δεδομένο διαγώνισμα όπου ο υποψήφιος απαντά στην τύχη, η πιθανότητα ότι θα πάρει βαθμό μεγαλύτερο ή μικρότερο από τον αναμενόμενο βαθμό είναι 0.8.

Μια από τις πιο γνωστές περιπτώσεις όπου χρησιμοποιούνται οι εξετάσεις πολλαπλής επιλογής είναι το Graduate Management Admission Test (GMAT) που χρησιμοποιείται από πολλά πανεπιστήμια του εξωτερικού, αλλά και από το Οικονομικό Πανεπιστήμιο Αθηνών, προκειμένου να επιλεγούν μεταπτυχιακοί φοιτητές για σπουδές στην Διοίκηση Επιχειρήσεων. Το διαγώνισμα αυτό διαρκεί 3 ½ ώρες και αποτελείται από περίπου 200 ερωτήσεις πολλαπλής επιλογής που καλύπτουν την ικανότητα χρήσης πληροφοριών από κείμενο που έχει αναγνωσθεί (reading recall), προφορική ικανότητα (verbal aptitude), μαθηματικά (mathematics), ικανότητα διαχείρισης δεδομένων (data sufficiency) και επιχειρηματική κρίση (business judgement). Κάθε ερώτηση έχει πέντε δυνατές απαντήσεις και για κάθε σωστή απάντηση δίνεται ένας βαθμός, ενώ για κάθε λανθασμένη απάντηση αφαιρείται 1/4 του βαθμού.

Η ΥΠΕΡΓΕΩΜΕΤΡΙΚΗ ΚΑΤΑΝΟΜΗ Ορισμός: Έστω Χ μια διακριτή τυχαία μεταβλητή με

P(X=x) = ⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

nN

xnmN

xm

n=1,2,..., N=1,2,..., m=0,1,2,...,N, x=0,1,2,...,min(m,n). Η τυχαία μεταβλητή Χ λέγεται ότι ακολουθεί την υπεργεωμετρική κατανομή με παραμέτρους Ν, n και m. (Συμβολικά Χ ∼ h(x;N,n,m)). Παρατήρηση: Η υπεργεωμετρική κατανομή είναι μια καλά ορισμένη κατανομή γιατί P(x)≥0 και

⎟⎟⎠

⎞⎜⎜⎝

⎛=⎟⎟

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

⎛∑= n

NxnmN

xmn)min(m,

0x

Page 13: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

130

Μοντέλα που οδηγούν στην υπεργεωμετρική κατανομή 1) Δειγματοληψία απο υδρία. Σε ένα δοχείο υπάρχουν Ν σφαιρίδια. Από αυτά m είναι μαύρα και τα υπόλοιπα N-m άσπρα. Διαλέγουμε στην τύχη ένα σύνολο από n σφαιρίδια. Εστω Χ ο αριθμός των μαύρων σφαιριδίων στο σύνολο αυτό. Με τις προϋποθέσεις αυτές

X ∼ h (x;N,n,m) Απόδειξη: Το σύνολο των δυνατών περιπτώσεων του πειράματος

είναι ⎟⎟⎠

⎞⎜⎜⎝

⎛nN . Για τον καθορισμό των ευνοϊκών περιπτώσεων

παρατηρούμε ότι στο σύνολο των n σφαιριδίων πρέπει να έχουμε x

μαύρα και n-x άσπρα. Τα x μαύρα μπορούν να επιλεγούν με ⎟⎟⎠

⎞⎜⎜⎝

⎛xm

τρόπους και τα n-x άσπρα με ⎟⎟⎠

⎞⎜⎜⎝

⎛−−

xnmN τρόπους. Κάθε όμως επιλογή x

μαύρων μπορεί να συνδυασθεί με οποιαδήποτε από τις επιλογές n-x άσπρων. Επομένως, κάτω από την υπόθεση ότι όλα τα υποσύνολα μεγέθους n έχουν την ίδια πιθανότητα να επιλεγούν, καταλήγουμε στο ζητούμενο. Σημείωση: Οι πιθανότητες Px ορίζονται, προφανώς, για x≤min(m,n).

Επειδή όμως ⎟⎟⎠

⎞⎜⎜⎝

⎛βα =0 για κάθε β>α ο τύπος της υπεργεωμετρικής

κατανομής ισχύει για όλα τα x ≥ 0 με την προϋπόθεση ότι Px = 0 υποδηλώνει ότι η τιμή x είναι ανέφικτη για την τυχαία μεταβλητή X. Από την παρατήρηση αυτή προκύπτει ότι η υπεργεωμετρική κατανομή είναι μια πεπερασμένη κατανομή (Υπάρχει δηλαδή ένα πεπερασμένο πλήθος τιμών της τυχαίας μεταβλητής με μη μηδενική πιθανότητα). Σημείωση: Το προηγούμενο πρόβλημα μπορεί να παρουσιασθεί εναλλακτικά ως εξής: Έστω ότι η επιλογή των n σφαιριδίων του προηγούμενου παραδείγματος γίνεται ένα προς ένα με τρόπο ώστε σε κάθε επιλογή σημειώνουμε το χρώμα του σφαιριδίου και το απομακρύνουμε από το δοχείο. (Δειγματοληψία χωρίς επανάθεση). Έστω Αi το ενδεχόμενο ότι το i σφαιρίδιο είναι μαύρο και έστω

Page 14: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

131

iiA X)(xΧi

≡ η αντίστοιχη μεταβλητή-δείκτης (μεταβλητή Βernoulli) του ενδεχομένου Αi (i=1,2,...,n). (Χi =1 αν το i σφαιρίδιο είναι μαύρο και Χi =0 αν το i σφαιρίδιο είναι λευκό). Ο συνολικός αριθμός X των μαύρων σφαιριδίων σε ένα σύνολο n δοκιμών της μορφής αυτής είναι, προφανώς

X = X1 + X2 + ... + Xn Η τυχαία μεταβλητή Χ ακολουθεί την υπεργεωμετρική κατανομή με παραμέτρους N, n, m. Πριν αποδείξουμε τον παραπάνω ισχυρισμό αποδεικνύουμε το ακόλουθο λήμμα.

Λήμμα: P(Xk = 1) = pnm

≡ για κάθε k=1,2,...,n.

(Δηλαδή η πιθανότητα “επιτυχίας” (μαύρου σφαιριδίου) στην i δοκιμή είναι σταθερή (ανεξάρτητη από την σειρά της δοκιμής). Απόδειξη: Ας υποθέσουμε προς στιγμήν ότι τα m μαύρα σφαιρίδια είναι σημειωμένα με τα στοιχεία 1,2,...,m και έστω Sjk το ενδεχόμενο της επιλογής του j μαύρου σφαιριδίου στην k δοκιμή. Το ενδεχόμενο Xk =1 = Ak ισοδυναμεί με το ενδεχόμενο [S1k ∪ S2k ∪ ... ∪ Smk] (μια και οποιαδήποτε επιλογή από τα m μαύρα σφαιρίδια στην k δοκιμή συνεπάγεται πραγματοποίηση του ενδεχομένου Ak). Τα ενδεχόμενα Sjk , j=1,2,...,m είναι προφανώς ξένα μεταξύ τους. Επομένως,

P(Xk =1) = P(S1k ∪ S2k ∪ ... ∪ Smk ) = P(S1k)+P(S2k)+...+P(Smk) Ομοίως,

N1

1)(kN1

2)(kN1)(kN...

1N2N

N1N)P(Sik =

−−−−−−

−−−

=

που δεν είναι τίποτε άλλο από το γινόμενο των πιθανοτήτων της μη επιλογής του συγκεκριμένου αυτού σφαιριδίου στις πρώτες k-1 δοκιμές και της πιθανότητας της επιλογής αυτού του συγκεκριμένου σφαιριδίου στην k δοκιμή. Δηλαδή, τελικά

Nm

N1m1)P(Xk ===

Page 15: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

132

Προσδιορισμός της κατανομής του X. Μια και η επιλογή των σφαιριδίων γίνεται χωρίς επανάθεση, ο συνολικός αριθμός των διαφορετικών διατεταγμένων υποσυνόλων μεγέθους n των Ν σφαιριδίων είναι ο αριθμός των διατάξεων των Ν ανά n δηλαδή N(N-1) ... (N-n+1)= N(n). Ευνοϊκές περιπτώσεις είναι τα διατεταγμένα σύνολα μεγέθους n στα οποία κανένα σφαιρίδιο δεν εμφανίζεται περισσότερο από μια φορά (δειγματοληψία χωρίς επανάθεση) και στα οποία υπάρχουν x μαύρα και n-x άσπρα σφαιρίδια. Σύνολα της μορφής αυτής μπορούν να κατασκευασθούν σε 3 βήματα. i) Επιλογή, χωρίς επανάθεση και χωρίς να ενδιαφέρει η διάταξη, των x μαύρων από τα m μαύρα σφαιρίδια (αυτό μπορεί να

γίνει με ⎟⎟⎠

⎞⎜⎜⎝

⎛xm τρόπους).

ii) Επιλογή, χωρίς επανάθεση και χωρίς να ενδιαφέρει η διάταξη, των n-x άσπρων από τα N-m άσπρα σφαιρίδια. (αυτό μπορεί

να γίνει με ⎟⎟⎠

⎞⎜⎜⎝

⎛−−

xnmN τρόπους).

iii) Συνδυασμός των παραπάνω επιλογών και επιλογή ενός από

τα n! ⎟⎟⎠

⎞⎜⎜⎝

⎛xm

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

xnmN δυνατά διατεταγμένα σύνολα με x μαύρα και n-x

άσπρα σφαιρίδια. Επομένως,

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

=⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

==

nN

xnmN

xm

NxnmN

xm

n!x)P(X

(n)

δηλαδή X ∼ h(x;N,n,m). Παρατήρηση: Το προηγούμενο μοντέλο της υπεργεωμετρικής κατανομής οδηγεί στο συμπέρασμα ότι μια τυχαία μεταβλητή που ακολουθεί την υπεργεωμετρική κατανομή μπορεί να παρασταθεί σαν άθροισμα m ισόνομων τυχαίων μεταβλητών Bernoulli κάθε μια από τις οποίες παίρνει τις τιμές 1 και 0 με πιθανότητες

Page 16: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

133

p = Nm και q =

NmN −

αντίστοιχα. Πράγματι, για i≠j ισχύει

P(Xi =1, Xj =1) = P(Xi =1 | Xj =1) P(Xj =1) = Nm

1N1m

−−

ενώ

P(Xi =1) P(Xj =1) = 2

2

Nm

Είναι χρήσιμο να παρατηρήσει κανείς την διαφορά της

υπεργεωμετρικής κατανομής από την διωνυμική κατανομή όπου, όπως είδαμε στο μοντέλο (ii) της διωνυμικής κατανομής τα Xi είναι ανεξάρτητες και ισόνομες τυχαίες μεταβλητές Bernoulli. Στην θεώρηση αυτών των δύο κατανομών ως αποτελέσματος τυχαίας δειγματοληψίας, η παρατήρηση αυτή συνεπάγεται ότι η δειγματοληψία χωρίς επανάθεση έχει σαν αποτέλεσμα οι παρατηρήσεις (τυχαίες μεταβλητές) να είναι εξαρτημένες. Το γεγονός αυτό καθιστά αδύνατη την χρησιμοποίηση της μεθόδου των γεννητριών συναρτήσεων πιθανοτήτων για τον καθορισμό της κατανομής πιθανότητας μιας υπεργεωμετρικής τυχαίας μεταβλητής ως αθροίσματος τυχαίων μεταβλητών Bernoulli. Παρατήρηση: Εκ πρώτης όψεως ίσως φαίνεται παράδοξο το γεγονός ότι στην υπεργεωμετρική κατανομή η πιθανότητα “επιτυχίας” (μαύρου σφαιριδίου) σε μια δοκιμή είναι σταθερή (ανεξάρτητη από την συγκεκριμένη δοκιμή). Αυτό οφείλεται στο γεγονός ότι αναφερόμαστε στην περιθώρια πιθανότητα “επιτυχίας” στην k δοκιμή και όχι στην δεσμευμένη πιθανότητα. Δεν μας ενδιαφέρει δηλαδή τι έγινε στις προηγούμενες k-1 δοκιμές. Αν μας ενδιέφερε η πιθανότητα “επιτυχίας” στην k δοκιμή δοθέντων των αποτελεσμάτων των προηγουμένων k-1 δοκιμών η κατάσταστη θα ήταν, όπως είναι φυσικό, διαφορετική.

Εφαρμογές της Υπεργεωμετρικής Κατανομής Στατιστικός Έλεγχος Ποιότητας (Statistical Quality Control)

Page 17: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

134

Στην βιομηχανία, όπως είναι γνωστό, ενδιαφέρει ο καθορισμός του ποσοστού των ελαττωματικών αντικειμένων που φθάνουν στην αγορά, και ο περιορισμός του σε προκαθορισμένα “ανεκτά” επίπεδα. Σε πολλές περιπτώσεις δεν είναι δυνατόν να ελεγχθεί κάθε αντικείμενο που παράγεται, είτε διότι ο έλεγχος είναι πολύ δαπανηρός, είτε διότι συνεπάγεται καταστροφή του ελεγχόμενου προϊόντος. Σε τέτοιες περιπτώσεις χρησιμοποιείται μια μέθοδος δειγματικού ελέγχου που χρησιμοποιεί την έννοια της υπεργεωμετρικής κατανομής.

Έστω ότι τα παραγόμενα αντικείμενα είναι ή ελαττωματικά ή μη ελαττωματικά και ότι φθάνουν στο τμήμα ελέγχου σε πακέτα μεγέθους Ν αντικειμένων. Από κάθε πακέτο επιλέγεται τυχαία για έλεγχο ένα δείγμα μεγέθους n. Έστω Χ ο αριθμός των ελαττωματικών αντικειμένων στο δείγμα. Εάν το Χ είναι μεγάλο, είναι πιθανόν το πακέτο να περιέχει πολλά ελαττωματικά οπότε θα πρέπει να απορριφθεί. Αντίστροφα, αν το Χ ειναι μικρό, είναι πιθανόν το πακέτο να περιέχει λίγα ελαττωματικά οπότε θα πρέπει να θεωρηθεί αποδεκτό. Αυτό οδηγεί σε ένα κανόνα “δεκτό το πακέτο αν Χ<c, απορριπτέο αν Χ≥c (ή ανάγκη για παραπέρα έλεγχο)”. Ο καθορισμός του n και του c εξαρτάται από το ανεκτό περιθώριο λαθών και το κόστος ελέγχου. Παράδειγμα: Έστω ότι τα νέα πρϊόντα μιας παραγωγής φθάνουν για έλεγχο σε πακέτα των N=50 αντικειμένων και ότι ένα τυχαίο δείγμα n=10 από αυτά περνά από έλεγχο. Το πακέτο θεωρείται αποδεκτό αν το δείγμα περιέχει το πολύ ένα ελαττωματικό αντικείμενο. Να καθορισθούν οι πιθανότητες αποδοχής του πακέτου ως συναρτήσεις του αριθμού m των ελαττωματικών αντικειμένων σ' αυτό. Λύση: Η πιθανότητα ότι ένα τυχαίο δείγμα μεγέθους 10 περιέχει ακριβώς x ελαττωματικά δίνεται από τον τύπο της υπεργεωμετρικής κατανομής

Page 18: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

135

P(X=x) = ⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

1050

x10m50

xm

, x=0,1,2,...

(μια και φυσικά πρόκειται για δειγματοληψία χωρίς επανάθεση). Η πιθανότητα αποδοχής του πακέτου είναι

P(X≤1) = P(X=0) + P(X=1) = ⎭⎬⎫

⎩⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ −⎟⎟⎠

⎞⎜⎜⎝

⎛+⎟⎟

⎞⎜⎜⎝

⎛ −1050

9m50

1m

10m50

Η πιθανότητα αποδοχής του πακέτου είναι 1 για m=0 και m=1 ενώ είναι δυνατόν να προσδιορισθεί επαγωγικά για m>1. Ο πίνακας που ακολουθεί δίνει τις πιθανότητες αποδοχής p για διαφορετικές τιμές του m.

Πίνακας Πιθανότητες αποδοχής ως συναρτήσεις του m

m 4 8 12 16 20 24 p 0.826 0.491 0.236 0.094 0.031 0.008

Σε πολλά προβλήματα, όπως αυτό του προηγούμενου

παραδείγματος, είναι αναγκαίο να υπολογισθεί η P(x) για αρκετές διαδοχικές τιμές του x. Μια απλή μέθοδος για τον υπολογισμό των πιθανοτήτων αυτών συνίσταται στον υπολογισμό της P(x) από τον τύπο για την μικρότερη από τις τιμές του x που μας ενδιαφέρει και κατόπιν στον υπολογισμό των υπολοίπων πιθανοτήτων μέσω του αναγωγικού τύπου

P(x) = r(x) P(x-1) όπου r(x) είναι ο λόγος δύο διαδοχικών όρων:

x)nmx(N1)x1)(nx(m

1)P(xP(x)r(x)

+−−+−+−

=−

=

Μέθοδος Σύλληψης και Επανασύλληψης

(Capture-recapture method) Η διαδικασία που ακολουθεί χρησιμοποιείται αρκετές φορές για

τον κατα προσέγγιση υπολογισμό (εκτίμηση) του μεγέθους ενός πληθυσμού ζώων όπως για παράδειγμα τον αριθμό Ν των ψαριών σε

Page 19: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

136

μια λίμνη. Αρχικά, ψαρεύονται μερικά ψάρια, έστω m, σημειώνονται, έτσι ώστε να είναι δυνατόν να αναγνωρισθούν στο μέλλον, και επιστρέφονται στην λίμνη. Η λίμνη τότε περιέχει m σημειωμένα ψάρια και Ν-m μη σημειωμένα. Στην συνέχεια, συγκεντρώνεται ένα δεύτερο δείγμα απο n ψάρια. Υποθέτοντας ότι το δείγμα αυτό είναι τυχαίο, έχουμε ότι η πιθανότητα να περιέχει x σημειωμένα ψάρια θα δίνεται από την υπεργεωμετρική κατανομή. Μια λογική εκτίμηση για τον συνολικό αριθμό ψαριών στην λίμνη είναι στην περίπτωση αυτή

η τιμή ⎟⎠⎞

⎜⎝⎛

xmn .

Πρόταση: Αν X ∼ h(x;N,n,m), τότε

E(X) = np, Δ(X) = np(1-p) 1NnN

−− όπου p =

Nm

Απόδειξη: Έχουμε ήδη δει ότι Χ=X1+X2+...+Xm όπου Χi, i=1,2,...,m είναι τυχαίες μεταβλητές Bernoulli. Ισχύει ότι

E(Χi) = E(Χi2 ) = p και Δ(Χi) = p(1-p)

Επομένως,

E(X) = ∑=

n

1iE(Χi) = np

Για τον υπολογισμό της Δ(X) απαιτείται προηγουμένως ο καθορισμός της Cov(Χi ,Xj) μια και οι τυχαίες μεταβλητές X1, X2, ..., Xm είναι εξαρτημένες. Επειδή

P(Xi =1, Xj =1) = 1)N(N1)m(m

−−

έχουμε

E(Xi Xj) = ∑∑ P(xi ,xj) xi xj = P(Xi =1, Xj =1) =1)N(N1)m(m

−−

Επομένως,

Cov(Xi ,Xj) = E(Xi Xj) - E(Xi) E(Xj) = 2

2

Nm

1)N(N1)m(m

−−−

Page 20: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

137

⎥⎦

⎤⎢⎣

⎡−

+−−=⎥

⎤⎢⎣

⎡−

−−

=1)N(N

mNmNNmNm

Nm

1N1m

Nm

1)(NNN)m(m

2 −−

=

1Np)p(1

−−

−=

(Το αρνητικό πρόσημο της συνδιασποράς εξηγείται από το γεγονός ότι εκλογή μαύρου σφαιριδίου στην j δοκιμή ελαττώνει την πιθανότητα επιλογής μαύρου σφαιριδίου στην i επιλογή). Τελικά ( ) ( ) ( ) ( )

1Np)(1 p

2n

2 p)-np(1

X XCov2XΔXΔXΔij

jiii

−−

⎟⎟⎠

⎞⎜⎜⎝

⎛+=

=+== ∑∑∑<

1NnNp)np(1

−−

−=

Παρατήρηση: Σύγκριση της ιδιότητας αυτής της υπεργεωμετρικής κατανομής με την αντίστοιχη ιδιότητα της διωνυμικής κατανομής οδηγεί στο συμπέρασμα ότι η διωνυμική και η υπεργεωμετρική κατανομή έχουν την ίδια μέση τιμή ενώ η διασπορά της υπεργεωμετρικής είναι μικρότερη της αντίστοιχης διασποράς της

διωνυμικής κατά ένα παράγοντα 1NnN

−− . Ο παράγοντας αυτός λέγεται

παράγοντας διόρθωσης (correction factor) ή διόρθωση πεπερασμένου πληθυσμού (finite population correction).

Επειδή 1NnN

−− →

∞→N1 είναι προφανές ότι η διασπορά της

υπεργεωμετρικής κατανομής συγκλίνει στην διασπορά της διωνυμικής κατανομής όταν το Ν αυξάνει. Αναμένεται λοιπόν να υπάρχει κάποια προσέγγιση της υπεργεωμετρικής κατανομής από την διωνυμική κατανομή στην περίπτωση αυτή. Πράγματι, ισχύει το παρακάτω θεώρημα.

Page 21: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

138

Θεώρημα: h(x;N,n,m) →

∞→Nb(x;n,p)

για σταθερά x,n και σταθερό Nm = p .

Απόδειξη:

h(x;N,n,m) = P(X=x) =⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

nN

xnmN

xm

= x)!(nx!n!

1)n1)...(Nxx)(N1)(Nx1)...(NN(N1)xnm1)...(Nmm)(N1)(Nx1)...(m(m(m

−+−−−−+−−++−−−−−+−−

Αλλά, για σταθερό x

kNkm

−− →

∞→N

mN

= p, k σταθερό, k=0,1,2,...,x-1

Επίσης,

kxNkmN

−−−− →

∞→N1-p=q, k σταθερό, k=0,1,2,...,n-x-1

Επομένως,

h(x;N,n,m) →∞→N

px qn-x ⎟⎟⎠

⎞⎜⎜⎝

⎛rn ∼ b (x;n,p)

Το προηγούμενο θεώρημα αποδεικνύει ότι, για αρκετά μεγάλο

Ν και m, η υπεργεωμετρική κατανομή μπορεί να προσεγγισθεί από την διωνυμική κατανομή. Αυτό είναι λογικό μια και στα μοντέλα δειγματοληψίας, όταν η δειγματοληψία γίνεται χωρίς επανάθεση και το Ν είναι αρκετά μεγάλο, δεν περιμένει κανείς σημαντική διαφοροποίηση αν κάθε στοιχείο που επιλέγεται επανατοποθετείται πριν την επόμενη επιλογή.

Είναι επίσης ενδιαφέρον να παρατηρηθεί ότι η σχέση της διασποράς της υπεργεωμετρικής με την διασπορά της διωνυμικής κατανομής οδηγεί στο συμπέρασμα ότι η δειγματοληψία χωρίς

Page 22: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

139

επανάθεση δίνει ακριβέστερα αποτελέσματα (μικρότερη διασπορά) από ότι η δειγματοληψία με επανάθεση. Παράδειγμα: Ο αριθμός των ενηλίκων κατοίκων μιας πόλης είναι 75.000, από τους οποίους 500 είναι οικονομολόγοι. Σε μια δειγματοληπτική έρευνα γίνεται μια τυχαία επιλογή 25 ενηλίκων χωρίς επανάθεση. Να υπολογισθεί η πιθανότητα το δείγμα αυτό να περιλαμβάνει το πολύ ένα οικονομολόγο. Λύση: Έστω Χ ο αριθμός των οικονομολόγων στο δείγμα. Τότε

X ∼ h(x;75000, 25, ,500) Επομένως,

P(X=x) = ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛−⎟⎟

⎞⎜⎜⎝

⎛25

75000x25

74500x

500 , x=0,1,2,...

Η ζητούμενη πιθανότητα είναι

P(X≤1) = P(X=0)+P(X=1) = 74500

25500

7450024

7450025

⎛⎝⎜

⎞⎠⎟ +

⎛⎝⎜

⎞⎠⎟

⎣⎢

⎦⎥

⎛⎝⎜

⎞⎠⎟

= 0.98798

Επειδή η τιμή του Ν είναι πολύ μεγάλη σε σχέση με την τιμή του n μπορούμε να χρησιμοποίησουμε και την διωνυμική προσέγγιση της υπεργεωμετρικής κατανομής.

Έτσι p = 150

175000500

==Nm

και επομένως

Page 23: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

140

P(X=x) ≈ x25x

150149

1501

x25 −

⎟⎠⎞

⎜⎝⎛

⎟⎠⎞

⎜⎝⎛⎟⎟⎠

⎞⎜⎜⎝

⎛ , x=0,1,2,....

και

P(X≤1) ≈ b ⎟⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛

1501 25; 1;b

1501 25; 0;

98796.0

150149

15025

150149 2425

=⎟⎠⎞

⎜⎝⎛⎟⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛=

Παρατηρούμε δηλαδή ότι η προσέγγιση είναι πάρα πολύ ικανοποιητική.

Η ΚΑΤΑΝΟΜΗ POISSON

Ορισμός: Έστω Χ μία διακριτή τυχαία μεταβλητή με τιμές 0,1,2,... θα λέμε ότι η τυχαία μεταβλητή Χ ακολουθεί την κατανομή Poisson με παράμετρο λ και θα γράφουμε X∼P(x;λ) αν

P(X=x) = e-λ

x!λ x

, x = 0,1,2,... , λ>0

Παρατήρηση: Η κατανομή Poisson είναι μία καλά ορισμένη κατανομή μια και P(x)≥0 και

( ) 1eex!λexP λλ

0x

0x=== −

=

−∞

=∑∑

Ιδιότητες: α) Ε(X) = λ β) Δ(X) = λ

Μοντέλα που οδηγούν στην κατανομή Poisson Η κατανομή Poisson ως νόμος των σπανίων γεγονότων

Η κατανομή Poisson είναι η πιο συχνά χρησιμοποιούμενη κατανομή για την περιγραφή του αριθμού των “γεγονότων” ή “σημείων” για κάποια περιοχή χώρου ή χρόνου όταν η κατανομή και η “εμφάνιση” τέτοιων γεγονότων γίνεται με τυχαίο τρόπο. Για

Page 24: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

141

παράδειγμα, ας πάρουμε την απλούστερη περίπτωση όπου τα “γεγονότα” κατανέμονται τυχαία στο διάστημα ( )−∞ +∞, με τρόπο ώστε: 1) Οι αριθμοί των “γεγονότων” που συμβαίνουν σε δύο ξένα μεταξύ τους διαστήματα κατανέμονται ανεξάρτητα ο ένας από τον άλλο.

2) Ο αναμενόμενος αριθμός “γεγονότων” σε ένα πεπερασμένο διάστημα I είναι πεπερασμένος και ανάλογος του μήκους του διαστήματος (έστω λI, λ>0).

3) Η πιθανότητα να συμβούν περισσότερα από ένα “γεγονότα” στο I τείνει στο 0 ταχύτερα από ότι το Iόταν I→0. (Εναλλακτικά, η συνθήκη αυτή καθορίζει ότι η πιθανότητα περισσότερων από ένα “γεγονότων” σε κάποιο διάστημα που το μήκος του τείνει στο μηδέν είναι μηδέν). Όταν οι παραπάνω συνθήκες ικανοποιούνται λέμε ότι το υπό συζήτηση φαινόμενο ακολουθεί την στοχαστική ανέλιξη Poisson με παράμετρο λ.

Έστω Χ ο αριθμός των γεγονότων στο διάστημα (0,t). Για να

βρούμε την κατανομή του Χ διαιρούμε το διάστημα (0,t) σε n υποδιαστήματα ίσου μήκους

mt .

Σύμφωνα με τα προηγούμενα, P(ένα “γεγονός” στο διάστημα

nt ) =

= λ nt P(X>1 στο διάστημα

nt ) = 0

Προφανώς ένα “γεγονός” ή συμβαίνει ή δεν συμβαίνει στο

διάστημα nt . Επομένως, η πραγματοποίηση ενός “γεγονότος” σε ένα

υποδιάστημα μπορεί να χαρακτηρισθεί σαν μία δοκιμή Bernoulli. Λόγω δε της συνθήκης (1) έχουμε μία ακολουθία x δοκιμών

Bernoulli με πιθανότητα “επιτυχίας” nλt

.

Μας ενδιαφέρει ο καθορισμός της πιθανότητας x επιτυχιών. Επομένως,

Page 25: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

142

( )xnx

nλt1

nλt

xn

xXP−

⎥⎦⎤

⎢⎣⎡ −⎥⎦

⎤⎢⎣⎡

⎥⎦

⎤⎢⎣

⎡==

Αν n → ∞ έχουμε

( ) ( ) ( ) xnx

xn

xnx

n

nλt-1

nλt-1

x!λt

n1xn...1nnlim

nλt-1

nλt

xn

lim

∞→

∞→

⎥⎦⎤

⎢⎣⎡

⎥⎦⎤

⎢⎣⎡+−−

=

⎥⎦⎤

⎢⎣⎡

⎥⎦⎤

⎢⎣⎡

⎥⎦

⎤⎢⎣

Για καθορισμένο x έχουμε ( ) ( )

1=⎥⎦

⎤⎢⎣

⎡⎥⎦⎤

⎢⎣⎡

⎥⎦⎤

⎢⎣⎡ −⎥⎦

⎤⎢⎣⎡ −=

+−−=

∞→

∞→

n1-x-1...

n21

n11 1lim

n1xn...1nnlim

n

xn

Επίσης,

λn

ne

nλ1lim −

∞→=⎥⎦

⎤⎢⎣⎡ − και 1

nλ1lim

x

n=⎥⎦

⎤⎢⎣⎡ −

∞→

Επομένως,

( ) ( ) 0,1,2,...= x, x!

λtexXPlimx

λt

n

∞→==

Αν πάρουμε t=1 (δηλαδή θεωρήσουμε ένα διάστημα μήκους 1) τότε

( ) 0,1,2,...= x, x!

λexXPx

λ−≈=

Παρατήρηση: Από την προηγούμενη συζήτηση προκύπτει ότι η παράμετρος λ της κατανομής Poisson εκφράζει τον μέσο αριθμό των “γεγονότων” στην μονάδα του χρόνου.

Το προηγούμενο μοντέλο που οδηγεί στην κατανομή Poisson δίνει την δυνατότητα διατύπωσης και του παρακάτω θεωρήματος που αναφέρεται στην χρησιμοποίηση της κατανομής Poisson ως ορίου της διωνυμικής κατανομής.

Page 26: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

143

Θεώρημα: (Η κατανομή Poisson ως προσέγγιση της διωνυμικής κατανομής). Έστω Χ ∼ b(x;n,p). Αν n →∞ και p → 0 έτσι ώστε np=λ, όπου λ σταθερά, τότε

( ) 0,1,2,...= x, x!

λexXPx

λ−≈=

Απόδειξη: Η απόδειξη προκύπτει από τα προηγούμενα. Σημείωση: Για τον υπολογισμό διαδοχικών πιθανοτήτων από την κατανομή Poisson μπορεί να χρησιμοποιηθεί ο αναγωγικός τύπος

( )( ) x

λ1xP

xP=

Παραδείγματα: Η κατανομή Poisson έχει πάρα πολλές εφαρμογές. Ενδεικτικά αναφέρονται τομείς όπου η κατανομή έχει εφαρμοσθεί με επιτυχία. 1) Αριθμός ατυχημάτων σε ένα ορισμένο χρονικό διάστημα σε μία συγκεκριμένη περιοχή.

2) Αριθμός αιτήσεων αποζημίωσης σε ασφαλιστική εταιρία σε κάποιο χρονικό διάστημα.

3) Αριθμός μειοδοτών σε κάποιο μειοδοτικό διαγωνισμό. 4) Αριθμός τηλεφωνημάτων που φθάνουν σε ένα τηλεφωνικό κέντρο σε μία ορισμένη χρονική περίοδο της ημέρας.

5) Αριθμός διασπάσεων χρωμοσωμάτων στα κύτταρα που δημιουργούν οι ακτίνες Χ.

6) Αριθμός των τυπογραφικών λαθών σε μία σελίδα βιβλίου. Η κατανομή Poisson δεν αναφέρεται μόνο σε αριθμό “γεγονότων” στον χρόνο. Μία άλλη εφαρμογή της είναι στην κατανομή αντικειμένων στο χώρο. Έστω, για παράδειγμα, ότι οι οργανισμοί κατανέμονται τυχαία μέσα σε ένα υγρό όγκο V, έτσι ώστε η πιθανότητα κάποιος οργανισμός να βρίσκεται σε μία συγκεκριμένη σταγόνα όγκου D είναι D/V. Η παρουσία των n οργανισμών μέσα ή έξω από την σταγόνα μπορεί να θεωρηθεί σαν

Page 27: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

144

μία ακολουθία n ανεξάρτητων δοκιμών με σταθερή πιθανότητα “επιτυχίας” D/V σε κάθε δοκιμή. Στην πράξη το n είναι συνήθως πολύ μεγάλο ενώ το D/V είναι πολύ μικρό. Επομένως, η κατανομή του αριθμού Χ των οργανισμών σε μία σταγόνα όγκου D μπορεί να προσεγγισθεί με την κατανομή Poisson με μέση τιμή λD όπου

Vnλ =

είναι ο μέσος αριθμός οργανισμών ανά μονάδα όγκου του διαλύματος

x!(λD)eP(x)

xλD−= , x = 0,1,2,…

Παράδειγμα: Τα ελαττώματα κατασκευής σε μεγάλα φύλλα ενός μετάλλου εμφανίζονται τυχαία και με συχνότητα, κατά μέσο όρο, 2.56 ανά 100 τετραγωνικά μέτρα. (α) Να υπολογισθεί η πιθανότητα ανά φύλλο διαστάσεων 4μ x 8μ να μην υπάρχουν καθόλου ελαττώματα. (β) Πόσα φύλλα της μορφής αυτής από μία παρτίδα των 100 αναμένεται να έχουν δύο ή περισσότερα ελαττώματα; Λύση: Έστω Χ ο αριθμός των ελαττωμάτων ανά φύλλο διαστάσεων 4μ x 8μ. Μπορεί να θεωρηθεί ότι το Χ ακολουθεί την κατανομή Poisson με παράμετρο λ = 2.56 × 0.32 = 0.819. Επομένως, α) P(X=0) = e-0.819 = 0.4408 β) P(X≥2) = 1-P(X=0) - P(X=1) = 1- e-0.819- 0.819 e-0.819. Επομένως ο αναμενόμενος αριθμός είναι 19.82.

Η ΓΕΩΜΕΤΡΙΚΗ ΚΑΤΑΝΟΜΗ Στον ορισμό της διωνυμικής κατανομής είδαμε ότι η κατανομή αυτή μπορεί να προέλθει από μια ακολουθία δοκιμών Bernoulli όπου ο αριθμός των δοκιμών n είναι σταθερός και μας ενδιαφέρει ο αριθμός Χ των επιτυχιών στις n αυτές δοκιμές. Θα ασχοληθούμε τώρα με μια διαφορετική θεώρηση ακολουθίας δοκιμών Bernoulli. Στην θεώρηση αυτή ο αριθμός των δοκιμών Bernoulli δεν είναι προκαθορισμένος. Αυτό γιατί μας ενδιαφέρει να μελετήσουμε όχι τον αριθμό των επιτυχιών, αλλά τον αριθμό των αποτυχιών Χ που θα συναντήσουμε μέχρις ότου

Page 28: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

145

φθάσουμε στην k επιτυχία. Η θεώρηση αυτή οδηγεί στην γεωμετρική κατανομή και στην γενίκευσή της, την αρνητική διωνυμική κατανομή. Ορισμός: Έστω Χ μια διακριτή τυχαία μεταβλητή. Θα λέμε ότι η Χ ακολουθεί την γεωμετρική κατανομή (geometric distribution) με παράμετρο p και θα συμβολίζουμε με Χ~G(x;p) αν

P(X=x)=pqx, x=0,1,2,…, 0<p<1, q=1-p Παρατήρηση: Η γεωμετρική κατανομή είναι μια καλά ορισμένη κατανομή γιατί

P(x)≥0 και 1qpP(x)x

x

x== ∑∑

Πρόταση: pqE(X) = 2p

q(X) =Δ .

Απόδειξη: Η απόδειξη είναι εύκολη αν κανείς κάνει χρήση του ορισμού της Ε(Χ) και στην συνέχεια της Ε(Χ2) και του γεγονότος ότι Δ(Χ)=Ε(Χ2)-Ε(Χ)2. Παρατήρηση: Ο όρος γεωμετρική κατανομή προέρχεται από το γεγονός ότι οι πιθανότητές της αποτελούν τους όρους μιας γεωμετρικής σειράς με λόγο q=1-p.

Μοντέλα που οδηγούν στην γεωμετρική κατανομή i) Θεωρούμε μία ακολουθία δοκιμών Benoulli. Έστω Χ ο αριθμός των αποτυχιών πριν εμφανισθεί η πρώτη επιτυχία. Τότε P(X=x) = p (1-p)x, x = 0,1,2,… Απόδειξη: Προφανής αφού μιλάμε για ακολουθία δοκιμών Bernoulli. ii) Μία εναλλακτική παρουσίαση στην βιβλιογραφία της γεωμετρικής κατανομής είναι ως κατανομή του αριθμού Υ των δοκιμών που απαιτούνται για να επιτευχθεί η πρώτη επιτυχία σε μία ακολουθία δοκιμών Bernoulli. Στην περίπτωση αυτή

P(Y=y) = p (1-p)y-1 , y = 1,2,… Η ισοδυναμία των μοντέλων (i) και (ii) είναι προφανής μια και Y=X+1.

Page 29: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

146

iii) Δειγματοληψία από υδρία: Σε μία υδρία υπάρχουν άσπρα και μαύρα σφαιρίδια σε αναλογία p μαύρα και 1-p άσπρα. Επιλέγουμε στην τύχη σφαιρίδια από την υδρία με επανάθεση. (Σε κάθε επιλογή σημειώνουμε το χρώμα του σφαιριδίου και το επανατοποθετούμε στην υδρία πριν από την επόμενη επιλογή). Ο αριθμός των άσπρων σφαιριδίων που θα επιλεγούν πριν επιλεγεί το πρώτο μαύρο σφαιρίδιο ακολουθεί την γεωμετρική κατανομή με παράμετρο p.

Για την γεωμετρική κατανομή έχουμε, για κάθε θετικό ακέραιο α

∑∑∑∞

=

=

=

−=−

−=−===<αx

αα

x1α

0x

x1α

0xq1

q1pq1pq1pqP(x)α)P(X

Επίσης, P(X ≥ α ) = 1 - P(X < α) = qα

Παράδειγμα. (Ρωσική ρουλέτα): Έστω ότι έχουμε ένα εξάσφαιρο περίστροφο το οποίο έχει μόνο μία σφαίρα.

i) Να βρεθεί η πιθανότητα να εκπυρσοκροτήσει το περίστροφο με την πρώτη δοκιμή.

ii) Να βρεθεί η πιθανότητα να εκπυρσοκροτήσει το περίστροφο πριν την τέταρτη δοκιμή.

iii) Να βρεθεί οαριθμός των δοκιμών που απαιτούνται για να εκπυρσοκροτήσει το περίστροφο. Λύση: Έστω Χ ο αριθμός των δοκιμών (αποτυχίων) πριν εκπυρσοκροτήσει (επιτυχία) το περίστροφο. Είναι

i) .61p)p(10)P(X 0 =−==

ii) .651p13)P(X

33

⎥⎦⎤

⎢⎣⎡−=−=<

iii) .6161651

pq1E(X)1)E(X =+=+=+=+

Άλλα παραδείγματα

Page 30: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

147

1) Ιατρική. Μία τράπεζα αίματος χρειάζεται αίμα ομάδας Β ρέζους αρνητικού και συνεχίζει να αγοράζει αίμα από ιδιώτες μέχρις ότου εμφανισθεί κάποιος με αυτή την ομάδα αίματος. Αν οι αγορές αίματος γίνονται ανεξάρτητα η μία από την άλλη, ο αριθμός Χ των αγορών που θα γίνουν πριν εμφανισθεί κάποιος με την συγκεκριμένη ομάδα αίματος ακολουθεί την γεωμετρική κατανομή. 2) Τυχερά παιχνίδια. Ενας παίκτης ρουλέτας στοιχηματίζει το ίδιο ποσόν α στον ίδιο αριθμό μέχρις ότου κερδίσει για πρώτη φορά. Αν οι στροφές της ρουλέτας γίνονται ανεξάρτητα η μία από την άλλη, ο αριθμός Χ των φορών που ο παίκτης θα χάσει πριν κερδίσει για πρώτη φορά ακολουθεί την γεωμετρική κατανομή. Σημείωση: Στο κεφάλαιο 4 δόθηκε ο ορισμός της μέσης τιμής. Στον ορισμό αυτό τονίστηκε ότι ο ορισμός έχει έννοια εφόσον η σειρά που ορίζει την μέση τιμή συγκλίνει. Η γεωμετρική κατανομή μας δίνει την δυνατότητα παρουσίασης του εξής παραδείγματος όπου η μέση τιμή δεν υπάρχει. Παράδειγμα: Έστω ότι σε ένα τυχερό παιχνίδι ο παίκτης έχει

πιθανότητα 21p = να κερδίσει μία παρτίδα του παιχνιδιού. Έστω ότι ο

παίκτης ακολουθεί ένα “σύστημα” σύμφωνα με το οποίο διπλασιάζει το ποσόν το οποίον στοιχηματίζει μέχρις ότου κερδίσει για πρώτη φορά, ενώ ξεκινά με στοίχημα μιας δραχμής. (Έτσι αν χάσει την πρώτη φορά, την δεύτερη στοιχηματίζει δύο δραχμές, την τρίτη 4 δραχμές κ.ο.κ.). Το σύστημα αυτό δίνει μια σίγουρη μέθοδο για να πάρει ο παίκτης πίσω ότι έχει χάσει και επιπλέον να κερδισει μία δραχμή. Να βρεθεί το ποσόν που ο παίκτης πρέπει να έχει διαθέσιμο ώστε μα είναι σε θέση να διατηρήσει το σύστημα με το οποίο στοιχηματίζει. Λύση: Η πιθανότητα να κερδίσει για πρώτη φορά ο παίκτης στην k δοκιμή είναι

,211)kP(X

k

⎟⎠⎞

⎜⎝⎛=−= k =1,2,…

Page 31: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

148

Έστω Ζ το ποσόν που ο παίκτης χρειάζεται για να είναι σε θέση να συνεχίσει το παιχνίδι μέχρις ότου κερδίσει για πρώτη φορά. Το ποσόν που χρειάζεται για να είναι σε θέση να παίξει μέχρι και την k παρτίδα είναι 1+2+4+…+2k-1 = 2k -1. Επομένως, η Ζ είναι μια τυχαία μεταβλητή που παίρνει τις τιμές 2k -1, k = 1,2,… . Η πιθανότητα να χρειασθεί ο παίκτης 2k -1 δραχμές για να κερδίσει για πρώτη φορά είναι η ίδια με την πιθανότητα να κερδίσει για πρώτη φορά στην k δοκιμή. Δηλαδή,

,k

k

211)kP(X1)2P(Z ⎟⎠⎞

⎜⎝⎛=−==−= k =1,2,…

Επομένως, το ποσόν που πρέπει, κατά μέσο όρο, να έχει ο παίκτης στην διάθεση του για να είναι σε θέση να συνεχίσει να παίζει μέχρις ότου κερδίσει είναι

∞=++++=−= ∑∞

=

...1615

87

43

21

211)(2E(Z)

1kk

k

Δηλαδή, κατά μέσο όρο, δεν υπάρχει πεπερασμένο ποσό χρημάτων αρκετό να υποστηρίξει το σύστημα αυτού του παιχνιδιού.

Η ΑΡΝΗΤΙΚΗ ΔΙΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ Έστω Χ μια διακριτή τυχαία μεταβλητή. Θα λέμε ότι η Χ ακολουθεί την αρνητική διωνυμική κατανομή (η αλλιώς την κατανομή Pascal) με παραμέτρους p και r και θα συμβολίζουμε με

p),r,NB(x;X ∼ αν xrxr qp

1r1rx

qpx

1rxx)P(X ⎟⎟

⎞⎜⎜⎝

⎛−−+

=⎟⎟⎠

⎞⎜⎜⎝

⎛ −+== x = 0, 1,2,…

r =1, 2,… 0<p<1, q=1-p

Παρατήρηση: Ο ορισμός αυτός είναι ο κλασσικός ορισμός της αρνητικής διωνυμικής κατανομής. Είναι όμως δυνατόν να επεκταθεί έτσι ώστε να περιλαμβάνει και μη ακέραιες τιμές της παραμέτρου r. Αυτό γίνεται με την χρήση του γενικευμένου ορισμού του διωνυμικού συντελεστή σύμφωνα με τον οποίο για κάθε πραγματικό αριθμό α και για κάθε μη αρνητικό ακέραιο x

Page 32: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

149

x!1)x1)...(αα(α

x!α

xα (x) +−−

==⎟⎟⎠

⎞⎜⎜⎝

Είναι εύκολο να διαπιστωθεί ότι η αρνητική διωνυμική κατανομή είναι μία καλά ορισμένη κατανομή. Αυτό γιατί P(x) ≥ 0, x = 0,1,2,… και

1q)(1pqx

1rxpqp

x1rx

P(x) rr

0x

x

0x

rxr

0x=−=⎟⎟

⎞⎜⎜⎝

⎛ −+=⎟⎟

⎞⎜⎜⎝

⎛ −+= −

=

=

=∑∑∑

Ο παραπάνω τύπος είναι αποτέλεσμα της γενίκευσης του διωνυμικού θεωρήματος όπου για 0 < q <1

( ) ∑∑∞

=

=

−⎟⎟⎠

⎞⎜⎜⎝

⎛ −+=−⎟⎟

⎞⎜⎜⎝

⎛=−

0x

x

0x

xr qx

1rxq

xr-

q)(1

μια και από την την γενίκευση του διωνυμικού συντελεστή έχουμε για κάθε πραγματικό r

x!1)x1)...(rr(r1)(

x!1)xr1)...(rr)((

xr x −++−

=−−−−−−

=⎟⎟⎠

⎞⎜⎜⎝

⎛−

1)!-(rx!1)!x(r1)(

1)!-(rx!1)x1)...(rr(r1)!-(r1)( xx −+−

=−++−

=

⎟⎟⎠

⎞⎜⎜⎝

⎛ −+−=

x1xr

1)( x

Page 33: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

150

Μοντέλα που οδηγούν στην αρνητική διωνυμική κατανομή i) Έστω Χ ο αριθμός των αποτυχιών μέχρις ότου εμφανισθούν r επιτυχίες σε μια ακολουθία δοκιμών Bernoulli. Τότε το Χ ακολουθεί την αρνητική διωνυμική κατανομή με παραμέτρους r και p. Απόδειξη: Το ενδεχόμενο Χ=x είναι ισοδύναμο με το ενδεχόμενο σε x+r δοκιμές r επιτυχίες με τρόπο ώστε η τελευταία επιτυχία να πραγματοποιηθεί στην x+r δοκιμή. Το ενδεχόμενο αυτό είναι ισοδύναμο με το ενδεχόμενο r+1 επιτυχίες και x αποτυχίες με οποιαδήποτε σειρά στις πρώτες x+r-1 δοκιμές και επιτυχία στην x+r δοκιμή. Επειδή οι δοκιμές είναι ανεξάρτητες

xrx1r qp1r

1rxpqp

1r1rx

x)P(X ⎟⎟⎠

⎞⎜⎜⎝

⎛−−+

=⎟⎟⎠

⎞⎜⎜⎝

⎛−−+

== −

Σημείωση: Από τον τύπο της αρνητικής διωνυμικής κατανομής, αλλά και από το προηγούμενο μοντέλο προκύπτει ότι για r=1 η αρνητική διωνυμική είναι η γεωμετρική κατανομή. ii) Δειγματοληψία από υδρία: Σε μία υδρία υπάρχουν άσπρα και μαύρα σφαρίδια σε αναλογία (ποσοστό) p μαύρα και 1-p=q άσπρα. Ο αριθμός των άσπρων ασφαιριδίων που θα επιλεγούν μέχρις ότου επιλεγούν μαύρα σφαρίδια ακολουθεί την αρνητική διωνυμική κατανομή με παραμέτρους p και r. Το μοντέλο αυτό δικαιολογεί και την ονομασία της κατανομής ως αρνητική διωνυμική. Αυτό γιατί όπως η διωνυμική έτσι και η αρνητική διωνυμική κατανομή προκύπτει από δειγματοληψία με επανάθεση (ακολουθία δοκιμών Bernoulli). Στην διωνυμική όμως ο αριθμός n των δοκιμών είναι καθορισμένος ενώ ο αριθμός r των επιτυχιών είναι τυχαία μεταβλητή, ενώ αντίθετα στην αρνητική διωνυμική ο αριθμός r των επιτυχιών είναι καθορισμένος ενώ ο αριθμός των αποτυχιών (ισοδύναμα των δοκιμών) είναι τυχαία μεταβλητή.

Μια ισοδύναμη παρουσίαση της αρνητική διωνυμικής μπορεί να γίνει μέσω του αριθμού των δοκιμών που απαιτούνται σε μια ακολουθία Bernoulli για να παρατηρηθούν r επιτυχίες. Έστω Υ ο αριθμός αυτός. Τότε

Page 34: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

151

ryrqp1r1y

y)P(Y −⎟⎟⎠

⎞⎜⎜⎝

⎛−−

== , y=r, r+1, …

r=1,2,… 0<p<1, q=1-p Προφανώς Υ=Χ+r. iii) Η αρνητική διωνυμική ως άθροισμα γεωμετρικών τυχαίων μεταβλητών. Έστω, Χ1, Χ2, …, Χr μια ακολουθία ανεξάρτητων και ισόνομων τυχαίων μεταβλητών που ακολουθούν την γεωμετρική κατανομή με παράμετρο p. Θεωρούμε την τυχαία μεταβλητή

Χ= Χ1+Χ2+…+ Χr. Η τυχαία μεταβλητή Χ ακολουθεί την αρνητική διωνυμική κατανομή με παραμέτρους r και p. Απόδειξη: Η απόδειξη μπορεί να στηριχθεί στον συλλογισμό ότι ο αριθμός των αποτυχιών Χ1 μέχρι την πρώτη αποτυχία ακολουθεί την γεωμετρική κατανομή. Το ίδιο συμβαίνει και με τον αριθμό των αποτυχιών Χ2 που μεσολαβούν από την πρώτη μέχρι την δεύτερη επιτυχία και γενικά τον αριθμό των αποτυχιών Χi που μεσολαβούν από την i-1 έως την i επιτυχία (i=1,2,…,r). Επομένως, Χ1+Χ2+…+ Χr είναι ο συνολικός αριθμός των αποτυχιών μέχρις ότου εμφανισθεί η r επιτυχία. Πρόταση: Αν η τυχαία μεταβλητή Χ ακολουθεί την αρνητική διωνυμική κατανομή, τότε

prqE(X) = 2p

rq(X) =Δ

Απόδειξη: Η απόδειξη είναι εύκολη αν κάνει κανείς χρήση της έκφρασης της Χ ως Χ1+Χ2+…+ Χr, όπου Χi, i=1,2,…,r ανεξάρτητες και ισόνομες γεωμετρικές τυχαίες μεταβλητές. Παράδειγμα: Μια γραμματέας κάνει, κατά μέσο όρο, δύο τυπογραφικά λάθη ανά σελίδα. Σελίδες με περισσότερα από δύο τυπογραφικά λάθη πρέπει να ξαναγραφούν. Πόσες σελίδες συνολικά αναμένεται να δακτυλογραφήσει ώστε ένα κείμενο 100 σελίδων, να είναι αποδεκτό;

Page 35: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

152

Λύση: Έστω Ζ ο αριθμός των σελίδων, Χ ο αριθμός των αποτυχιών πριν την 100στη αποδεκτή σελίδα και Υ ο αριθμός των λαθών ανά σελίδα. Είναι λογικό από τις συνθήκες του προβλήματος να υποθέσει κανείς ότι το Χ ακολουθεί την κατανομή Poisson με λ=2 και το Υ την αρνητική διωνυμική κατανομή με r=100. Έτσι

p = P(Y≤2) = P(Y=0) + P(Y=1) + P(Y=2)

22

222 5e2!2e2ee −−−− =++=

Άρα ο αριθμός των σελίδων που αναμένεται να δακτυλογραφηθούν είναι

Ε(Ζ) = Ε(Χ+100) = Ε(Χ)+100 = 2

2

5e)5e100(1

−−= 47.8+100 = 147.8.

Η ΠΟΛΥΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ

Ορισμός: Έστω Χ1, Χ2, …, Χk μια ακολουθία διακριτών τυχαίων μεταβλητών. Θα λέμε ότι το διάνυσμα ~

X = (Χ1, Χ2, …, Χk) ακολουθεί την πολυωνυμική κατανομή με παραμέτρους p1, p2, …, pk και n, αν

P(X1=x1, X2=x2, …, Xk=xk) = k21 xk

x2

x1

k21

...ppp!!...xx!x

n!

με nxk

1ii =∑

=, 0<pi<1, i=1,2,…k, 1p

k

1ii =∑

=, x=0,1,2,…

Παρατήρηση: Η πολυωνυμική κατανομή είναι μια καλά ορισμένη κατανομή μια και P( ~

X = ~x )>0 και

nx

)xX,...,xX,xP(X...

i

kk2211xxx k21

=

===

∑∑∑

nx

...pppx,...,x,x

n...

i

xk

x2

x1

k21xxx

k21

k21

=

⎟⎟⎠

⎞⎜⎜⎝

⎛=

∑∑∑

=( p1+p2+…+pk)n = 1.

Page 36: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

153

Μοντέλα που οδηγούν στην πολυωνυμική κατανομή

Η πολυωνυμική κατανομή είναι φυσιολογική επέκταση της διωνυμικής κατανομής. Έτσι όλα τα μοντέλα της διωνυμικής μπορούν να επεκταθούν και να δώσουν την πολυωνυμική κατανομή. Για παράδειγμα, έστω ότι έχουμε μια ακολουθία ανεξάρτητων δοκιμών, κάθε μια από τις οποίες μπορεί να καταλήξει σε ένα από k δυνατά ενδεχόμενα Α1,Α2, …, Αk αμοιβαία ξένα μεταξύ τους όπου Α1, Α2, …, Αk μια διαμέριση του δειγματικού χώρου. Έστω pi=P(Ai), i=1,2,…k η πιθανότητα του ενδεχομένου Αi και έστω ότι το pi παραμένει σταθερό

από δοκιμή σε δοκιμή και 1pn

1ii =∑

=. Αν Χi είναι ο αριθμός

εμφανίσεων του ενδεχομένου Αi σε n δοκιμές, η από κοινού συνάρτηση κατανομής των Χ1, Χ2, …, Χk είναι η πολυωνυμική με παραμέτρους p1, p2, …, pk και n. Στα πλαίσια μοντέλων δειγματοληψίας, η πολυωνυμική κατανομή προκύπτει από δειγματοληψία με επανάθεση από υδρία που περιέχει σφαιρίδια k χρωμάτων σε αναλογία p1, p2, …, pk. Περιθώριες κατανομές: Αν στην πολυωνυμική κατανομή ενδιαφερόμαστε μόνο για την πραγματοποίηση ή όχι του ενδεχομένου Αi, μπορούμε να θέσουμε pi=P(Ai) και qi=1-pi=1-∑

≠1jj )P(A . Στην

περίπτωση αυτή έχουμε ακολουθία δοκιμών Bernoulli οπότε η πιθανότητα xi επιτυχιών δίνεται από τον τύπο

ii xni

xi

iii )p(1p

xn

)xP(X −−⎟⎟⎠

⎞⎜⎜⎝

⎛==

, i=1,2,…,k, x=0,1,2,…,n

Επομένως, η περιθώρια κατανομή μιας μόνο μεταβλητής Χi είναι διωνυμική με παραμέτρους n και pi. Στο αποτέλεσμα αυτό μπορούμε να φθάσουμε και με αλγεβρικές μεθόδους αθροίζοντας την από κοινού συνάρτηση πιθανότητας ως προς όλες τις άλλες μεταβλητές εκτός της Χi.

Page 37: Μ ΕΙΔΙΚΕΣ Δ ΚΑΤΑΝΟΜΕΣ - stat-athens.aueb.grjpan/statistiki-skepsi-II/chapter7.pdf · λέμε ότι η X ακολουθεί την κατανομή Bernoulli. ...

154

Παράδειγμα. (Νόμος των Hardy-Weinberg): Στον νόμο των Hardy- Weinberg (παράδειγμα κεφ. 4) είχαμε υπολογίσει ότι οι πιθανότητες (ποσοστά) με τις οποίες τα τρία είδη γονοτύπων ΑΑ, Αα και αα συναντώνται σε ένα πληθυσμό είναι

P(AA)=p2, P(Αα)=2p(1-p) και P(αα)=(1-p)2 όπου p είναι η πιθανότητα μεταφοράς του γονιδίου Α στον απόγονο. Έστω ότι επιλέγουμε τυχαία οκτώ άτομα από ένα πληθυσμό θέλοντας να καθορίσουμε τα γονότυπά τους. Να υπολογισθούν, συναρτήσει του p, οι πιθανότητες ότι (α) Δεν υπάρχουν γονότυπα της μορφής ΑΑ στο δείγμα. (β) Υπάρχουν δύο ΑΑ, τέσσερα Αα και δύο αα. (γ) Ποιά είναι η τιμή του p που δίνει την μέγιστη τιμή στην πιθανότητα του ερωτήματος (β); Λύση: Έστω Χ1 ο αριθμός των ΑΑ, Χ2 των Αα και Χ3 των αα στο δείγμα. Τότε το τυχαίο διάνυσμα (Χ1, Χ2, Χ3) ακολουθεί την πολυωνυμική κατανομή.

(α) P(μηδέν ΑΑ στο δείγμα)=P(X1=0)= 828202 )p(1)p(1)(p08

−=−⎟⎟⎠

⎞⎜⎜⎝

(β) P(X1=2, X2=4, X3=2)= 22422 )p)((1p))(2p(1)(p2!4!2!

8!−−

= 6720p8(1-p)8

(γ) 21p0

p2)X4,X2,P(X 321 =⇔=

∂===∂

.