Θέματα Στατιστικής στη γλώσσα Rvpiperig/MCDA-YDA/Lab_8.pdfΒ.Ε.Π....

33
Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 1 Θέματα Στατιστικής στη γλώσσα R Μη παραμετρικοί έλεγχοι στοιχεία της θεωρίας που χρειάζονται προσοχή προϋποθέσεις για το μέγεθος του δείγματος προϋποθέσεις για το σχήμα της κατανομής των δεδομένων παραμετρικοί έλεγχοι που είναι «κρυμμένοι» συνήθως μετασχηματίζονται σε ελέγχους για κάποιο ποσοστό ANOVA βασικές γραφικές παραστάσεις εκτιμήσεις

Transcript of Θέματα Στατιστικής στη γλώσσα Rvpiperig/MCDA-YDA/Lab_8.pdfΒ.Ε.Π....

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 1

Θέματα Στατιστικής στη γλώσσα R Μη παραμετρικοί έλεγχοι στοιχεία της θεωρίας που χρειάζονται προσοχή προϋποθέσεις για το μέγεθος του δείγματος προϋποθέσεις για το σχήμα της κατανομής των δεδομένων

παραμετρικοί έλεγχοι που είναι «κρυμμένοι» συνήθως μετασχηματίζονται σε ελέγχους για κάποιο

ποσοστό

ANOVA βασικές γραφικές παραστάσεις εκτιμήσεις

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 2

Pearson’s Χ2 έλεγχος και το Fisher (tea) test

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 3

Pearson’s Χ2 έλεγχος και το Fisher (tea) test

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 4

Pearson’s Χ2 έλεγχος και το Fisher (tea) test

Η ακριβής πιθανότητα εμφάνισης του συγκεκριμένου 2x2 πίνακα, δεδομένου ότι τα περιθώρια αθροίσματα n1, n2, s1, s2 παραμένουν σταθερά, δίνεται από την υπεργεωμετρική κατανομή :

!!!!!!!!! 2121

1

21

dcbaNssnn

nN

bs

as

P =

={ }{ }11

11

,min,0max

snnNsnn

U

L

=−+=

nL ≤α≤nU

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 5

Pearson’s Χ2 έλεγχος και το Fisher (tea) test

Ο έλεγχος υπολογίζει την πιθανότητα πιο ακραίων περιπτώσεων με τα ίδια περιθώρια αθροίσματα. Ο αριθμός των ακραίων πιθανών πινάκων με σταθερά τα περιθώρια αθροίσματα είναι ίσος με την μικρότερη παρατήρηση + 1. Έτσι :

Εάν, η διαφορά αd – bc είναι αρνητική, τότε οι ακραίες περιπτώσεις λαμβάνονται αν σταδιακά μειώσουμε τα κελιά των α, d και αυξήσουμε τα κελιά των b, c με την ίδια ποσότητα (συνήθως μονάδα).

Εάν, η διαφορά αd – bc είναι θετική, τότε οι ακραίες περιπτώσεις λαμβάνονται αν σταδιακά αυξάνουμε τα κελιά των α, d και μειώνουμε τα κελιά των b, c.

Τραυματισμένοι και μη στρατιώτες κατά την διάρκεια άσκησης σε δυο περιοχές.

Τραυμ/νοι Μη τραυμ/νοι Σύνολο

Περιοχή Β 2 38 40 Περιοχή Α 4 11 15 Σύνολο 6 49 55

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 6

Pearson’s Χ2 έλεγχος και το Fisher (tea) test

384112 ⋅−⋅=⋅−⋅ bcda 0130 <−=Όποτε μειώνουμε τα κελιά α, d σταδιακά και έχουμε :

0 40 40 6 9 15 6 49 55

1 39 40 5 10 15 6 49 55

0357269.0!11!4!38!2!55

!49!6!15!402 ==p

0051794.0!10!5!39!1!55!49!6!15!40

1 ==p 0001726.0!9!6!40!0!55!49!6!15!40

0 ==p

041.00357269.00051794.00001726.0

210

==++=

=++=− pppvaluep

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 7

Pearson’s Χ2 έλεγχος και το Fisher (tea) test

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 8

Pearson’s Χ2 έλεγχος και το Fisher (tea) test

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 9

Pearson’s Χ2 έλεγχος και το Fisher (tea) test

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 10

Pearson’s Χ2 έλεγχος –πολλαπλοί 2x2 πίνακες

Ο Mantel-Haenszel είναι ένας Χ2 έλεγχος ανεξαρτησίας, εφαρμόζεται όταν έχουμε τρεις παράγοντες.

O τρίτος παράγοντας έχει k στάθμες, κάθε μια αποτελείται από έναν 2×2 πίνακα.

Successes Failures Totals Sample 1 O11i O12i n1.i

Sample 2 O21i O22i n2.i Totals n.1i n.2i n..i

Οι γραμμές του 2×2 πίνακα προέρχονται από δυο ανεξάρτητες διωνυμικές κατανομές με πιθανότητες επιτυχίας (p1

(i),p2(i)) , i=1,…,k.

Κάνουμε τον έλεγχο ότι σε κάθε στάθμη i οι πιθανότητες επιτυχίας είναι ίσες.

Η0 : p1(1)=p2

(1),p1(2)=p2

(2),…,p1(k)=p2

(k) ( ) ( )1 2

i ip p≥ Η1 : ( ) ( )1 2

i ip p≤ ή για i=1,...,k

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 11

( )1

( )1

( )2

( )2

1

1

i

i

i i

i

pp

pp

θ −=

Τότε η μηδενική υπόθεση γίνεται: Η0 : θ1=θ2=...=θκ=1

11 0 111

0 111

{ ( )}

var ( )

k

i ii

k

ii

O E OMH

O

=

=

−=∑

∑( ) ( )1 2

i ip p≥( ) ( )1 2

i ip p≤Για Η1:

aMH z≥aMH z≤ −

2 2,1( ) aMH χ≥

απορρίπτουμε Για Η1: απορρίπτουμε

Για Η1: ( ) ( )1 2

i ip p≥ ( ) ( )1 2

i ip p≤ή

1. .10 11

..

( )( )( ) i ii

i

n nE On

=1. 2. .1 .2

0 11 2.. ..

( )( )( )( )var ( )( 1)

i i i ii

i i

n n n nOn n

=−

2.1.

.111

..

.1

( )

ii

ii

i

i

nnn xx

P O xnn

− = =

Pearson’s Χ2 έλεγχος –πολλαπλοί 2x2 πίνακες

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 12

4 9 13

12 34 46

59 43 59

4 6 10

34 33 67

38 39 77

7 2 9

6 7 13

13 9 22

5 5 10

59 56 115

64 61 125

Hospital 2 Hospital 1

15 15 30

43 129 172

58 144 202

Hospital 19

Hospital 3

Hospital 6 Hospital 5

Hospital 4

… 5 6 11

41 80 121

46 86 132

7 7 14

22 69 91

29 76 105

Λευκοί και μαύροι ασθενείς που υποβάλλονται ή όχι σε εξετάσεις για το συκώτι σε διαφορετικά νοσοκομεία (τρία χαρακτηριστικά)

Pearson’s Χ2 έλεγχος –πολλαπλοί 2x2 πίνακες

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 13

Pearson’s Χ2 έλεγχος –πολλαπλοί 2x2 πίνακες

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 14

Pearson’s Χ2 έλεγχος –πολλαπλοί 2x2 πίνακες

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 15

1ο Κόμμα 2ο Κόμμα Σύνολο

Άνδρες 2 5 7

Γυναίκες 1 6 7

Σύνολο 3 11 14

4 11 15

1 7 8

5 18 23

3 11 14

2 9 11

5 20 25

1ο Εκλογικό Κέντρο

2ο Εκλογικό Κέντρο 3ο Εκλογικό Κέντρο

Pearson’s Χ2 έλεγχος –πολλαπλοί 2x2 πίνακες Δημοσκόπηση πραγματοποιήθηκε σε 3 εκλογικά κέντρα. Ρωτήθηκαν συνολικά 62 άνδρες και γυναίκες για την προτίμησή τους μεταξύ δύο κομμάτων

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 16

Έλεγχος McNemar

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 17

Έλεγχος McNemar Experimental units are

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 18

Έλεγχος McNemar

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 19

Έλεγχος McNemar

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 20

Υπάρχει “ακριβής” έλεγχος (exact McNemar test) ώστε να αποφασίσουμε στηριζόμενοι σε αυτόν;

Έλεγχος McNemar

https://cran.r-project.org/web/packages/exact2x2/exact2x2.pdf

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 21

Έλεγχος McNemar

το p-value δεν επηρεάζεται από το μέγεθος του δείγματος !!!

ποιος είναι ο ΑΕΛΠ για αυτήν την περίπτωση; εξαρτάται από το μέγεθος του δείγματος;

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 22

Έλεγχος McNemar

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 23

Έλεγχος McNemar

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 24

Έλεγχος McNemar

;

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 25

Έλεγχος McNemar

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 26

Έλεγχος McNemar

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 27

Έλεγχος McNemar

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 28

ANOVA

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 29

ANOVA γραφικές παραστάσεις

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 30

ANOVA γραφικές παραστάσεις

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 31

ANOVA ανάλυση

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 32

ANOVA ανάλυση

Β.Ε.Π. UPatras Στατιστικές Μέθοδοι στην Επιστήμη των Δεδομένων, Εργαστήριο 8ο 33

ANOVA ανάλυση