Κεφάλαιο 13- Δ

34
Κεφάλαιο 13-Δ Πίνακας Συνάφειας & Έλεγχος χ 2

description

Κεφάλαιο 13- Δ. Πίνακας Συνάφειας & Έλεγχος χ 2. Ένα Κοινό Θέμα …. Ένας Τύπος Δεδομένων …. … Δύο τεχνικές. Δύο Τεχνικές …. - PowerPoint PPT Presentation

Transcript of Κεφάλαιο 13- Δ

Page 1: Κεφάλαιο  13- Δ

Κεφάλαιο 13-Δ

Πίνακας Συνάφειας& Έλεγχος χ2

Page 2: Κεφάλαιο  13- Δ

Ένα Κοινό Θέμα …

Τι να κάνω;Τύπος

Δεδομένων;

Αριθμός Κατηγοριών

;Στατιστικές Τεχνικές:

Περιγραφή ενός

πληθυσμούΟνομαστικ

άΔύο ή

Περισσότερες

χ2 έλεγχος προσαρμοστι_κότητας

Σύγκριση Δύο Πληθυσμών

Ονομαστικά

Δύο ή Περισσότερε

ς

χ2 έλεγχος του πίνακα συνάφειας

Σύγκριση Δύο ή

Περισσοτέρων Πληθυσμών

Ονομαστικά --

χ2 έλεγχος του πίνακα συνάφειας

Ανάλυση Σχέσης μεταξύ

δύο Μεταβλητών

Ονομαστικά --

χ2 έλεγχος του πίνακα συνάφειας

Ένας Τύπος Δεδομένων … …Δύο τεχνικές

Page 3: Κεφάλαιο  13- Δ

Δύο Τεχνικές …Η πρώτη είναι ένας έλεγχος προσαρμοστικότητας που εφαρμόζεται σε ένα πολυωνυμικό πείραμα, μία γενίκευση του δυωνυμικού πειράματος και χρησιμοποιείται για την περιγραφή ενός πληθυσμού δεδομένων.

Η δεύτερη χρησιμοποιεί δεδομένα διευθετημένα σε έναν πίνακα συνάφειας για να προσδιορίσουμε εάν δύο ταξινομήσεις ενός πληθυσμού με ονομαστικά δεδομένα είναι στατιστικά ανεξάρτητες; Αυτός ό έλεγχος μπορεί επίσης να ερμηνευθεί ως μία σύγκριση δύο ή περισσοτέρων πληθυσμών. Και στις δύο περιπτώσεις, χρησιμοποιούμε χ2-κατανομή.

Page 4: Κεφάλαιο  13- Δ

Το Πολυωνυμικό Πείραμα …Σε αντιπαράθεση με το δυωνυμικό πείραμα το οποίο έχει δύο πιθανά ενδεχόμενα (π.χ. κορόνα ή γράμματα), ένα πολυωνυμικό πείραμα:

• Αποτελείται από έναν σταθερό αριθμό, n, δοκιμών. • Κάθε δοκιμή μπορεί να έχει ένα από τα k ενδεχόμενα, καλούμενα ως κελιά.

• Όλες οι πιθανότητες pi είναι σταθερές. • Η συνήθης ιδιότητα των πιθανοτήτων ισχύει:

p1 + p2 + … + pk = 1, και • Κάθε δοκιμή είναι ανεξάρτητη από τις υπόλοιπες δοκιμές.

Page 5: Κεφάλαιο  13- Δ

χ2 έλεγχος προσαρμοστικότητας …Ελέγχουμε εάν υπάρχει επαρκή μαρτυρία ώστε να απορρίψουμε ένα καθορισμένο σύνολο τιμών για τις pi.

Πιο αναλυτικά, η μηδενική υπόθεση είναι:

H0: p1 = a1, p2 = a2, …, pk = ak

(όπου a1, a2, …, ak είναι οι τιμές που μας ενδιαφέρουν)

Η ερευνητική υπόθεση είναι: H1: Τουλάχιστον ένα pi ≠ ai

Page 6: Κεφάλαιο  13- Δ

χ2 έλεγχος προσαρμοστικότητας … Ο έλεγχος πραγματοποιεί την σύγκριση μεταξύ των πραγματικών συχνοτήτων και των αναμενόμενων συχνοτήτων των The test builds on comparing actual frequency and the expected frequency of συμβάντων στα κελιά. Παράδειγμα 13.11…Συγκρίνουμε μερίδιο αγοράς πριν και μετά την διαφημιστική εκστρατεία για να δούμε αν υπάρχει διαφορά (δηλαδή εάν η διαφήμιση ήταν αποτελεσματική για την βελτίωση του μεριδίου αγοράς).

H0: p1 = a1, p2 = a2, …, pk = ak

Όπου ai είναι το μερίδιο αγοράς πριν από την εκστρατεία. Εάν δεν υπήρχε αλλαγή, θα περιμέναμε την H0 να μην απορριφθεί. Εάν υπάρχει μαρτυρία να απορρίψουμε την H0 για την εύνοια της: H1: τουλάχιστον μία pi ≠ ai, ποιο είναι ένα λογικό συμπέρασμα;

Page 7: Κεφάλαιο  13- Δ

Παράδειγμα 13.11…Μερίδια αγοράς πριν από διαφημιστική εκστρατεία …

Εταιρία A – 45%Εταιρία B – 40%Λοιπές – 15 %

200 πελάτες καταμετρήθηκαν μετά την εκστρατεία. Τα αποτελέσματα:

Εταιρία A – 102 πελάτες προτίμησαν το προϊόν. Εταιρία B – 82 πελάτες … Λοιπές – 16 πελάτες .

Πριν από την εκστρατεία, θα αναμέναμε 45% από τους 200 πελάτες (δηλαδή 90 πελάτες) να προτιμάν το προϊόν της εταιρίας Α. Μετά την εκστρατεία, παρατηρούμε 102 καταναλωτές της. Σημαίνει αυτό ότι η εκστρατεία ήταν αποτελεσματική; (σε επίπεδο σημαντικότητας).

ΑΝΑΓΝΩΡΙΣΤΕ

Page 8: Κεφάλαιο  13- Δ

Παράδειγμα 13.11…Συχνότητα που Παρατηρούμε

AB

Αναμενόμενη Συχνότητα

AB

Είναι αυτές οι αλλαγές

στατιστικά σημαντικά;

Page 9: Κεφάλαιο  13- Δ

Παράδειγμα 13.11…

Η μηδενική υπόθεση είναι: H0: pΕταιρίαΑ=.45, pΕταιρίαΒ=.40, pΛοιπές = .15(δηλαδή τα μερίδια αγοράς πριν την εκστρατεία), και η εναλλακτική υπόθεση είναι:

H1: Τουλάχιστον μία pi ≠ ai

Για να ολοκληρώσουμε την εκτέλεση του ελέγχου της υπόθεσης χρειαζόμαστε ένα στατιστικό τεστ και μία περιοχή απόρριψης …

ΑΝΑΓΝΩΡΙΣΤΕ

Page 10: Κεφάλαιο  13- Δ

χ2 έλεγχος προσαρμοστικότητας …Το στατιστικό τεστ του χ2 ελέγχου προσαρμοστικότητας δίνεται από:

Σημειώστε: αυτό το στατιστικό είναι προσεγγιστικά χ2 με k–1 βαθμούς ελευθερίας εφόσον το δείγμα είναι αρκετά μεγάλα. Η περιοχή απόρριψης είναι:

Συχνότητα που

Παρατηρούμε

Αναμενόμενη Συχνότητα

Page 11: Κεφάλαιο  13- Δ

Παράδειγμα 13.11…Για να υπολογίσουμε το στατιστικό τεστ, τοποθετούμε τα δεδομένα σε έναν πίνακα με τον παρακάτω τρόπο για ευκολότερους υπολογισμούς:

Εταιρία

Συχνότητα που

Παρατηρούμε

Αναμενόμενη Συχνότητα

Δέλτα

Όρος του Αθροίσματο

ς

fi ei (fi – ei) (fi – ei)2/ei

A 102 90 12 1.60B 82 80 2 0.05

Λοιπές 16 30 -14 6.53Σύνολο 200 200 8.18

Ελέγξτε ότι είναι όμοια

ΥΠΟΛΟΓΙΣΤΕ

Page 12: Κεφάλαιο  13- Δ

Παράδειγμα 13.11…Η περιοχή απόρριψης είναι:

Αφού το στατιστικό τεστ είναι 8.18 το οποίο είναι μεγαλύτερο από την κριτική τιμή του χ2, απορρίπτουμε την H0 την εύνοια της, H1, δηλαδή,

«Υπάρχει επαρκή μαρτυρία να συμπεράνουμε ότι οι αναλογίες έχουν

αλλάξει αφότου η διαφημιστική εκστρατεία εφαρμόστηκε»

ΕΡΜΗΝΕΥΣΤΕ

χ2 > χ2 = χ2 = 5.99147α ,k- 1 .05,3-1

Page 13: Κεφάλαιο  13- Δ

Απαιτούμενες Υποθέσεις…

Για να χρησιμοποιήσουμε αυτή την τεχνική, το μέγεθος του δείγματος πρέπει να είναι αρκετά μεγάλο έτσι ώστε η αναμενόμενη τιμή για κάθε κελί είναι 5 ή μεγαλύτερη (δηλαδή npi ≥ 5)

Εάν η αναμενόμενη συχνότητα είναι μικρότερη από 5, συνδυάστε την με άλλα κελιά για να ικανοποιηθεί η υπόθεση.

Page 14: Κεφάλαιο  13- Δ

Αναγνώριση Παραγόντων …Παράγοντες που αναγνωρίζουν το τεστ του χ2 ελέγχου προσαρμοστικότητας: Περιγραφή του πληθυσμού →Ονομαστικά δεδομένα→2 ή >2 κατηγορίες

ei=(n)(pi)Απαιτείται

Page 15: Κεφάλαιο  13- Δ

χ2 Έλεγχος για Πίνακα ΣυνάφειαςΟ χ2 έλεγχος για έναν πίνακα συνάφειας χρησιμοποιείται:

• για να καθορίσουμε αν υπάρχει μαρτυρία να συμπεράνουμε ότι δύο ονομαστικές μεταβλητές συσχετίζονται, και

• για να συμπεράνουμε ότι διαφορές υπάρχουν μεταξύ δύο η περισσοτέρων πληθυσμών με ονομαστικές μεταβλητές.

Για να χρησιμοποιήσουμε αυτές τις τεχνικές, χρειαζόμαστε να ταξινομήσουμε τα δεδομένα σύμφωνα με δύο διαφορετικά κριτήρια.

Page 16: Κεφάλαιο  13- Δ

Παράδειγμα 13.12… Η ζήτηση των μαθημάτων επιλογής και των κατευθύνσεων σε ένα MBA πρόγραμμα ποικίλει αρκετά ανά έτος.

Η ερευνητική υπόθεση είναι ότι το ακαδημαϊκό υπόβαθρο των φοιτητών (δηλαδή τα προπτυχιακά τους πτυχία) επηρεάζει την επιλογή τους για την κατεύθυνση.

Ένα τυχαίο δείγμα δεδομένων από φοιτητές του τελευταίου έτους του MBA συλλέγετε και περιληπτικά περιγράφεται με έναν πίνακα συνάφειας …

ΑΝΑΓΝΩΡΙΣΤΕ

Page 17: Κεφάλαιο  13- Δ

Παράδειγμα 13.12… Τα Δεδομένα

Κατευθύνσεις του MBA

Προπτυχιακό Πτυχίο

Λογιστική

Χρηματο_ οικονομικ

ά Marketing Σύνολο

Θ. Επιστήμες 31 13 16 60

Πολυτεχνείο 8 16 7 31

Οικονομικά 12 10 17 39Λοιπά 10 5 7 22

Σύνολο 61 44 47 152

Page 18: Κεφάλαιο  13- Δ

Παράδειγμα 13.12…Ξανά, ενδιαφερόμαστε να καθορίσουμε εάν ή όχι το ακαδημαϊκό υπόβαθρο των φοιτητών επηρεάζει την επιλογή της κατεύθυνσης στο ΜBA. Έτσι η ερευνητική μας υπόθεση είναι:

H1: Οι δύο μεταβλητές είναι εξαρτημένες

Η μηδενική υπόθεση τότε, είναι:

H0: Οι δύο μεταβλητές είναι ανεξάρτητες.

Page 19: Κεφάλαιο  13- Δ

Παράδειγμα 13.12…Σε αυτή την περίπτωση, το στατιστικό τεστ είναι:

(όπου k είναι ο αριθμός των κελιών σε έναν πίνακα συνάφειας, δηλαδή (γραμμές, r)(στήλες, c)Η περιοχή απόρριψης είναι:

Όπου ο αριθμός των βαθμών ελευθεριών είναι (r–1)(c–1)

Page 20: Κεφάλαιο  13- Δ

Παράδειγμα 13.12…

Για να υπολογίσουμε το στατιστικό στοιχείο του χ2 ελέγχου, χρειάζεται να υπολογίσουμε τις αναμενόμενες συχνότητες για όλα τα κελιά …

Η αναμενόμενη συχνότητα ενός κελιού στην γραμμή i και την στήλη j είναι:

ΥΠΟΛΟΓΙΣΤΕ

Σύνολο της i γραμμής x Σύνολο της j στήλης eij = Μέγεθός του δείγματος

Page 21: Κεφάλαιο  13- Δ

Η Δομή του Πίνακα Συνάφειας …

(Σύνολο γραμμής) (Σύνολο στήλης)Μέγεθος δείγματοςiji je

Page 22: Κεφάλαιο  13- Δ

Παράδειγμα 13.12… ΥΠΟΛΟΓΙΣΤΕ

Κατευθύνσεις του MBA

Προπτυχιακό Πτυχίο Λογιστική

Χρηματο_ οικονομικά

Marketing Σύνολο

Θ. Επιστήμες 31 13 16 60

Πολυτεχνείο 8 16 31 x 47

152 31

Οικονομικά 12 10 17 39Λοιπά 10 5 7 22

Σύνολο 61 44 47 152

e23 = (31)(47)/152 = 9.59 — σύγκριση αυτού με f23 = 7

Υπολογισμός αναμενομένων συχνοτήτων…

Σύνολο της i γραμμής x Σύνολο της j στήλης eij = Μέγεθός του δείγματος

Page 23: Κεφάλαιο  13- Δ

Παράδειγμα 13.12…Μπορούμε να συγκρίνουμε τις συχνότητες που παρατηρούνται με τις αναμενόμενες …

και υπολογίζουμε το στατιστικό τεστ:

Κατευθύνσεις του MBA

Προπτυχιακό Πτυχίο Λογιστική Χρηματο_

οικονομικά MarketingΘ. Επιστήμες 31 24.08 13 17.37 16 18.55Πολυτεχνείο 8 12.44 16 8.97 7 9.59Οικονομικά 12 15.65 10 11.29 17 12.06

Λοιπά 10 8.83 5 6.37 7 6.80

Page 24: Κεφάλαιο  13- Δ

Παράδειγμα 13.12…Συγκρίνουμε χ2 = 14.70 με:

Αφού το στατιστικό τεστ πέφτει σε περιοχή απόρριψης, απορρίπτουμε

H0: Οι δύο μεταβλητές είναι ανεξάρτητες. για τη εύνοια της

H1: Οι δύο μεταβλητές είναι εξαρτημένες.

Δηλαδή, υπάρχει μαρτυρία για σχέση μεταξύ προπτυχιακού πτυχίου και κατεύθυνσης MBA.

ΕΡΜΗΝΕΥΣΤΕ

χ2 = χ2 = χ2 = 12.5916α ,ν .05, (4-1)(3-1) .05,6

Page 25: Κεφάλαιο  13- Δ

Απαιτούμενη Υπόθεση – Κανόνας των Πέντε …

Σε έναν πίνακα συνάφειας όπου ένα ή περισσότερα κελιά έχουν αναμενόμενες τιμές μικρότερες από 5, χρειάζεται να συνδυάσουμε γραμμές και στήλες για να ικανοποιήσουμε τον κανόνα των 5.

Σημειώστε: όταν συνδυάζουμε γραμμές και στήλες αλλάζουν και οι βαθμοί ελευθερίας.

Page 26: Κεφάλαιο  13- Δ

Αναγνωρίζοντας Παράγοντες…

Αναλύουμε την σχέση μεταξύ δύο μεταβλητών και συγκρίνουμε δύο ή περισσότερους πληθυσμό θα με ονομαστικά δεδομένα

Page 27: Κεφάλαιο  13- Δ

505400499415418467551444481429

487373416424471427509410515435

409501440444485475470485469450

480466477445413537484418465496

482442465449523488508432405440

Αριθμός των Πακέτων

χ2 έλεγχος για Κανονικότητα χ2 έλεγχος για κανονικότητα στο Παράδειγμα 13.3

Page 28: Κεφάλαιο  13- Δ

• χ2 έλεγχος για κανονικότητα στο Παράδειγμα 13.3 Για μέγεθος δείγματος ίσο με n=50, ο δειγματοληπτικός μέσος ήταν 460.38 με τυπικό σφάλμα 38.83. Μπορούμε να συμπεράνουμε από τα δεδομένα δοθέντος ότι το δείγμα επιλέχθηκε από μία κανονική κατανομή με = 460.38 και = 38.8; Χρησιμοποιώντας 5% επίπεδο σημαντικότητας.

χ2 έλεγχος για Κανονικότητα

Page 29: Κεφάλαιο  13- Δ

Διαστήματα

Έπειτα βρίσκουμε τις πιθανότητες από διαστήματα των οποίων το πλήθος είναι αυθαίρετο. Διάστημα 1: X ≤ 421.55Διάστημα 2: 421.55 < X ≤ 460.38Διάστημα 3: 460.38< X ≤ 499.21Διάστημα 4: X > 499.21

Page 30: Κεφάλαιο  13- Δ

Υπολογίζουμε τις Πιθανότητες

X –μ 421.55 – 460.38P ( X ≤ 421.55 ) = P ≤

σ 38.83 = P ( Z ≤ -1) = .1587

Page 31: Κεφάλαιο  13- Δ

χ2 έλεγχος για ΚανονικότηταΛύσηΠρώτα επιλέγουμε z τιμές που ορίζουνε ένα κελί (αναμενόμενη συχνότητα > 5 για κάθε κελί.) z1 = -1; P(z < -1) = p1 = .1587; e1 = np1 = 50(.1587) = 7.94z2 = 0; P(-1 < z< 0) = p2 = .3413; e2 = np2 = 50(.3413) = 17.07z3 = 1; P(0 < z < 1) = p3 = .3413; e3 = 17.07 P(z > 1) = p4 = .1587; e4 = 7.94

460.38 499.21

Τα όρια των κελιών υπολογίζονται από τις αντίστοιχες τιμές των z τιμών κάτω από την Η0.

z1 =(x1 - 460.38)38.83 = -1; x1 = 421.55

421.55

Οι αναμενόμενες συχνότητες μπορούν τώρα να καθοριστούν για κάθε κελί.

e1 = 7.94

e2 = 17.07 e3 = 17.07

e4 = 7.94.1587

.3413

.1587

.3413

Page 32: Κεφάλαιο  13- Δ

χ2 έλεγχος για Κανονικότητα

(19 - 17.07)2

17.07(8 - 7.94)2

7.94

e1 = 7.94

e2 = 17.07 e3 = 17.07

e4 = 7.94

f1 = 10f2 = 13

f3 = 19

f4 = 8

(10 - 7.94)2

7.94(13 - 17.07)2

17.072= = 1.72+ + +

– Το στατιστικό τεστ

Page 33: Κεφάλαιο  13- Δ

χ2 έλεγχος για Κανονικότητα

Συμπέρασμα: Υπάρχει ανεπαρκή μαρτυρία να συμπεράνουμε με 5% επίπεδο σημαντικότητας ότι τα δεδομένα δεν είναι κανονικά κατανεμημένα.

(10 - 7.94)2

7.94(13 - 17.07)2

17.07(19 - 17.07)2

17.072= = 1.72+ + (8 - 7.94)2

7.94+

2 2, 1 όπου είνα ο αριθμός των παραμέτρων

που εκτιμήθηκαν από τα δεδομένα.k L L

– Η περιοχή απόρριψης

– Το στατιστικό τεστ

84146.3234,05.

23k,

Page 34: Κεφάλαιο  13- Δ

χ2 έλεγχος για Κανονικότητα• Σημειώστε ότι η μηδενική

υπόθεση είναι:• Η0: τα δεδομένα ακολουθούν

κανονική κατανομήκαι η εναλλακτική υπόθεση είναι:• Η1: τα δεδομένα δεν ακολουθούν

κανονική κατανομή