Κεφάλαιο 13- Δ

Post on 09-Mar-2016

71 views 2 download

description

Κεφάλαιο 13- Δ. Πίνακας Συνάφειας & Έλεγχος χ 2. Ένα Κοινό Θέμα …. Ένας Τύπος Δεδομένων …. … Δύο τεχνικές. Δύο Τεχνικές …. - PowerPoint PPT Presentation

Transcript of Κεφάλαιο 13- Δ

Κεφάλαιο 13-Δ

Πίνακας Συνάφειας& Έλεγχος χ2

Ένα Κοινό Θέμα …

Τι να κάνω;Τύπος

Δεδομένων;

Αριθμός Κατηγοριών

;Στατιστικές Τεχνικές:

Περιγραφή ενός

πληθυσμούΟνομαστικ

άΔύο ή

Περισσότερες

χ2 έλεγχος προσαρμοστι_κότητας

Σύγκριση Δύο Πληθυσμών

Ονομαστικά

Δύο ή Περισσότερε

ς

χ2 έλεγχος του πίνακα συνάφειας

Σύγκριση Δύο ή

Περισσοτέρων Πληθυσμών

Ονομαστικά --

χ2 έλεγχος του πίνακα συνάφειας

Ανάλυση Σχέσης μεταξύ

δύο Μεταβλητών

Ονομαστικά --

χ2 έλεγχος του πίνακα συνάφειας

Ένας Τύπος Δεδομένων … …Δύο τεχνικές

Δύο Τεχνικές …Η πρώτη είναι ένας έλεγχος προσαρμοστικότητας που εφαρμόζεται σε ένα πολυωνυμικό πείραμα, μία γενίκευση του δυωνυμικού πειράματος και χρησιμοποιείται για την περιγραφή ενός πληθυσμού δεδομένων.

Η δεύτερη χρησιμοποιεί δεδομένα διευθετημένα σε έναν πίνακα συνάφειας για να προσδιορίσουμε εάν δύο ταξινομήσεις ενός πληθυσμού με ονομαστικά δεδομένα είναι στατιστικά ανεξάρτητες; Αυτός ό έλεγχος μπορεί επίσης να ερμηνευθεί ως μία σύγκριση δύο ή περισσοτέρων πληθυσμών. Και στις δύο περιπτώσεις, χρησιμοποιούμε χ2-κατανομή.

Το Πολυωνυμικό Πείραμα …Σε αντιπαράθεση με το δυωνυμικό πείραμα το οποίο έχει δύο πιθανά ενδεχόμενα (π.χ. κορόνα ή γράμματα), ένα πολυωνυμικό πείραμα:

• Αποτελείται από έναν σταθερό αριθμό, n, δοκιμών. • Κάθε δοκιμή μπορεί να έχει ένα από τα k ενδεχόμενα, καλούμενα ως κελιά.

• Όλες οι πιθανότητες pi είναι σταθερές. • Η συνήθης ιδιότητα των πιθανοτήτων ισχύει:

p1 + p2 + … + pk = 1, και • Κάθε δοκιμή είναι ανεξάρτητη από τις υπόλοιπες δοκιμές.

χ2 έλεγχος προσαρμοστικότητας …Ελέγχουμε εάν υπάρχει επαρκή μαρτυρία ώστε να απορρίψουμε ένα καθορισμένο σύνολο τιμών για τις pi.

Πιο αναλυτικά, η μηδενική υπόθεση είναι:

H0: p1 = a1, p2 = a2, …, pk = ak

(όπου a1, a2, …, ak είναι οι τιμές που μας ενδιαφέρουν)

Η ερευνητική υπόθεση είναι: H1: Τουλάχιστον ένα pi ≠ ai

χ2 έλεγχος προσαρμοστικότητας … Ο έλεγχος πραγματοποιεί την σύγκριση μεταξύ των πραγματικών συχνοτήτων και των αναμενόμενων συχνοτήτων των The test builds on comparing actual frequency and the expected frequency of συμβάντων στα κελιά. Παράδειγμα 13.11…Συγκρίνουμε μερίδιο αγοράς πριν και μετά την διαφημιστική εκστρατεία για να δούμε αν υπάρχει διαφορά (δηλαδή εάν η διαφήμιση ήταν αποτελεσματική για την βελτίωση του μεριδίου αγοράς).

H0: p1 = a1, p2 = a2, …, pk = ak

Όπου ai είναι το μερίδιο αγοράς πριν από την εκστρατεία. Εάν δεν υπήρχε αλλαγή, θα περιμέναμε την H0 να μην απορριφθεί. Εάν υπάρχει μαρτυρία να απορρίψουμε την H0 για την εύνοια της: H1: τουλάχιστον μία pi ≠ ai, ποιο είναι ένα λογικό συμπέρασμα;

Παράδειγμα 13.11…Μερίδια αγοράς πριν από διαφημιστική εκστρατεία …

Εταιρία A – 45%Εταιρία B – 40%Λοιπές – 15 %

200 πελάτες καταμετρήθηκαν μετά την εκστρατεία. Τα αποτελέσματα:

Εταιρία A – 102 πελάτες προτίμησαν το προϊόν. Εταιρία B – 82 πελάτες … Λοιπές – 16 πελάτες .

Πριν από την εκστρατεία, θα αναμέναμε 45% από τους 200 πελάτες (δηλαδή 90 πελάτες) να προτιμάν το προϊόν της εταιρίας Α. Μετά την εκστρατεία, παρατηρούμε 102 καταναλωτές της. Σημαίνει αυτό ότι η εκστρατεία ήταν αποτελεσματική; (σε επίπεδο σημαντικότητας).

ΑΝΑΓΝΩΡΙΣΤΕ

Παράδειγμα 13.11…Συχνότητα που Παρατηρούμε

AB

Αναμενόμενη Συχνότητα

AB

Είναι αυτές οι αλλαγές

στατιστικά σημαντικά;

Παράδειγμα 13.11…

Η μηδενική υπόθεση είναι: H0: pΕταιρίαΑ=.45, pΕταιρίαΒ=.40, pΛοιπές = .15(δηλαδή τα μερίδια αγοράς πριν την εκστρατεία), και η εναλλακτική υπόθεση είναι:

H1: Τουλάχιστον μία pi ≠ ai

Για να ολοκληρώσουμε την εκτέλεση του ελέγχου της υπόθεσης χρειαζόμαστε ένα στατιστικό τεστ και μία περιοχή απόρριψης …

ΑΝΑΓΝΩΡΙΣΤΕ

χ2 έλεγχος προσαρμοστικότητας …Το στατιστικό τεστ του χ2 ελέγχου προσαρμοστικότητας δίνεται από:

Σημειώστε: αυτό το στατιστικό είναι προσεγγιστικά χ2 με k–1 βαθμούς ελευθερίας εφόσον το δείγμα είναι αρκετά μεγάλα. Η περιοχή απόρριψης είναι:

Συχνότητα που

Παρατηρούμε

Αναμενόμενη Συχνότητα

Παράδειγμα 13.11…Για να υπολογίσουμε το στατιστικό τεστ, τοποθετούμε τα δεδομένα σε έναν πίνακα με τον παρακάτω τρόπο για ευκολότερους υπολογισμούς:

Εταιρία

Συχνότητα που

Παρατηρούμε

Αναμενόμενη Συχνότητα

Δέλτα

Όρος του Αθροίσματο

ς

fi ei (fi – ei) (fi – ei)2/ei

A 102 90 12 1.60B 82 80 2 0.05

Λοιπές 16 30 -14 6.53Σύνολο 200 200 8.18

Ελέγξτε ότι είναι όμοια

ΥΠΟΛΟΓΙΣΤΕ

Παράδειγμα 13.11…Η περιοχή απόρριψης είναι:

Αφού το στατιστικό τεστ είναι 8.18 το οποίο είναι μεγαλύτερο από την κριτική τιμή του χ2, απορρίπτουμε την H0 την εύνοια της, H1, δηλαδή,

«Υπάρχει επαρκή μαρτυρία να συμπεράνουμε ότι οι αναλογίες έχουν

αλλάξει αφότου η διαφημιστική εκστρατεία εφαρμόστηκε»

ΕΡΜΗΝΕΥΣΤΕ

χ2 > χ2 = χ2 = 5.99147α ,k- 1 .05,3-1

Απαιτούμενες Υποθέσεις…

Για να χρησιμοποιήσουμε αυτή την τεχνική, το μέγεθος του δείγματος πρέπει να είναι αρκετά μεγάλο έτσι ώστε η αναμενόμενη τιμή για κάθε κελί είναι 5 ή μεγαλύτερη (δηλαδή npi ≥ 5)

Εάν η αναμενόμενη συχνότητα είναι μικρότερη από 5, συνδυάστε την με άλλα κελιά για να ικανοποιηθεί η υπόθεση.

Αναγνώριση Παραγόντων …Παράγοντες που αναγνωρίζουν το τεστ του χ2 ελέγχου προσαρμοστικότητας: Περιγραφή του πληθυσμού →Ονομαστικά δεδομένα→2 ή >2 κατηγορίες

ei=(n)(pi)Απαιτείται

χ2 Έλεγχος για Πίνακα ΣυνάφειαςΟ χ2 έλεγχος για έναν πίνακα συνάφειας χρησιμοποιείται:

• για να καθορίσουμε αν υπάρχει μαρτυρία να συμπεράνουμε ότι δύο ονομαστικές μεταβλητές συσχετίζονται, και

• για να συμπεράνουμε ότι διαφορές υπάρχουν μεταξύ δύο η περισσοτέρων πληθυσμών με ονομαστικές μεταβλητές.

Για να χρησιμοποιήσουμε αυτές τις τεχνικές, χρειαζόμαστε να ταξινομήσουμε τα δεδομένα σύμφωνα με δύο διαφορετικά κριτήρια.

Παράδειγμα 13.12… Η ζήτηση των μαθημάτων επιλογής και των κατευθύνσεων σε ένα MBA πρόγραμμα ποικίλει αρκετά ανά έτος.

Η ερευνητική υπόθεση είναι ότι το ακαδημαϊκό υπόβαθρο των φοιτητών (δηλαδή τα προπτυχιακά τους πτυχία) επηρεάζει την επιλογή τους για την κατεύθυνση.

Ένα τυχαίο δείγμα δεδομένων από φοιτητές του τελευταίου έτους του MBA συλλέγετε και περιληπτικά περιγράφεται με έναν πίνακα συνάφειας …

ΑΝΑΓΝΩΡΙΣΤΕ

Παράδειγμα 13.12… Τα Δεδομένα

Κατευθύνσεις του MBA

Προπτυχιακό Πτυχίο

Λογιστική

Χρηματο_ οικονομικ

ά Marketing Σύνολο

Θ. Επιστήμες 31 13 16 60

Πολυτεχνείο 8 16 7 31

Οικονομικά 12 10 17 39Λοιπά 10 5 7 22

Σύνολο 61 44 47 152

Παράδειγμα 13.12…Ξανά, ενδιαφερόμαστε να καθορίσουμε εάν ή όχι το ακαδημαϊκό υπόβαθρο των φοιτητών επηρεάζει την επιλογή της κατεύθυνσης στο ΜBA. Έτσι η ερευνητική μας υπόθεση είναι:

H1: Οι δύο μεταβλητές είναι εξαρτημένες

Η μηδενική υπόθεση τότε, είναι:

H0: Οι δύο μεταβλητές είναι ανεξάρτητες.

Παράδειγμα 13.12…Σε αυτή την περίπτωση, το στατιστικό τεστ είναι:

(όπου k είναι ο αριθμός των κελιών σε έναν πίνακα συνάφειας, δηλαδή (γραμμές, r)(στήλες, c)Η περιοχή απόρριψης είναι:

Όπου ο αριθμός των βαθμών ελευθεριών είναι (r–1)(c–1)

Παράδειγμα 13.12…

Για να υπολογίσουμε το στατιστικό στοιχείο του χ2 ελέγχου, χρειάζεται να υπολογίσουμε τις αναμενόμενες συχνότητες για όλα τα κελιά …

Η αναμενόμενη συχνότητα ενός κελιού στην γραμμή i και την στήλη j είναι:

ΥΠΟΛΟΓΙΣΤΕ

Σύνολο της i γραμμής x Σύνολο της j στήλης eij = Μέγεθός του δείγματος

Η Δομή του Πίνακα Συνάφειας …

(Σύνολο γραμμής) (Σύνολο στήλης)Μέγεθος δείγματοςiji je

Παράδειγμα 13.12… ΥΠΟΛΟΓΙΣΤΕ

Κατευθύνσεις του MBA

Προπτυχιακό Πτυχίο Λογιστική

Χρηματο_ οικονομικά

Marketing Σύνολο

Θ. Επιστήμες 31 13 16 60

Πολυτεχνείο 8 16 31 x 47

152 31

Οικονομικά 12 10 17 39Λοιπά 10 5 7 22

Σύνολο 61 44 47 152

e23 = (31)(47)/152 = 9.59 — σύγκριση αυτού με f23 = 7

Υπολογισμός αναμενομένων συχνοτήτων…

Σύνολο της i γραμμής x Σύνολο της j στήλης eij = Μέγεθός του δείγματος

Παράδειγμα 13.12…Μπορούμε να συγκρίνουμε τις συχνότητες που παρατηρούνται με τις αναμενόμενες …

και υπολογίζουμε το στατιστικό τεστ:

Κατευθύνσεις του MBA

Προπτυχιακό Πτυχίο Λογιστική Χρηματο_

οικονομικά MarketingΘ. Επιστήμες 31 24.08 13 17.37 16 18.55Πολυτεχνείο 8 12.44 16 8.97 7 9.59Οικονομικά 12 15.65 10 11.29 17 12.06

Λοιπά 10 8.83 5 6.37 7 6.80

Παράδειγμα 13.12…Συγκρίνουμε χ2 = 14.70 με:

Αφού το στατιστικό τεστ πέφτει σε περιοχή απόρριψης, απορρίπτουμε

H0: Οι δύο μεταβλητές είναι ανεξάρτητες. για τη εύνοια της

H1: Οι δύο μεταβλητές είναι εξαρτημένες.

Δηλαδή, υπάρχει μαρτυρία για σχέση μεταξύ προπτυχιακού πτυχίου και κατεύθυνσης MBA.

ΕΡΜΗΝΕΥΣΤΕ

χ2 = χ2 = χ2 = 12.5916α ,ν .05, (4-1)(3-1) .05,6

Απαιτούμενη Υπόθεση – Κανόνας των Πέντε …

Σε έναν πίνακα συνάφειας όπου ένα ή περισσότερα κελιά έχουν αναμενόμενες τιμές μικρότερες από 5, χρειάζεται να συνδυάσουμε γραμμές και στήλες για να ικανοποιήσουμε τον κανόνα των 5.

Σημειώστε: όταν συνδυάζουμε γραμμές και στήλες αλλάζουν και οι βαθμοί ελευθερίας.

Αναγνωρίζοντας Παράγοντες…

Αναλύουμε την σχέση μεταξύ δύο μεταβλητών και συγκρίνουμε δύο ή περισσότερους πληθυσμό θα με ονομαστικά δεδομένα

505400499415418467551444481429

487373416424471427509410515435

409501440444485475470485469450

480466477445413537484418465496

482442465449523488508432405440

Αριθμός των Πακέτων

χ2 έλεγχος για Κανονικότητα χ2 έλεγχος για κανονικότητα στο Παράδειγμα 13.3

• χ2 έλεγχος για κανονικότητα στο Παράδειγμα 13.3 Για μέγεθος δείγματος ίσο με n=50, ο δειγματοληπτικός μέσος ήταν 460.38 με τυπικό σφάλμα 38.83. Μπορούμε να συμπεράνουμε από τα δεδομένα δοθέντος ότι το δείγμα επιλέχθηκε από μία κανονική κατανομή με = 460.38 και = 38.8; Χρησιμοποιώντας 5% επίπεδο σημαντικότητας.

χ2 έλεγχος για Κανονικότητα

Διαστήματα

Έπειτα βρίσκουμε τις πιθανότητες από διαστήματα των οποίων το πλήθος είναι αυθαίρετο. Διάστημα 1: X ≤ 421.55Διάστημα 2: 421.55 < X ≤ 460.38Διάστημα 3: 460.38< X ≤ 499.21Διάστημα 4: X > 499.21

Υπολογίζουμε τις Πιθανότητες

X –μ 421.55 – 460.38P ( X ≤ 421.55 ) = P ≤

σ 38.83 = P ( Z ≤ -1) = .1587

χ2 έλεγχος για ΚανονικότηταΛύσηΠρώτα επιλέγουμε z τιμές που ορίζουνε ένα κελί (αναμενόμενη συχνότητα > 5 για κάθε κελί.) z1 = -1; P(z < -1) = p1 = .1587; e1 = np1 = 50(.1587) = 7.94z2 = 0; P(-1 < z< 0) = p2 = .3413; e2 = np2 = 50(.3413) = 17.07z3 = 1; P(0 < z < 1) = p3 = .3413; e3 = 17.07 P(z > 1) = p4 = .1587; e4 = 7.94

460.38 499.21

Τα όρια των κελιών υπολογίζονται από τις αντίστοιχες τιμές των z τιμών κάτω από την Η0.

z1 =(x1 - 460.38)38.83 = -1; x1 = 421.55

421.55

Οι αναμενόμενες συχνότητες μπορούν τώρα να καθοριστούν για κάθε κελί.

e1 = 7.94

e2 = 17.07 e3 = 17.07

e4 = 7.94.1587

.3413

.1587

.3413

χ2 έλεγχος για Κανονικότητα

(19 - 17.07)2

17.07(8 - 7.94)2

7.94

e1 = 7.94

e2 = 17.07 e3 = 17.07

e4 = 7.94

f1 = 10f2 = 13

f3 = 19

f4 = 8

(10 - 7.94)2

7.94(13 - 17.07)2

17.072= = 1.72+ + +

– Το στατιστικό τεστ

χ2 έλεγχος για Κανονικότητα

Συμπέρασμα: Υπάρχει ανεπαρκή μαρτυρία να συμπεράνουμε με 5% επίπεδο σημαντικότητας ότι τα δεδομένα δεν είναι κανονικά κατανεμημένα.

(10 - 7.94)2

7.94(13 - 17.07)2

17.07(19 - 17.07)2

17.072= = 1.72+ + (8 - 7.94)2

7.94+

2 2, 1 όπου είνα ο αριθμός των παραμέτρων

που εκτιμήθηκαν από τα δεδομένα.k L L

– Η περιοχή απόρριψης

– Το στατιστικό τεστ

84146.3234,05.

23k,

χ2 έλεγχος για Κανονικότητα• Σημειώστε ότι η μηδενική

υπόθεση είναι:• Η0: τα δεδομένα ακολουθούν

κανονική κατανομήκαι η εναλλακτική υπόθεση είναι:• Η1: τα δεδομένα δεν ακολουθούν

κανονική κατανομή