Statistik 2

18
Goodness of Fit test

Transcript of Statistik 2

Page 1: Statistik 2

Goodness of Fit test

Page 2: Statistik 2

Test statistik untuk kecocokan thd distribusi teoretik

Situasi: Ingin diketahui seberapa mirip distribusi data yg diperoleh di dalam sampel terhadap distribusi teoretis yg diasumsikan dimiliki oleh populasi asal sampel tsb. Test ini disebut goodness of fit test.

Test statistiknya adalah chi-squares:

Dengan Ok adalah frekuensi sampel yg terobservasi, Ek adalah frekuensi teoretis (expected) untuk sel yang sama (k). Derajat kebebasannya v=N-1

Hipotesa yg diuji adalah H0: Distribusi sampel = distribusi teoretis (nilai chi-squares kecil)

terhadap H1 : distribusi sampel menyimpang dari distribusi teoretis (nilai chi-squares besar)

N

k k

kk

E

EO

1

22 )(

Page 3: Statistik 2

Contoh.

Sebuah dadu bermuka 6 dilemparkan sebanyak 120 kali, hasilnya adalah sbb:

Muka dadu 1 2 3 4 5 6

frek (obs) 20 22 17 18 19 24

frek (exp) 20 20 20 20 20 20

distribusi teoretis (expected ) f(x) =1/6 dengan x=1,2,3,…6, sehingga untuk 120 kali pelemparan frek (teoretis) = 1/6*120=20 untuk tiap mata dadu.

1. Hipotesa

H0: Distribusi frekuensi mata dadu sesuai distribusi teoretis

H1: Distribusi frekuensi mata dadu menyimpang dari teoretis

Page 4: Statistik 2

Contoh.

N

k k

kk

E

EO

1

22 )(

2. Tingkat signifikan

Misal diambil α =5%.

3. Daerah kristis

Variabel statistik untuk diuji:

dengan v=N-1=6-1=5.

Nilai kritis, menurut tabel χ20.05

(v=5) = 11.070.

Tolak H0, jika χ2 > 11.070

4. Perhitungan

Obs 20 22 17 18 19 24

Exp 20 20 20 20 20 20

(O-E)2/E 0 0.2 0.45 0.2 0.05 0.8

Page 5: Statistik 2

Contoh.

20

)2420(

20

)1920(

20

)2017(

20

)2022(

20

)2020()( 222226

1

22

k k

kk

E

EO

4. Perhitungan

5. Keputusan

Karena χ2 < 11.070 maka H0 tidak bisa ditolak pada tingkat signifikan 5%.

6. Kesimpuan:

Tidak bisa dikatakan bahwa distribusi frekuensi kemunculan mata dadu berasal dari populasi yg menyimpang dari distribusi teoretis yg seharusnya. Atau tidak cukup bukti menyatakan dadunya tidak fair!

7.18.005.02.045.02.00)(

1

22

N

k k

kk

E

EO

Page 6: Statistik 2

Test untuk independensi (data kategorikal)

Situasi: Ingin diketahui independensi antara dua buah variabel kategorikal.

H0: Tidak ada hubungan (dua buah variabel tsb independen)

H1 : Ada hubungan antara kedua buah variabel

Sebagai distribusi teoretisnya adalah berdasarkan H0 yaitu distribusi yg akan terjadi jikalau kedua variabel yg diperiksa independen. Sedangkan test statistik yg dipergunakan adalah χ2 :

N

k k

kk

E

EO

1

22 )(

Page 7: Statistik 2

Contoh.

Ingin diketahui apakah tingkat pendapatan berpengaruh pada opini terhadap rencana reformasi perpajakan yg akan dilakukan pemerintah. Untuk itu dilakukan sampling terhadap 1000 orang wajib pajak. Kepada mereka ditanyakan apakah setuju dengan reformasi perpajakan yg akan dilakukan. Hasilnya ditabelkan dalam tabel kontingensi berikut ini:

 

 Tingkat Pendapatan

   

  Rendah Medium Tinggi Total Row

Setuju 182 213 203 598

Tidak 154 138 110 402

Total Col 336 351 313 1000

Page 8: Statistik 2

Contoh.

Periksalah hipotesa H0: tidak ada hubungan antara tingkat pendapatan dan opini thd reformasi perpajakan, dengan tingkat signifikan 5%.

Page 9: Statistik 2

Solusi.

1. Hipotesa

H0: tidak ada hubungan antara tingkat pendapatan dan opini thd reformasi perpajakan,

H1: Ada hubungan ….

2. α = 5%.

3. Daerah kritis

Variabel untuk ditest:

dengan derajat kebebasan v= (row-1)*(col-1)= (2-1)*(3-1)=2

Nilai kritis, dari tabel χ0.052(ν=2)=5.991

Tolak H0, jika χ2 > 5.991

N

k k

kk

E

EO

1

22 )(

Page 10: Statistik 2

Solusi.

4. Perhitungan

Menentukan frekuensi teoretis tiap cell berdasarkan asumsi bahwa variabel pendapatan independen thd variabel opini, sehingga probabilitas untuk cell dengan pendapatan Pa dan opini Ob akan diberikan oleh:

P (Pa ∩ Ob)= P(Pa)*P(Ob)

Jika total datanya N, maka expected frequency untuk cell tsb adalah:

n (Pa ∩ Ob)= P(Pa)*P(Ob) * N

Bagaimana menentukan Pa dan Ob dari tabel kontingensi?

Misal dari data, jumlah org yg pendapatannya a,b dan c masing-masing na, nb dan nc. Maka, probabilitas menemukan 1 orang dengan pendapatan a adalah : P (Pa) = na/(na+nb+nc), dst.

Page 11: Statistik 2

Solusi.

  Tingkat Pendapatan   

  Rendah Medium Tinggi Total Row

Setuju       598

Tidak       402

Total Col 336 351 313 1000

4. Perhitungan

Disebelah kiri adalah tabel yg diperlukan untuk menghitung expected frequency, sebelah kanan adalah hasilnya : expected frequency.

Contoh perhitungan expected freq. orang yg berpendapatan rendah dan setuju.

P(rendah) = 336/1000 P(setuju)=598/1000

n(rendah dan setuju) = P(rendah)*P(setuju)*1000=

= 336/1000*598/1000*1000 = 200.9

 

 Tingkat Pendapatan   

  Rendah Medium Tinggi Total Row

Setuju 200.9 209.9 187.2 598

Tidak 135.1 141.1 125.8 402

Total Col 336 351 313 1000

Page 12: Statistik 2

Solusi.

4. Perhitungan

Untuk menghemat perhitungan tidak perlu semua dihitung, misalkan seluruh baris “setuju” dihitung, maka jumlah expected yg di baris “tidak” bisa diperoleh dengan pengurangan. Contoh expected freq. yg pendapatan rendah dan tidak setuju:

n(rendah & tidak) = 336 – n(rendah & setuju) = 336 – 200.9=135.1

Tahap berikutnya menghitung chi-squares:

5. Keputusan

Karena χ2 > 5.991 maka cukup bukti untuk menolak H0

6. Kesimpulan

Ada hubungan antara variabel pendapatan dan opini.

8.125

)8.125110(

1.141

)1.141138(

1.135

)1.135154(

2.187

)2.187203(

9.209

)9.209213(

9.201

)9.201182()( 222222

1

22

N

k k

kk

E

EO

878.72

Page 13: Statistik 2

Catatan

1. Metoda ini bekerja baik jika jumlah expected freq di tiap cell ≥ 5.

2. Untuk mempermudah perhitungan biasanya dalam tiap cell dicantumkan observed freq dan expected freq.

 

 Tingkat Pendapatan   

  Rendah Medium Tinggi Total Row

Setuju182

(200.9) 213 (209.9) 203 (187.2) 598

Tidak154

(135.1) 138 (141.1) 110 (125.8) 402

Total Col 336 351 313 1000

Page 14: Statistik 2

Test Beberapa Proporsi Sekaligus

Situasi: Ingin diketahui apakah proporsi untuk “sukses” di berbagai populasi semuanya sama. Jadi

H0 : P1=P2=P3=…

H1: paling tidak ada 1 proporsi yg tidak sama

Variabel testnya adalah chi-squares:

N

k k

kk

E

EO

1

22 )(

Page 15: Statistik 2

Contoh

Sebuah pabrik yg memiliki 3 shift pekerja ingin mengetahui apakah persentase produk yg cacat dari berbagai shift tersebut sama. Sampel data disusun dalam tabel berikut ini:

Pergunakan tingkat signifikan 2.5% untuk memeriksa apakah persentase yg cacat sama di segala shift.

Shift Pagi Siang Malam

Cacat 45 55 70

Baik 905 890 870

Page 16: Statistik 2

Solusi

1. Hipotesa

H0 : p1=p2=p3

H1: tidak semua p1,p2 dan p3 sama

2. α =0.025

3. Daerah Kritis

Test statistiknya :

dengan derajat kebebasan v= (2-1)*(3-1)=2

Nilai kritis, dari tabel diperoleh χ0.0252(v=2) = 7.378

Tolak H0 jika χ2 > 7.378

N

k k

kk

E

EO

1

22 )(

Page 17: Statistik 2

Solusi

Shift Pagi Siang Malam Total

Cacat 45 (57.0) 55 (56.7) 70 (56.4) 170

Baik905

(893.0)890

(888.3)870

(883.6) 2665

Total 950 945 940 2835

Perhitungan expected frequency seperti contoh-contoh sebelumnya. Sehingga chi-squares bisa dihitung:

Χ2 = 6.23

6.883

)6.883870(

3.888

)3.888890(

893

)893905(

4.56

)4.5670(

7.56

)7.5655(

0.57

)0.5745()( 222222

1

22

N

k k

kk

E

EO

4. Perhitungan

Page 18: Statistik 2

Solusi

5. Keputusan

Karena χ2 <7.378, maka H0 tidak bisa ditolak.

6. Kesimpulan

Tidak cukup bukti untuk menyatakan bahwa ada perbedaan proporsi produksi yg cacat di berbagai shift yg berbeda