Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI...

7
Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115) 1 Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI-SQUARE) Dosen Pengampu : Sunu Wibirama, M.Eng Jika dalam suatu percobaan atau eksperimen hanya memiliki dua hasil keluaran, seperti halnya pelemparan mata uang, kita mendapatkan sisi depan dan sisi belakang, maka distribusi normal dapat digunakan untuk menentukan apakah frekuensi kedua hasil tersebut cukup signifikan terhadap frekuensi yang diharapkan. Namun demikian, jika lebih dari dua hasil yang muncul, katakanlah ada k- hasil, maka distribusi normal tidak dapat digunakan untuk menguji perbedaan signifikan antara frekuensi hasil pengamatan dengan frekuensi yang diharapkan. Untuk melakukan uji hipothesis dengan menggunakan hasil percobaan yang memiliki lebih dari dua hasil, kita menggunakan Uji Chi-Kuadrat (Chi-Square Testing, dilambangkan dengan χ 2 ). Jika kita mempunyai frekuensi observasi sebanyak k, yaitu o 1 , o 2 , o 3 , …., o k dan frekuensi harapan (expectation) yaitu e 1 , e 2 , e 3 , …, e k , maka rumusan chi-kuadrat dituliskan: = - = k i i i i e e o 1 2 2 ) ( χ Jika χ 2 = 0, maka ada kesesuaian sempurna antara hasil observasi dan nilai harapan. Jika χ 2 > 0, maka antara hasil observasi dan nilai harapan tidak terjadi kesesuaian sempurna . Semakin besar nilai χ 2 , ketidaksesuaian antara hasil observasi dan nilai harapan juga semakin besar. A. PERHITUNGAN PRAKTIS Pada penghitungan praktis, kita akan menggunakan hipothesis awal (H 0 ) dan hipothesis alternatif (H a ) untuk melakukan uji hipothesis. Untuk melakukan uji statistika, kita membandingkan nilai χ 2 dari hasi perhitungan dan nilai χ 2 dari tabel (disebut nilai kritis χ 2 ). Nilai χ 2 dari tabel diperoleh dengan menggunakan derajat kebebasan (degree of freedom, dilambangkan dengan dof atau v) dan derajat signifikansi (significance level, dilambangkan dengan A atau α). Secara grafis jika derajat bebas semakin besar maka grafik distribusi chi-kuadrat akan mendekati bentuk distribusi normal. Contoh 1: Pelemparan Dadu Sebuah dadu dilempar 120 kali dan hasilnya disajikan pada tabel di bawah ( sisi angka 1 diperoleh 13 kali, sisi 2 diperoleh 28 kali, dan seterusnya). Jika dadu tersebut dipandang ideal, maka: (a) Tentukan nilai χ 2 (b) Apabila digunakan derajat signifikan 5% apakah hasil tersebut menunjukkan bahwa dadu itu tidak ideal?

Transcript of Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI...

Page 1: Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI …te.ugm.ac.id/~wibirama/tku115/week09/10_chi_square_modul.pdf · Pembahasan Contoh 3: ... kuadrat untuk α = 5% dan v = 1 maka nilai

Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)

1

Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI-SQUARE) Dosen Pengampu : Sunu Wibirama, M.Eng Jika dalam suatu percobaan atau eksperimen hanya memiliki dua hasil keluaran, seperti halnya pelemparan mata uang, kita mendapatkan sisi depan dan sisi belakang, maka distribusi normal dapat digunakan untuk menentukan apakah frekuensi kedua hasil tersebut cukup signifikan terhadap frekuensi yang diharapkan. Namun demikian, jika lebih dari dua hasil yang muncul, katakanlah ada k- hasil, maka distribusi normal tidak dapat digunakan untuk menguji perbedaan signifikan antara frekuensi hasil pengamatan dengan frekuensi yang diharapkan. Untuk melakukan uji hipothesis dengan menggunakan hasil percobaan yang memiliki lebih dari dua hasil, kita menggunakan Uji Chi-Kuadrat (Chi-Square Testing, dilambangkan dengan χ2 ). Jika kita mempunyai frekuensi observasi sebanyak k, yaitu o1, o2, o3, …., ok dan frekuensi harapan (expectation) yaitu e1, e2, e3 , …, ek, maka rumusan chi-kuadrat dituliskan:

∑=

−=

k

i i

ii

e

eo

1

22 )(χ

Jika χ2 = 0, maka ada kesesuaian sempurna antara hasil observasi dan nilai harapan. Jika χ2 > 0, maka antara hasil observasi dan nilai harapan tidak terjadi kesesuaian sempurna. Semakin besar nilai χ2 , ketidaksesuaian antara hasil observasi dan nilai harapan juga semakin besar. A. PERHITUNGAN PRAKTIS Pada penghitungan praktis, kita akan menggunakan hipothesis awal (H0) dan hipothesis alternatif (Ha) untuk melakukan uji hipothesis. Untuk melakukan uji statistika, kita membandingkan nilai χ2 dari hasi perhitungan dan nilai χ2 dari tabel (disebut nilai kritis χ2 ). Nilai χ2 dari tabel diperoleh dengan menggunakan derajat kebebasan (degree of freedom, dilambangkan dengan dof atau v) dan derajat signifikansi (significance level, dilambangkan dengan A atau α). Secara grafis jika derajat bebas semakin besar maka grafik distribusi chi-kuadrat akan mendekati bentuk distribusi normal. Contoh 1: Pelemparan Dadu Sebuah dadu dilempar 120 kali dan hasilnya disajikan pada tabel di bawah ( sisi angka 1 diperoleh 13 kali, sisi 2 diperoleh 28 kali, dan seterusnya). Jika dadu tersebut dipandang ideal, maka:

(a) Tentukan nilai χ2 (b) Apabila digunakan derajat signifikan 5% apakah hasil tersebut menunjukkan

bahwa dadu itu tidak ideal?

Page 2: Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI …te.ugm.ac.id/~wibirama/tku115/week09/10_chi_square_modul.pdf · Pembahasan Contoh 3: ... kuadrat untuk α = 5% dan v = 1 maka nilai

Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)

2

Sisi Hasil Observasi (o) Frekuensi Harapan (e) 1 13 20 2 28 20 3 16 20 4 10 20 5 32 20 6 21 20

Jumlah 120 120 Pembahasan Contoh 1: H0 : dadu tersebut ideal Ha : dadu tersebut tidak ideal Untuk melakukan perhitungan, kita perlu melengkapi tabel di atas, sehingga memudahkan perhitungan kita sebagai berikut:

Sisi o e o - e (o-e)2

e

eo 2)( −

1 13 20 -7 49 2,45 2 28 20 8 64 3,20 3 16 20 -4 16 0,80 4 10 20 -10 100 5,00 5 32 20 12 144 7,20 6 21 20 1 1 0,05

Jumlah 120 120 0 18,70 Hasil nilai chi-kuadrat yaitu pada penjumlahan di kolom terakhir sebesar χχχχ2 = 18,70 Dalam contoh tersebut maka derajat bebas yaitu 6 – 1 = 5 ( angka 6 berasal dari adanya 6 sisi dadu kemudian dikurangi 1) dan derajat signifikan 5%. Dari tabel distribusi chi-kuadrat didapat nilai kritis χ2 = 11,07. Kesimpulan: Dari hasil perhitungan, nilai χ2 hasil hitungan lebih besar dari nilai kritis (18,70 > 11,07), hipothesis atau anggapan bahwa dadu tersebut ideal kita tolak karena ada beda cukup signifikan antara hasil observasi dengan nilai harapan.

Page 3: Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI …te.ugm.ac.id/~wibirama/tku115/week09/10_chi_square_modul.pdf · Pembahasan Contoh 3: ... kuadrat untuk α = 5% dan v = 1 maka nilai

Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)

3

Contoh 2: Aplikasi Genetika Misalkan kita menyilangkan dua kedelai, yaitu kedelai kuning dan kedelai hijau, dan berdasarkan teori Mendel maka akan ada empat tipe kedelai A, B, C dan D dengan perbandingan 9:3:3:1. Dari percobaan didapat kedelai A sebanyak 102, kedelai B sebanyak 30, kedelai C sebanyak 42 dan kedelai D sebanyak 15. Apakah hasil percobaan tersebut sesuai dengan teori untuk derajat signifikan 5% ? Pembahasan Contoh 2: H0 : hasil percobaan sesuai dengan teori Mendel Ha : hasil percobaan tidak sesuai dengan teori Mendel

Kedelai o e o - e (o-e)2

e

eo 2)( −

A 102 106,3 - 4,3 18,49 0,17 B 30 35,4 - 5,4 29,16 0,82 C 42 35,4 6,6 43,56 1,23 D 15 11,8 3,2 10,24 0,87

Jumlah 189 188,9 3,09 Karena jumlah total kedelai hasil percobaan ini ada 189, maka kita harus menentukan nilai harapan yang disesuaikan dengan teori atau hipotesis perbandingan 9:3:3:1, yaitu kedelai A seharusnya ada (9/16) dari 189, atau 106,3 dan demikian seterusnya untuk kedelai B, C, dan D. Dari hitungan tersebut maka nilai χ2 = 3,09, dan kalau kita melihat tabel distribusi chi-kuadrat untuk derajat bebas v =3 (v = 4 - 1) dan derajat signifikan α = 5% , nilai kritis χ2 = 7,82. Kesimpulan: Dari hasil perhitungan, χ2 hasil observasi lebih kecil dari nilai kritis χ2 , anggapan atau hipothesis bahwa hasil percobaan sesuai dengan teori Mendel kita terima karena tidak ada beda signifikan antara observasi dan harapan B. PENGGUNAAN TABEL KONTINGENSI Tabel kontingensi adalah suatu susunan himpunan angka atau obyek yang diklasifikasikan berdasar dua kriteria, satu kriteria dinyatakan dalam baris dan kriteria lain dalam kolom. Pada tabel kontingensi biasa dituliskan untuk baris yaitu j dan untuk kolom yaitu k, sehingga tabel kontingensi bersangkutan dinyatakan sebagai tabel j x k. Tujuan penggunaan tabel kontingensi adalah menentukan ada atau tidaknya hubungan antara dua kriteria yang kita uji (uji independensi).

Page 4: Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI …te.ugm.ac.id/~wibirama/tku115/week09/10_chi_square_modul.pdf · Pembahasan Contoh 3: ... kuadrat untuk α = 5% dan v = 1 maka nilai

Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)

4

Contoh 3: Aplikasi Facebook dan Twitter pada mahasiswa JTETI UGM Penelitian penggunaan media sosial Facebook dan Twitter di JTETI UGM mengambil sampel mahasiswa laki-laki dan perempuan, berturut-turut sejumlah 55 dan 34 orang. Dari hasil penelitian, diperoleh data sebagai berikut:

Facebook Twitter Jml Sampel Mahasiswa laki-laki 24 31 55

Mahasiswa perempuan 8 26 34 JUMLAH 32 57 89

Dari hasil penelitian tersebut, dapatkah kita katakan bahwa mahasiswa perempuan cenderung lebih menyukai Twitter daripada Facebook? Gunakan derajat signifikan sebesar 5%. Pembahasan Contoh 3: Apabila kita melihat secara sekilas antara jumlah sampel dan hasil penelitian, kita tentu akan mengatakan bahwa “perempuan cenderung tidak menyukai Facebook” atau “perempuan cenderung lebih menyukai Twitter daripada Facebook”. Hal ini tentu asumsi yang tidak berdasar karena kita tidak melandasinya dengan bukti empiris. Untuk menguji pernyataan di atas dan mengambil kesimpulan dengan benar, kita harus mengetahui independensi antara kriteria “jenis kelamin” dan “preferensi penggunaan FB dan Twitter”. Oleh karena itu, definisikan hipothesis awal dan alternatif sebagai berikut: H0 : jenis kelamin tidak berhubungan dengan preferensi penggunaan FB dan Twitter Ha : jenis kelamin berhubungan dengan preferensi penggunaan FB dan Twitter Disini kita harus menentukan dulu nilai frekuensi harapan untuk masing-masing elemen yang dianalisa dan beranggapan bahwa jumlah sampel mahasiswa laki-laki dan perempuan independen (tidak saling mempengaruhi satu sama lain). Untuk menghitung frekuensi harapan konsumen FB laki-laki (dilambangkan dengan X), kita gunakan perbandingan, yakni :

Frek.harapan konsumen FB laki-laki : Jumlah sampel mahasiswa laki-laki = Jumlah konsumen FB : Jumlah seluruh sampel

Atau dengan kata lain: X : 55 = 32 : 89

Page 5: Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI …te.ugm.ac.id/~wibirama/tku115/week09/10_chi_square_modul.pdf · Pembahasan Contoh 3: ... kuadrat untuk α = 5% dan v = 1 maka nilai

Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)

5

Maka didapat X = 19,8 , sehingga frekuensi harapan konsumen Twitter laki-laki didapat dengan 55 – 19,8 = 35,2 . Demikian seterusnya digunakan cara yang sama untuk menghitung frekuensi harapan konsumen FB dan Twitter perempuan. Data hitungan dapat kita rangkum dalam tabel berikut:

Data o e o - e (o-e)2

e

eo 2)( −

Konsumen FB laki-laki 24 19,8 4,2 17,64 0,89 Konsumen Twitter laki-laki 31 35,2 -4,2 17,64 0,50 Konsumen FB perempuan 8 12,2 -4,2 17,64 1,45

Konsumen Twitter perempuan 26 21,8 4,2 17,64 0,81 89 89,0 3,65

Secara umum maka untuk tabel kontingensi j x k maka derajat bebasnya yaitu v = (j-1) (k-1). Untuk tabel kontingensi 2 x 2 maka derajat bebasnya yaitu 1, dan dari tabel chi-kuadrat untuk α = 5% dan v = 1 maka nilai kritis χ2 = 3,84. Kesimpulan: Dari hasil perhitungan, χ2 hasil observasi lebih kecil dari nilai kritis χ2 , sehingga tidak ada beda signifikan antara hasil percobaan dan harapan. Maka, anggapan bahwa mahasiswa perempuan cenderung lebih menyukai Twitter daripada Facebook tidak dapat kita terima karena jenis kelamin tidak ada hubungannya dengan preferensi pemilihan media jejaring sosial (atau jenis kelamin independen terhadap preferensi pemilihan media jejaring sosial). Catatan: Apabila nilai χ2 dari tabel kontingensi memberikan hasil yang signifikan (bila dibandingkan dengan nilai kritis χ2 ), hal tersebut mengindikasikan bahwa dua kriteria yang kita uji berhubungan (tidak independen). Namun demikian, hal tersebut tidak selalu mengindikasikan adanya hubungan sebab akibat (causal relationship) antara dua kriteria yang kita uji. Sebagai contoh, meskipun sebuah tabel kontingensi yang mengelompokkan sejumlah besar perokok di daerah A dan insiden terjadinya kanker paru-paru menghasilkan nilai χ2

yang cukup signifikan, bukan berarti kita bisa menyimpulkan bahwa “merokok menjadi penyebab meningkatnya insiden kanker paru-paru di daerah A”. Hubungan antara merokok dan kanker paru-paru bisa saja terjadi karena sebuah hal yang mendorong seseorang untuk merokok dan di saat bersamaan juga menjadi penyebab terjadinya kanker paru-paru. Kesalahan dalam pengambilan keputusan disebabkan karena asumsi yang keliru, seperti “apabila dua buah kriteria berhubungan, maka kriteria yang satu menjadi penyebab munculnya kriteria yang lain”.

Page 6: Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI …te.ugm.ac.id/~wibirama/tku115/week09/10_chi_square_modul.pdf · Pembahasan Contoh 3: ... kuadrat untuk α = 5% dan v = 1 maka nilai

Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)

6

C. TABEL KONTINGENSI TAK SIMETRIS Untuk tabel kontingensi 2 x2 maka nilai o – e akan sama, tetapi untuk tabel j x k dimana kriteria baris dan kolom tidak sama maka akan memberi hasil lain. Mengapa derajat bebas untuk tabel 2 x 2 ditentukan nilai 1, maka kita lihat bentuk umum berikut:

Total a b A c d N - A

Total B N - B N Untuk frekuensi observasi a, b, c, d maka kita memiliki hubungan sebagai berikut:

a + b = A (1) c + d = N – A (2) a + c = B (3)

b + d = N – B (4) empat persaman tersebut satu sama lain tidak independen, persaman (4) diperoleh dengan mengurangkan persamaan (3) dari hasil penjumlahan persamaan (1) dan (2) sehinga hanya ada tiga hubungan independen. Karena derajat bebas adalah banyaknya variat (data) dikurangi banyaknya hubungan independen yang ada, sehingga v = 4 – 3 = 1. Namun demikian, secara umum untuk tabel kontingensi j x k maka derajat bebasnya adalah v = (j-1) (k-1). Contoh 4 : Penjualan PC dan Laptop Sebuah perusahaan komputer di Amerika Serikat ingin menyelidiki hubungan antara bulan penjualan dengan tipe komputer (PC dan laptop) yang terjual di dunia. Dari hasil laporan divisi marketing, diperoleh data penjualan PC dan laptop untuk tahun 2010 (dalam juta buah) sebagai berikut:

Summer Autumn Winter Spring Total PC 29 19 12 18 78 Laptop 13 17 20 20 70 Total 42 36 32 38 148

Kesimpulan apa yang dapat Anda ambil dari data tersebut? Untuk melakukan pengujian, gunakan derajat signifikan 5%. Pembahasan Contoh 4: Ini merupakan tabel kontingensi 2 x 4, kita akan menguji hipotesis bahwa dua kriteria klasifikasi tersebut independen. Sebelum memulai, kita mendefinisikan secara formal hipothesis awal dan hipothesis alternatif, yakni: H0 : jenis komputer tidak berhubungan dengan musim atau bulan penjualan Ha : jenis komputer berhubungan dengan musim atau bulan penjualan

Page 7: Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI …te.ugm.ac.id/~wibirama/tku115/week09/10_chi_square_modul.pdf · Pembahasan Contoh 3: ... kuadrat untuk α = 5% dan v = 1 maka nilai

Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)

7

Kemudian, kita harus menentukan frekuensi harapan yaitu: x : 78 = 42 : 148 diperoleh x = 22,1 y : 78 = 36 : 148 diperoleh y = 19,0. z : 78 = 32 : 148 diperoleh z = 16,9 demikian seterusnya.

Hasilnya kita susun dalam tabulasi berikut:

o e o - e (o-e)2

e

eo 2)( −

29 22,1 6,9 47,61 2,15 19 19,0 0,0 0,00 0,00 12 16,9 -4,9 24,01 1,42 18 20,0 -2,0 4,00 0,20 13 19,9 -6,9 47,61 2,39 17 17,0 0,0 0,00 0,00 20 15,1 4,9 24,01 1,59 20 18,0 2,0 4,00 0,22

7,97 Karena tabel 2 x 4 maka derajat bebasnya yaitu v = 1.3 = 3, dan jika dicari dari tabel distribusi chi-kuadrat untuk v= 3 dan = 5% kita memperoleh nilai kritis χ2 = 7,82. Dari hasil perhitungan, dapat disimpulkan bahwa hasilnya signifikan (7,97 > 7,82) Kita dapat pula menguji ulang dengan menggabungkan kedua data tersebut, menjadi data per semester dan disajikan berikut:

Summer and Autumn Winter and Spring PC 48 30 Laptop 30 40

Dimana hasil hitungannya χ2 = 5,18 dan ini jauh lebih besar dibandingkan dengan dari tabel χ2 = 3,84 sehingga hasil lebih signifikan. Kesimpulan: Dari hasil perhitungan, dapat kita lihat bahwa χ2 hasil observasi lebih besar dari nilai kritis χ2 , sehingga ada beda signifikan antara hasil percobaan dan harapan. Kita bisa menyimpulkan bahwa tipe komputer yang terjual cenderung berhubungan dengan bulan penjualan komputer. Referensi: (1) Alder, H.L. & Roessler, E.B., “Chapter 13: Chi-Square Distribution”, Introduction to Probability and

Statistics, W.H. Freeman and Company, p.227-240 (2) Spiegel, M.R. & Stephens, L.,J., “Chapter 12: The Chi-Square Test”, Schaum’s Outlines of Theory

and Problems of Statistics 4th Edition, Mc.Graw Hill, p. 294-299