Analisa Data Statistik Chap 11: Regresi Linear

of 49 /49
Analisa Data Statistik Chap 11: Regresi Linear Agoes Soehianie, Ph.D

Embed Size (px)

description

Analisa Data Statistik Chap 11: Regresi Linear. Agoes Soehianie, Ph.D. Model Regresi Linear. - PowerPoint PPT Presentation

Transcript of Analisa Data Statistik Chap 11: Regresi Linear

  • Analisa Data StatistikChap 11: Regresi LinearAgoes Soehianie, Ph.D

  • Model Regresi LinearVariabel Y merupakan respons dari variabel independen x dengan hubungan Y = + X + . Dengan dan adalah titik poting dengan sumbu Y dan gradien yg belum diketahui, sedangkan adalah variabel random dengan sifat nilai rata-rata =0, dan variansi = 2.

    Dari sampel data diperoleh set data {xi,yi} ingin diperoleh model garis lurus terbaik y= a + b x, yaitu dengan mendapatkan a sebagai estimator dan di estimasi oleh b.

    Variable independen X dipilih yg error dalam pengukurannya kecil atau dapat diabaikan dibandingkan Y.

  • Garis Lurus Terbaik Metoda Least SquaresGaris lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (Sum Squares of Errors)XXXkYkekGaris lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)

  • Garis Lurus Terbaik Metoda Least SquaresUntuk mendapatkan koefisien a dan b yg terbaik, maka dicari a dan b yg meminimumkan SSE, yaitu dengan menghitung turunan SSE thd a dan b:Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Yang akan memberikan dua buah persamaan linear bagi a dan b:

  • Garis Lurus Terbaik Metoda Least SquaresDalam notasi matrix sistem pers. Linear tsb dapat dituliskan:Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Solusi bagi sistem pers. Linear tsb dapat diperoleh dengan berbagai cara antara lain cara Cramers:

  • Garis Lurus Terbaik Metoda Least SquaresSolusi bagi a dan b (metoda Cramers):Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Atau :

  • Garis Lurus Terbaik Metoda Least SquaresPenyederhanaan bisa dilakukan mengingat 1=N, sehingga:Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Untuk keperluan perhitungan, formula di atas dapat dituliskan sbb:Dengan

  • NotasiGaris lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Sehingga rumus regresi linear dapat dituliskan sbb:Untuk keperluan penulisan diperkenalkan notasi berikut:

  • ContohGaris lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)SXX = 1554.9SYY= 3117.5 SXY=2168.5 xs= 293/6=48.8ys=1713/6=285.5b = SXY/SXX = 1.3947a= ys-bxs= 285.5-1.3947*48.8=217.39

  • Contoh : GrafikGaris lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)

    Chart1

    250255.0494158002

    285280.1537142245

    320317.8101618609

    295298.2845964198

    265260.6281487834

    298301.0739629114

    "Data"

    Teori

    X

    Y

    Regresi Linear

    Sheet1

    1.5625

    O202217181924

    E202020202020

    (O-E)^2/E00.20.450.20.050.8

    1.7

    Tingkat Pendapatan

    RendahMediumTinggiTotal Row

    Setuju182213203598

    Tidak154138110402

    Total Col3363513131000

    Tingkat Pendapatan

    RendahMediumTinggiTotal Row

    Setuju200.9209.9187.2598

    Tidak135.1141.1125.8402

    Total Col3363513131000

    Tingkat Pendapatan

    RendahMediumTinggiTotal Row

    Setuju200.9209.9187.2598

    Tidak135.1141.1125.8402

    Total Col3363513131000

    1.78307246380.04584323811.3381253593

    2.65243117740.06819466771.9905446887

    7.878211595

    ShiftPagiSiangMalamTotal

    Cacat455570170

    Baik9058908702665

    Total9509459402835

    ShiftPagiSiangMalamTotal

    Cacat57.056.756.4170

    Baik893.0888.3883.62665

    Total9509459402835

    ShiftPagiSiangMalam

    Cacat2.510.053.30

    Baik0.160.000.21

    6.23

    Sheet2

    XYXs=X-XrYs=Y-YrXs^2Xs*YsYteori

    27250-21.8-35.5476.7775.1255.0

    45285-3.8-0.514.71.9280.2

    7232023.234.5536.7799.3317.8

    582959.29.584.087.1298.3

    31265-17.8-20.5318.0365.6260.6

    6029811.212.5124.7139.6301.1

    2931713001554.82168.5

    Rata-rata48.8285.5

    b=1.3946832458

    a=217.3929681638

    Sheet2

    "Data"

    Teori

    X

    Y

    Regresi Linear

    Sheet3

  • Memahami Estimator Rata-Rata dan VariansiGaris lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Dengan suku error i diasumsikan adalah variabel random dengan rata-rata 0, dan varian konstan 2 yang tak bergantung pada nilai xi dipakai. Sedangkan nilai dan adalah nilai parameter regresi yg sesungguhnya di populasi.Jadi koefisien a dan b yg diperoleh dari satu set data percobaan hanyalah salah satu kemungkinan nilai yg mungkin saja. Kita sebut estimator bagi adalah A dan bagi adalah B. Dengan A dan B untuk satu set nilai {xi} yg sama bila diulang-ulang akan menghasilkan nilai (a,b) yg berbeda.Karena nilai {xi} sama, maka variansi dari A dan B hanya ditentukan dari variansi variabel yi.Sebenarnya model linear yg benar menggambarkan hubungan linear x dan y di populasi adalah:

  • Memahami Estimator Rata-Rata dan VariansiGaris lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Ingat 2 adalah variansi suku error.Bisa dibuktikan bahwa A dan B adalah unbiased estimator bagi dan . Maksudnya:

    Tentu saja asumsi distribusinya adalah bahwa rata-ratanya mencerminkan nilai parameter populasi yg sesungguhnya:

  • Partisi Variabilitas Total dan Estimator Variansi Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Dapat dibuktikan SSE (Sum Squares of Errors) bisa dituliskan sebagai:Tetapi b= SXY/SXX sehingga:

  • Partisi Variabilitas Total dan Estimator Variansi Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Sedangkan variansi dari Y, yaitu 2 , diwakili oleh unbiased estimator S2 yg besarnya adalah:

    Besaran S2 ini disebut Mean Squared Errors, Sedangkan S juga disebut Standard Error Estimates bagi Y.

  • Inference Statistik ttg Slope Regresi ()Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Estimator bagi slope regresi adalah B, sedangkan variabel statistik yg terkait dengan distribusi B adalah :Variabel t memiliki distribusi student-t dengan derajat kebebasan v=n-2.Dengan ini dapat dicari interval kepercayaan bagi slope () dan juga dilakukan testing hipotesis terhadap slope tsb.

  • Contoh: Interval Kepercayaan Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)Dari contoh sebelumnya tentukan interval kepercayaan 95% bagi slope ().

    Jawab:

    Interval kepercayaan 100(1-)% diberikan oleh

    Jumlah data n=6, sehingga v=n-2 = 4. Interval kepercayaan 95% berarti = 5%. Dari tabel student-t diperoleh nilai kritis t0.025 (v=4) adalah 2.776.

  • Contoh: Interval Kepercayaan Sehingga interval kepercayaan bagi slope adalah:Dari tabel tsb diperoleh:SXX = 1554.9SYY= 3117.5 SXY=2168.5 b = SXY/SXX = 1.3947Sehingga:interval kepercayaan 95% bagi slope adalah: 1.?? < < 1.??

  • Contoh: Hipotesis Testing untuk slope Tabel disamping memberikan hasil pengukuran BOD (Biological Oxygen Demand) Y% dan Solid Reduction X(%).Periksalah hipotesa H0: =1 dan H1:
  • Contoh: Hipotesis TestingJawab:Hipotesa H0: =1 dan H1:
  • Contoh: Hipotesis Testing4. PerhitunganBerdasarkan tabel data diperoleh koefisien regresi Y = a+ bX, a = 4.1390b=0.8895 SXX = 4093.47 SYY = 3566.88SXY = 3641.19S2 = (SYY-b SXY)/(n-2) = (3566.88-0.8895*3641.19)/(32-2)S = 3.3065

    5. KeputusanKarena t < -1.697 maka H0 ditolak6. Kesimpulan, cukup bukti untuk menolak bahwa slope = 1, dan menerima slope < 1

  • Estimasi bagi Titik Potong (a)Nilai titik potong a juga terdistribusi merata. Jika A adalah variabel random yg terkait, maka A akan terdistribusi normal, dengan nilai rata-rata A=, dan variansi:

    Parameter t sbb:

    Akan terdistribusi menurut student t dengan derajat kebebasan n-2. Dengan demikian interval kepercayaan maupun hipotesa testing yang terkait dengan dapat diformulasikan memakai rumus di atas.

  • Kualitas Fitting : Koefisien DeterminasiBesaran SST = total corrected sum of squares didefinisikan sbb:

    Sedangkan SSE

    Dan SSR (regression sum squares):

    R: koefisien determinasi , persentase dari variansi data yg bisa dijelaskan oleh regresi.

    SSE : variansi karena random error = unexplained variation

  • Kualitas Fitting : Koefisien DeterminasiJika seluruh variansi bisa dijelaskan oleh regresi maka SSE=0, sehingga R=1. Sebaliknya jika regresi hanya bisa menjelaskan sedikit sekali maka R~ 0.

    Berapakah nilai R yang bisa dikatakan bagus? Sulit! Tergantung keperluan dan bidang dimana statistik ini dipakai.

    Dalam modelling menambahkan variabel bebas akan mempertinggi nilai R tentu saja, tapi tidak berarti modelnya lebih bagus.

  • Interval Kepercayaan Bagi YTujuan dilakukannya regresi adalah untuk membuat prediksi nilai variabel tak bebas Y bilamana diketahui sebuah nilai X tertentu. Nilai

    Memberikan nilai rata-rata prediksi bagi Y untuk x=x0. Diinginkan untuk mendapatkan interval kepercayaan bagi nilai Y prediksi tsb. Dapat dibuktikan bahwa distribusi rata-rata sampel Y0 = a+bx0 adalah normal dengan nilai rata-rata dan variansi :

    Sedangkan variabel statistik berikut ini terdistribusi student t dengan v=n-2

  • Interval Kepercayaan bagi YJadi untuk sebuah nilai X0 tertentu, kita dapat membuat interval kepercayaan bagi nilai rata-rata Y0 yg terkait, dengan interval kepercayaan (1-)100% yaitu diberikan oleh:

    Dengan dan

  • Interval Prediksi Y dari 1 Kali PengukuranNilai prediksi yg akan dimiliki oleh Y0 untuk satu kali pengukuran berikutnya di X0, akan memiliki rata-rata dan variansi:

    Variabel statistik berikut ini memiliki distribusi student t dengan derajat kebebasan v=n-2

  • Interval Prediksi Y dari 1 Kali PengukuranInterval kepercayaan bagi prediksi nilai yg akan dimiliki oleh Y0 untuk satu kali pengukuran berikutnya di X0, adalah:

  • ContohContoh.Data berikut ini memberikan hubungan antara frekuensi kunjungan Salesman fotocopy (X) dan jumlah mesin fotocopy terjual (Y).

    Buatlah interval kepercayaan 95% bagi rata-rata fotocopy terjual bagi salesman-salesman yg melakukan kunjungan sebanyak 25 kaliBilamana si Polan melakukan kunjungan 25 kali berapakah interval kepercayaan 95% bagi jumlah mesin fotocopy yg mampu dia jual?

  • SOlusiJawab.Hasil pengolahan data memberikan:

    SXX = 760SYY=1850SXY=900b = SXY/SXX = 900/760 = 1.1842a = Yrata-b*Xrata = 45 1.1842*22= 18.95S2 = (SYY-bSXY)/(n-2) = 98.03 S = 9.90

    Dari tabel student t untuk v=n-2=8, t0.025 = 2.306Sehingga untuk X=25, Y = a+bX = 18.95+1.1842*25 =48.55

  • SOlusiJawab (lanjutan).Hasil pengolahan data memberikan:a) Interval kepercayaan bagi rata-rata sales untuk frekuensi kunjungan X=25 adalah

    48.55 7.64 < Y < 48.55+ 7.6440.9 < Y < 56.2b) Interval prediksi bagi si Polan yg melakukan kunjungan X=25 kali:

  • SOlusiJawab (lanjutan).

    48.55 24.1 < Y < 48.55 + 24.124.5 < Y < 72.6

    Wajar bagi interval prediksi bagi 1 orang si Polan jauh lebih besar dibandingkan dengan interval kepercayaan bagi rata-rata sales untuk seluruh sales untuk jumlah kunjungan yg sama yaitu 25.

  • Grafik : Garis Regresi, CI dan Prediksi

    Chart2

    3030.789473684218.505604368743.07334299974.863392006756.7155553617

    4030.789473684218.505604368743.07334299974.863392006756.7155553617

    3042.631578947435.224127039550.039030855218.62869142266.6344664728

    4042.631578947435.224127039550.039030855218.62869142266.6344664728

    4042.631578947435.224127039550.039030855218.62869142266.6344664728

    5042.631578947435.224127039550.039030855218.62869142266.6344664728

    3042.631578947435.224127039550.039030855218.62869142266.6344664728

    6054.473684210544.674546412164.27282200929.628335201579.3190332196

    7054.473684210544.674546412164.27282200929.628335201579.3190332196

    6066.315789473749.752223467682.879355479738.109052962294.5225259851

    Data

    Teori

    CI-min

    CI-max

    Pred-min

    Pred-max

    X (kunjungan)

    Y(sales)

    Sales vs Frek Kunjungan

    Sheet1

    solid reduction (%)Oxygen demand (%)

    NoxyXe=(x-xs)^2Ye=(y-ys)^2Xe^2Ye^2Xe*YeYteori

    135-30.22-28.69913.17822.97866.906.8075745662

    2711-26.22-22.69687.42514.72594.8410.3656205388

    31121-22.22-12.69493.67160.97281.9013.9236665114

    41516-18.22-17.69331.92312.85322.2417.4817124841

    51816-15.22-17.69231.61312.85269.1820.1502469635

    62728-6.22-5.6938.6732.3535.3728.1558504019

    72927-4.22-6.6917.8044.7228.2129.9348733882

    83025-3.22-8.6910.3675.4727.9630.8243848814

    93035-3.221.3110.361.72-4.2230.8243848814

    103130-2.22-3.694.9213.608.1831.7138963746

    113140-2.226.314.9239.85-14.0131.7138963746

    123232-1.22-1.691.492.852.0632.6034078677

    133334-0.220.310.050.10-0.0733.4929193609

    143332-0.22-1.690.052.850.3733.4929193609

    1534340.780.310.610.100.2434.382430854

    1636372.783.317.7410.979.2136.1614538403

    1736382.784.317.7418.6011.9936.1614538403

    1836342.780.317.740.100.8736.1614538403

    1937363.782.3114.305.358.7437.0509653335

    2038384.784.3122.8618.6020.6237.9404768267

    2139375.783.3133.4210.9719.1538.8299883198

    2239365.782.3133.425.3513.3738.8299883198

    2339455.7811.3133.42127.9765.4038.8299883198

    2440396.785.3145.9928.2236.0339.719499813

    2542418.787.3177.1153.4764.2141.4985227993

    2642408.786.3177.1139.8555.4341.4985227993

    2743449.7810.3195.67106.35100.8742.3880342924

    28443710.783.31116.2410.9735.7143.2775457856

    29454411.7810.31138.80106.35121.4944.1670572787

    30464612.7812.31163.36151.60157.3745.0565687719

    31474913.7815.31189.92234.47211.0345.9460802651

    32505116.7817.31281.61299.72290.5348.6146147445

    =========================================================

    Sum10631078004093.468753566.8753641.1875

    Average33.2187533.6875

    SXX=4093.47

    SYY=3566.88

    SXY=3641.19

    b=SXY/SXX0.8895114932

    a=4.1390400867

    S210.9332290005

    S3.3065433613

    -2.1379060773

    SUMMARY OUTPUT

    Regression Statistics

    Multiple R0.9529132343

    R Square0.908043632

    Adjusted R Square0.9049784198

    Standard Error3.3065433613

    Observations32

    ANOVA

    dfSSMSFSignificance F

    Regression13238.8781299863238.878129986296.24168028020

    Residual30327.99687001410.9332290005

    Total313566.875

    CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Lower 95.0%Upper 95.0%

    Intercept4.13904008671.81354843722.28228813840.02973256960.43528007777.84280009570.43528007777.8428000957

    X Variable 10.88951149320.051680711317.211672791500.78396540020.99505758610.78396540020.9950575861

    RESIDUAL OUTPUT

    ObservationPredicted YResiduals

    16.8075745662-1.8075745662

    210.36562053880.6343794612

    313.92366651147.0763334886

    417.4817124841-1.4817124841

    520.1502469635-4.1502469635

    628.1558504019-0.1558504019

    729.9348733882-2.9348733882

    830.8243848814-5.8243848814

    930.82438488144.1756151186

    1031.7138963746-1.7138963746

    1131.71389637468.2861036254

    1232.6034078677-0.6034078677

    1333.49291936090.5070806391

    1433.4929193609-1.4929193609

    1534.382430854-0.382430854

    1636.16145384030.8385461597

    1736.16145384031.8385461597

    1836.1614538403-2.1614538403

    1937.0509653335-1.0509653335

    2037.94047682670.0595231733

    2138.8299883198-1.8299883198

    2238.8299883198-2.8299883198

    2338.82998831986.1700116802

    2439.719499813-0.719499813

    2541.4985227993-0.4985227993

    2641.4985227993-1.4985227993

    2742.38803429241.6119657076

    2843.2775457856-6.2775457856

    2944.1670572787-0.1670572787

    3045.05656877190.9434312281

    3145.94608026513.0539197349

    3248.61461474452.3853852555

    Sheet1

    Data

    Teori

    X

    Y

    Oxygen Demand vs Solid Reduction

    Sheet2

    t0.0252.306

    NoXYXe=X-XsYe=Y-YsXe^2Ye^2Xe*YeYteorit*S*sqrtYrata-minYrata-maxt*S*sqrt+1Ypred-minYpred-maxNoXYXe=X-XsYe=Y-YsXe^2Ye^2Xe*YeYteorit*S*sqrtYrata-minYrata-maxt*S*sqrt+1Ypred-minYpred-max

    51030-12-1514422518030.7912.2818.5143.0725.934.8656.7251030-12-1514422518030.789473684212.283869315518.505604368743.073342999725.926081677524.845349009136.9631107972

    61040-12-5144256030.7912.2818.5143.0725.934.8656.7261040-12-5144256030.789473684212.283869315518.505604368743.073342999725.926081677528.206736511436.9631107972

    12030-2-1542253042.637.4135.2250.0424.0018.6366.6312030-2-1542253042.63157894747.407451907935.224127039550.039030855224.002887525424.845349009131.1201151587

    32040-2-54251042.637.4135.2250.0424.0018.6366.6332040-2-54251042.63157894747.407451907935.224127039550.039030855224.002887525428.206736511431.1201151587

    72040-2-54251042.637.4135.2250.0424.0018.6366.6372040-2-54251042.63157894747.407451907935.224127039550.039030855224.002887525428.206736511431.1201151587

    82050-25425-1042.637.4135.2250.0424.0018.6366.6382050-25425-1042.63157894747.407451907935.224127039550.039030855224.002887525433.333533585431.1201151587

    92030-2-1542253042.637.4135.2250.0424.0018.6366.6392030-2-1542253042.63157894747.407451907935.224127039550.039030855224.002887525424.845349009131.1201151587

    430608156422512054.479.8044.6764.2724.8529.6379.32430608156422512054.47368421059.799137798444.674546412164.27282200924.845349009139.544971834226.6050264912

    1030708256462520054.479.8044.6764.2724.8529.6379.321030708256462520054.47368421059.799137798444.674546412164.27282200924.845349009146.407553187726.6050264912

    24060181532422527066.3216.5649.7582.8828.2138.1194.5224060181532422527066.315789473716.56356600649.752223467682.879355479728.206736511439.544971834224.1737287385

    Sum220450007601850900

    Mean2245007618590

    SXX=760

    SYY=1850

    SXY=900

    b=SXY/SXX1.1842105263

    a=18.9473684211

    S2=98.0263157895

    S =9.9008239955

    v=n-28

    t0.025=2.306

    X=25

    sqrt=1.0544392373

    t*S*sqrt=24.0742187006

    Ypred48.5526315789

    Ymin24.4784128784

    Ymax72.6268502795

    Sheet2

    Data

    Teori

    CI-min

    CI-max

    Pred-min

    Pred-max

    X (kunjungan)

    Y(sales)

    Sales vs Frek Kunjungan

    Sheet3

  • Koefisien Determinasi (ulangan)Arti lebih jelas daripada r didapat dari r2 = R yang sering disebutkan sebagai koefisien determinasi sampel.

    Jadi R adalah:

    Dimana SST = SSR + SSE, dengan masing-masing adalahDI depan kita beri nama SST=SEE. SSR = Sum Squares of Residual atau regression sum squares, SSR mencerminkan bagian dari variasi data yg bisa dijelaskan oleh regresi.Sehingga R menyatakan porsi dari variasi SYY yg bisa dijelaskan dengan regresi Y thd X, atau porsi dari variabilitas variabel Y yg bisa dijelaskan oleh model regresi.

  • Hipotesis Testing untuk koefisien korelasiUntuk memeriksa kebenaran hipotesis H0: = 0 H1: 0yg berkenan dengan koefisien korelasi r, maka variabel statistik yg diuji adalahYg terdistribusi menurut student t dengan derajat kebebasan v=n-2.

  • ContohDalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah hipotesa H0: =0 dengan H1: 0 dengan tingkat signifikan 5%.Jawab:1. HipotesaH0: =0 dengan H1: 02. Tingkat signifikan = 0.05Daerah kritis : ini adalah tes 2 ekorVariabel statistik yg diuji adalah t:

    dengan n= 10, sehingganilai kritis t0.025(v=10-2=8) = 2.306Tolak H0 jika t > 2.306 atau t < -2.3064. Perhitungan, telah dihitung r=0.759

  • Contoh5. KeputusanKarena r > 3.297, maka H0 ditolak6. Kesimpulan

    Cukup bukti untuk menyatakan bahwa ada hubungan korelasi linear antara frekuensi kunjungan (X) dengan tingkat penjualan (Y)

  • Hipotesis Testing untuk koefisien korelasiSedangkan untuk kasus lebih umum untuk memeriksa kebenaran hipotesis H0: = 0

    yg berkenan dengan koefisien korelasi r, maka variabel statistik yg diuji adalahYg terdistribusi menurut distribusi normal

  • ContohDalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah hipotesa H0: =0.8 dengan H1:
  • Contoh5. KeputusanKarena Z> -1.645, maka H0 tidak bisa ditolak6. Kesimpulan

    Tidak cukup bukti untuk menyatakan bahwa < 0.8

  • ANOVA Pilihan Model RegresiSering analisa kualitas regresi dilakukan dengan metoda ANOVA (Analysis of Variance). Misal kita memiliki n data {xi,yi}. Telah ditunjukkan bahwa: SYY = SST = SSR + SSE atauSSR : mencerminkan variansi data yang bisa dijelaskan olehmodel.SSE : variansi di sekitar garis regresi

    Hipotesa yang akan di test:H0 : =0H1: 0

    Ini berarti : kita menyatakan bahwa variasi data Y hanya variasi random tidak bergantung X disekitar nilai Y= saja.

  • ANOVA Pilihan Model RegresiDengan H0 seperti ini dapat dibuktikan bahwa variabel-variabel berikut ini memiliki distribusi Chi-Squares (2) dengan derajat kebebasan yg terkait:VariabelDerajat Kebebasan

  • ANOVA Pilihan Model RegresiSelanjutnya variabel f berikut ini :Variabel f ini Akan memiliki distribusi F dengan derajat kebebasan pembilang=1 dan penyebut n-2.H0 akan ditolak bilamana fhitung ini > f (1,n-2).Jika H0 ditolak berarti jumlah variansi di Y yang bisa dijelaskan secara signifikan oleh model regresi yang dipilih.Telah dipakai:

  • ANOVA Perbandingan Dengan Test tSebelumnya statistik t berikut ini:Dipakai untuk memeriksa hipotesa:H0 : = 0H1 : 0

    Bilamana 0 =0 (kasus khusus) maka variabel t menjadi:Atau dengan b=SXY/SXX, maka distribusi t = f(1,v):

  • ANOVA Ringkasan SUmber VariansiANOVA untuk testing =0

  • ANALISA KORELASI - DefinisiAnalisa korelasi ini mempelajari hubungan atau asosiasi antara beberapa variabel. Bilamana regresi dilakukan hingga menyatakan hubungan eksplisit berupa persamaan matematika, maka pada analisa korelasi hanya diwujudkan pada kekuatan hubungan itu saja yg dinyatakan oleh koefisien korelasi.Koefisien korelasi (r) : ukuran kekuatan asosiasi linear antara dua variabel.Nilai r terbatas anstara -1 sd 1. Nilai r=1 atau -1 menyatakan hubungan korelasi sempurna antara X dan Y.

  • ANALISA KORELASI - DefinisiAPakah nilai korelasi 0.8 bagus atau tidak, tidak ada ukuran absolut. Tergantung pada kasusnya. Untuk ilmu sosial atau ekonomi dimana banyak sekali variabel yg berpengaruh, nilai tsb sudah bagus sekali menyatakan hubungan korelasi yg kuat. Akan tetapi di bidang engineering, dimana variabel bisa dikontrol sangat ketat sekali, nilai r=0.9 mungkin baru dipandang cukup bagus.

    Hal lain adalah kita tidak boleh menyatakan r=0.6 adalah 2x lebih bagus dibandingkan r=0.3

    Chart1

    1818

    1212

    66

    00

    -6-6

    -12-12

    -18-18

    -24-24

    y

    y

    X

    Y

    Korelasi (r=-1)

    Sheet1

    xy

    -518

    -312

    -16

    10

    3-6

    5-12

    7-18

    9-24

    Sheet1

    y

    y

    X

    Y

    Korelasi (r=-1)

    Sheet2

    y

    X

    Y

    Korelasi (r=1)

    Sheet3

  • ContohKita pakai contoh sebelumnya, tentang hubungan antara sales mesin fotocopy (Y) dan frekuensi kunjungan (X)

  • ContohDari perhitungan manual tsb diperoleh:SXX = 760SYY = 1850SXY = 900Sehingga koefisien korelasinya., r

  • ContohApa artinya r=0.7590?Nilainya positif, jadi ada hubungan langsung kenaikan frekuensi kunjungan (X) akan menaikkan juga volume sales (Y).Karena 0.759 lumayan dekat ke nilai 1 jadi agaknya memang hubungan antara frekuensi kunjungan dengan kenaikan sales cukup kuat.