Saturday, October 5, 2019

Analisis Regresi Dengan Variabel Kategorik


BAB II
PEMBAHASAN

A.    Analisis Regresi Dengan Variabel Kategorik
Variabel kategorik dapat digunakan pada variabel dependen maupun variabel independen. Apabila variabel kategorik digunakan di dalam variabel independen (baik sama-sama dengan variabel numerik lainnya maupun tanpa disertai variabel numerik lain) masih dapat digunakan dengan regresi OLS. Namun, apabila yang menggunakan data kategorik adalah variabel dependen, maka analisis regresinya tidak dapat menggunakan regresi dengan OLS.
Tabel 2.1 Data
Rumah Tangga
Y
X
1
1
15
2
0
2,5
3
1
9
4
0
10,25
5
0
4,3
6
0
3,75
7
1
12
8
1
11
9
1
13,25
10
0
2,3
11
1
5
12
0
6,3
13
1
7
14
1
9,9
15
1
9,3
16
0
2,8
17
0
8
18
0
8,2
19
1
10,2
20
0
8,1
21
0
3
22
1
9,5
23
0
3,2
24
0
4,1
25
0
4,5
26
0
3,25
27
1
14
28
0
4,9
29
1
10,35
30
0
4,8

Y = 1 Jika mempunyai rumah, 0 = Tidak ada rumah
X= Pendapatan (dalam jutaan rumah)
Analisis regresi yang menggunakan data kategorik untuk variabel dependen ada beberapa jenis, yaitu : model probabilitas linier, model logit, model probit, dan model tobit.
Sebagai contoh, kita akan menggunakan survei terhadap 30 pegawai terhadap kepemilikan rumah (diwakili variabel Y). Bila dia memiliki rumah dinyatakan 1, bila tidak dinyatakan 0.
1.      Model Probabilitas linier
Model probabilitas linier (linier probability model, sering disebut LPM) digunakan untuk menganalisis variabel dependen yang bersifat kategorik dan variabel independen yang bersifat nonkategorik. Misalnya kita ingin mengetahui kemungkinan seseorang memiliki rumah (diwakili oleh variabel Yi) berdasarkan pendapatannya perbulan. Persamaannya adalah:
Yi =
Dimana :
Y         = 1 Jika mempunyai rumah
= 0  Tidak mempunyai rumah
X         = Pendapatan (dalam jutaan rumah)
e          = Variabel-variabel gangguan yang bersifat skokastik dengan E(e) = 0
Model tersebut sekilas seperti model regresi linier, namun karena variabel respons Y-nya bersifat dikotomis atau biner, dan hubungan antara tingkat kemiskinan dengan probabilitas kepemilikan mobil bersifat linier (semakin tinggi pendapatan suatu keluarga, semakin besar probabilitas sebuah keluarga memiliki rumah), maka model diatas disebut model probabilitas linier.
Tujuan estimasi model adalah untuk mencari nilai perkiraan Y atau E (Yi=1|Xi). Dalam model LPM, nilai harapan tersebut di interpretasikan sebagai probabilitas bersyarat, yaitu kejadian yang akan terjadi dengan syarat Xi, yaitu Pr((Yi=1|Xi). Dalam hal ini, E(Yi|Xi) adalah probabilitas sebuah keluarga untuk memiliki rumah dengan syarat pendapatan sebesar Xi. Persamaannya sebagai berikut :
E(Yi | Xi) =
Jika Pi = probabilitas untuk Yi =1, yaitu keluarga mempunyai rumahl, dan 1- Pi = probabilitas untuk Yi = 0, yaitu keluarga tidak mempunyai rumah, maka Yi dikatakan mengikuti distribusi Bernoulli.
Model LPM ini memiliki karakteristik yang mirip dengan model regresi linier, sehingga metode OLS dapat digunakan pada model LPM ini. Model ini banyak digunakan karena mudah. Namun model ini memiliki kelemahan, diantaranya adalah :
a.       Residual (ei) tidak berdistribusi normal, karena mengikuti distribusi binomial (distribusi bernoulli). Sebenarnya kelemahan ini tidak begitu bermasalah, karena akan menghasilkan estimator yang BLUE. Apabila datanya semakin banyak, distribusinya juga akan mendekati distribusil normal.
b.      Varian residual mudah bersifat heteroskedastis, karena ei berdistribusi binominal. Apabila variab residual bersifat heterokedastis, maka estimatornya tidak lagi bersifat BLUE. Untuk menghilangkan masalah ini, dapat diterapkan analisis regresi dengan metode WLS (weighted least square)
c.       Nilai prediksi Yi tidak selalu terletak diantara 0 dan 1 seperti pada datanya. Untuk mengatasi ini, diperlukan model analisis baru, yaitu logit dan probit
d.      Nilai koefisien determinasi (R2) tidak lagi mampu menjelaskan kesesuaian garis regresi dengan datanya.
Sebagai contoh, Kita analisis data di atas dengan persamaan linier, model regresi metode OLS, dengan menuliskan persamaan y c x pada isian persamaan caranya :
Klik > Quick > Estimate Equation, dan akan muncul tampilan sebagai berikut:



Gambar 2.1 Mengisikan Persamaan Regresi








                                                                                                                      



Kemudian tulis persamaan y c x kemudian klik > OK dan akan muncul tampilan sebagai berikut:
Gambar 2.2 Hasil Regresi Linier










Didapatkan hasil regresi data seperti diatas, kemudian dapat dihitung dan di interpretasikan.
Yi =      –0.303 + 0.100 Xi
t           (-2.157)    (5.851)
R2 = 0.550       F = 34.240       d = 2.198
Probabilitas seseorang dengan pendapatan 10.000.000 untuk memiliki rumah dapat dihitung sebagai berikut :
Yi = -0.303 + 0.100 (10) = 0,697 atau 69,7 %
Interpretasi : Apabila orang tersebut pendapatannya 10.000.000 per bulan, maka akan naik menjadi 0,697 atau sebesar 69,75%. (cobalah ganti angka 10 di atas dengan angka lain antara 1 dan 15)..
2.      Weight Least-Squares (WLS)
Model LPM juga tidak dapat terhindari dari masalah heteroskedastisitas. Untuk menghidari masalah heteroskedastisitas ini maka dapat diatasi dengan metode WLS atau Weight Least-Squares. Namun dalam penelitian ini hasil menyatakan bahwa model yang digunakan tidak terdapat masalah heterokedastisitas yang dapat diketahui dari uji heteroskedastisitas :
(View > Residual Diagnitics > Heteroskedasticity Test > Breusch-Pagan-Godfrey)
Gambar 2.3 Uji Heteroskedastisitas















Heteroskedasticity Test: Breusch-Pagan-Godfrey










F-statistic
0.419767
    Prob. F(1,28)
0.5223
Obs*R-squared
0.443108
    Prob. Chi-Square(1)
0.5056
Scaled explained SS
0.398502
    Prob. Chi-Square(1)
0.5279











Hasil yang di dapat adalah seperti data diatas  dimana probabilitas Chi-squarenya lebih dari 0,05 (0,5056 > 0,05), maka data tersebut bisa dikatakan lolos uji heteroskedastisitas.
3.      LOGIT
Model logit (logistic regression) adalah model regresi yang digunakan untuk menganalisis variabel dependen dengan kemungkinan di antara 0 dan 1. Model ini memperbaiki kelemahan analisis regresi model LPM. Model logit diterapkan pada dua kondisi yang berbeda adalah: (1). Data individual (atau level mikro) dan (2) Data kelompok atau replikasi.
Dalam model LPM kita mengasumsikan bahwa Pr(Yi = 1| Xi) menaik secara linier terhadap X. Misalnya batas minimal pendapatan keluarga untuk bisa memiliki rumah adalah 10.000.000 juta perbulan. Dalam model LPM ini berarti jika tingkat pendapatan keluarga mengalami kenaikan pendapatan 1.000.000 juta perbulan maka probabilitasnya terus mengalami kenaikn dalam jumlah yang sama. Padahal dalam realitasnya, jika pendapatan keluarga terus naik maka probabilitasnya juga semakin besar dan jika sudah di atas pendapatan minimal kenaikan pendapatan tidak banyak mempengaruhi probabilitas untuk memiliki rumah. Probabilitas seperti ini jelas tidak sesuai dengan fakta. Yang kita butuhkan adalah sebuah model probabilitas yang mampu menjamin nilai probabilitasnya terletak antara 0 dan 1. Model Cumulative Distribution Function (CDF) adalah sebuah model yang mampu menjamin bahwa nilainya terletak antara 0 dan 1 sehingga dapat membuat model regresi dimana respon dari variabel dependen bersifat dikotomis yakni 0 dan 1 terpenuhi. Ada dua model yang memenuhi kriteria dari CDF yaitu model Logit dan Probit. Model Logit berkaitan dengan fungsi probabilitas distribusi logistik (logistic distribution function). Sementara model probit berkaitan dengan fungsi probabilitas distribusi normal (normal distribution function).
Dalam hal ini model logit terlebih dahulu akan dibahas. Model logit ini bisa dijelaskan dengan mengambil  ke kasus keputusan seseorang dalam membeli rumah sebelumnya. Dimana variabel dependen yaitu kepemilikan rumah tergantung dari tingkat pendapatan seseorang sebagai variabel independen. Model fungsi probabilitas logistik kumulatif dapat ditulis yaitu :
Pi = F(Zi) =
Dimana :
e          = logaritma natural
Pi           = probabilitas seseorang membeli rumah pada tingkat pendapatan (X) tertentu (nilai Pi terletak diantara 0 dan 1 )
Model fungsi probabiltas kepemilikan rumah (Pi) berdasarkan tingkat pendapatan dapat dirumuskan :
Pi = E (Y = 1 | Xi) =
X adalah pendapatan dan Y = 1 adalah yang memiliki rumah. Apabila persamaan diatas diubah maka menjadi :
Pi = E (Y = 1 | Xi) =
Dengan Z = , maka persamaan diatas dapat disederhanakan menjadi persamaan :
Pi  =  =
Persamaan diatas disebut fungsi distribusi kumulatif logistik atau model logit. Seandainya Pi adalah probabilitas sebuah keluarga mempunyai rumah, maka 1 – Pi adalah probabilitas sebuah keluarga tidak memiliki rumah, yang dapat dituliskan seperti dalam persamaan berikut :
1 – P =

Kemudian dapat pula dituliskan:
 =  =
            Persamaan diatas dapat diartikan sebagai rasio perbedaan (odds ratio), artinya rasio probabilitasnya mempunyai rumah dan tidak. Jika persamaan diatas dikalikan dengan nilai logaritma natural (ln) hasilnya adalah sebagai berikut :
Li = Ln  =
            L adalah nilai log bagi rasio perbedaannya, yang tidak hanya linier pada X, namun juga linier pada parameter, L disebut sebagai model Logit. Beberapa hal yang harus diperhatikan dari model logit adalah sebagai berikut :
a.      Seperti halnya P yaiti bernilai antara 0 dan 1
b.      Walaupun L linier terhadap X, maka probabilitasnya sendiri tidak linier terhadap X
c.      Jika nilai L nya positif, ketika nilai X meningkat, nilainya akan naik satu satuan. Kondisi sebaliknya berlaku untuk nilai L negatif

Langkah-langkah untuk menganalisis dengan eviews adalah sebagai berikut :
Pastikan data sudah diinput dan dimasukkan kedalam eviews. Lalu klik Quick > Estimate Equation > Lalu iskan pada tabel  isian persamaann regresi y c x  > pilih metode Binary > pilih Logit > klik OK
Gambar 2.4 Uji Model Logit










Gambar 2.5 Hasil Uji Model Logit











                        Hasil dari analisis diatas bila dituangkan dalam persamaan seperti berikut ini :
Li = Ln =
                                                                             = - 5.866 + 0.732 X
                                                Z                               (-2.847)  (2.952)
                                                R2McFadden               = 0.511
            Nilai statistik t tidak berlaku dalam model logit karena probabilitas yang berada di kisaran 0 dan 1. Sehingga gantinya, digunakan nilai statistik z, yang karakteristiknya mirip dengan nilai statistik t. Pada hasil di atas, nilai z menunjukkan nilai mutlak sekitar 2,6 yang berarti signifikan. Sedangkan nilai koefisien determinasi (R2) yang digunakan adalah R2McFadden.  Nilai dari R2McFadden hasil data diatas sebesar 0.511 atau 51,1% lumayan tinggi.
            Hasil diatas juga dapat digunakan untuk melakukan prediksi. Misalnya saja seseorang dengan pengahsilan 5.000.000 juta, makan besar kemungkinan untuk memiliki rumah sebesar ?
                   Li = Ln        =
                                                            = - 5.866 + 0.732 (5)
                                                            = -5.866 + 3.66 = -2,206

                                                =  = 0,11
                             P =   = 0,1235 = 12,4%
            Berarti dapat disimpulkan orang tersebut kemungkinan untuk memiliki rumah adalah sebesar 12,4%.

4.      Probit
            Model probit merupakan pengembangan dari model logit. Istilah probit (singkatan dari probabilty unit) dikenalkan pada tahun 1930-an oleh chester  Bliss. Model probit menggunakan teori utilitas. Model ini juga sering disebut dengan model normit atau normal equivalent deviate disingkat ned. Model probit dikembangkan berdasarkan teori utilitas atau pemikiran pemilihan rasional yang dikembangkan oleh McFadden (1973).
            Apabila digunakan contoh kepemilikan rumah seperti pada pembahasan sebelumnya, dapat diasumsikan bahwa sebuah keluarga akan memilih untuk memiliki (atau tidak memiliki) rumah tergantung pada indeks utilitas I yang tidak terobeservasi (sehingga disebut dengan latents variable), yang dipengaruhi oleh satu atau lebih variabel independen, misalnya saja pendapatan Xi, semakin besar nilai indeks Ii maka semakin besar pula kemungkinan sebuah keluarga untuk memiliki rumah. Bila ditulis dalam sebuah persamaan akan menjadi :
Ii=
            Setiap keluarga memiliki nilai kritis, yaitu Ii*. Jika Ii lebih besar daripada Ii* maka probabilitas suatu keluarga untuk memiliki rumah semakin besar, demikian pula sebaliknya. Kondisi ini dapat digambarkan sebagai berikut :
Kepemilikan rumah 
            Dengan asumsi normalitas, probabilitas Ii* yang lebih kecil atau sama dengan Ii dapat dihitung berdasarkan distribusi normal CDF berikut ini :
Pi = P(Yi = 1| Xi) = P(I*i ≤ Ii ) = P(Zi ≤ ) = F (
            P(Yi = 1| X) merupakan probabilitas terjadinya peristiwa (memiliki rumah pada suatu nilai X (variabel independen) dan Zi adalah variabel normal standar yaitu Zi). F adalah CDF normal standar yang dapat dituliskan :
                                                F(Ii) =
          
            Untuk mengestimasi dengan metode probit, langkah-langkahnya adalah sebagai berikut : Quick > Estimate equation > isikan persamaan y c x > pilih method Binary > pilih Probit > klik OK
Gambar 2.6 Uji model Probit






                                                                                                                                   


Gambar 2.7 Hasil analisis model Probit










Hasil diatas menunjukkan hasil analisis model probit hubungan antara kepemilikan rumah dan pendapatan dengan sampel 30 rumah tangga (keluarga). Hasilnya ditampilkan pada tabel diatas dimana koefisien pendapatan (X) sesuai dengan teori dan signifikan pada α=5% (taraf 5%). Sedangkan nilai koefisien determinasi R2McFadden sebesar 0.5160. Dari hasil ini bisa disimpulkan bahwa pendapatan berpengaruh positif terhadap keputusan rumah tangga (keluarga) dalam membeli rumah. Nilai koefisien model probit pendapatan ini tidak bisa di interpretasikan secara langsung. Jadi akan dihitung marginak efectnya terlebih dahulu. Misalnya kita mengambil pendapatan rumah tangga sebesar 9 juta dan 10 juta. Nilai probabilitasnya jika pendapata rumah tangga 9 juta dan 10 juta masing-masing besarnya sebagai berikut :
Pi (Y = 1 | Xi) = (-3.347 + 0,424 (9)) = 0,44 = 0,6700
Pi (Y = 1 | Xi) = (-3.347 + 0,424 (10)) = 0,87 = 0,8078

Tabel Z Statitik






            Jadi jika terjadi kenaikan pendapatan rumah tangga(keluarga) dari 9 juta menjadi 10 juta maka probabilitas untuk memiliki rumah akan naik sebesar 0,1378 atau naik sebesar 13,78%.

No comments:

Post a Comment