Logistic Regression

Logistic regression merupakan bentuk khusus dari regresi yang berfungsi untuk memprediksi dua grup dari variabel-variabel yang dipilih. Hasil prediksi merupakan data yang berbentuk non-metrik dan hanya memiliki dua jenis saja. Variate dalam logistic regression mirip dengan variate dalam multiple regression, dimana variate tersebut merepresentasikan hubungan tunggal multivariat dengan koefisien yang merupakan besaran dari dampak untuk variabel prediksi. Logistic regression tidak terlalu terpengaruh terhadap asumsi dasar seperti normalitas data. Tetapi kekurangan dari logistic regression adalah hanya mampu memprediksi dua grup saja. Dua grup tersebut dalam logistic regression direpresentasikan dengan variabel biner dengan nilai 1 atau 0. Dengan adanya variabel biner tersebut maka nilai dari logistic regression tidak dapat lebih dari 1 ataupun kurang dari 0. Sehingga agar mendapatkan nilai diantara 0 dan 1 logistic regression menggunakan logistic curve untuk merepresentasikan hubungan antara variabel independen dan dependennya. Gambar 1 memberikan contoh untuk logistic curve yang menjadi dasar logistic regression.

Gambar 1

 

Untuk nilai independen variabel yang rendah, nilai dependen variabel akan mendekati 0 dan begitu juga sebaliknya. Selain itu, dengan adanya peningkatan nilai independen variabel, nilai dependen variabel akan meningkat mengikuti kurva S seperti yang ada dalam Gambar 1. Nilai dependen variabel diberikan dalam bentuk probabilitas seperti terlihat pada Gambar 1.

Dalam logistic regression, perlu adanya penentuan ukuran sampel yang tepat agar dapat tidak terjadi bias dalam estimasinya. Ukuran sampel yang terlalu kecil dapat menyebabkan sampling error yang sangat besar yang kemudian menyebabkan indentifikasi perbedaan terbesar dalam data menjadi tidak memungkinkan. Ukuran sampel yang terlalu besar menyebabkan peningkatan statistical power yang besar tetapi akan menyebabkan perbedaan yang walaupun tidak relevan tetapi tetap statistically significant. Sampel yang dibutuhkan pada logistic regression sangatlah besar. Hal tersebut dikarenakan estimasi parameter untuk logistic regression menggunakan maximum likelihood estimation (MLE), dimana MLE membutuhkan sampel yang besar. Batas minimal ukuran sampel untuk logistic regression adalah 400. Selain itu, juga diperlukan sampel yang akan dianalisis dan divalidasi yang dinamakan holdout sample. Sehingga terdapat dua buah sampel, yaitu sampel yang digunakan untuk estimasi dan sampel yang digunakan untuk analisis dan validasi. Untuk kedua buah sampel tersebut juga diperlukan batas minimal ukuran sampel yang sama, yaitu 400 buah untuk setiap sampel. Selain itu, dikarenakan logistic regression memakai dua grup dalam modelnya, maka juga diperlukan data untuk setiap grup tersebut dengan minimal 10 buah sampel untuk setiap grup.

Dalam melakukan estimasi untuk parameternya, logistic regression membuat sedemikian sehingga kurva S yang terbentuk sesuai dengan data aktual. Gambar 2 dan Gambar 3 memberikan gambaran estimasi yang baik dan estimasi yang buruk dalam logistic regression menggunakan kurva S.

Gambar 2

Gambar 3

 

Dalam Gambar 2 dan Gambar 3 observasi digambarkan dalam titik-titik lingkaran hitam diatas dan dibawah kurva S. Dengan nilai setiap observasi yang direpresentasikan oleh garis horisontal, observasi yang berada di bawah menandakan observasi tersebut memiliki nilai untuk independen variabelnya adalah 0 dan apabila berada di atas menandakan observasi tersebut memiliki nilai untuk independen variabelnya adalah 1. Gambar 2 memberikan gambaran dimana model logistic regression yang dibentuk tidak merepresentasikan data aktual dengan baik. Representasi yang buruk tersebut terlihat dari beberapa observasi yang termasuk kedalam dua buah grup, yaitu grup 0 dan 1. Sedangkan pada Gambar 3, model logistic regression sudah merepresentasikan data aktual dengan baik. Hal tersebut dapat dilihat dari setiap observasi hanya memiliki satu buah nilai untuk hasilnya, dimana nilai independen variabel yang rendah masuk kedalam grup 0 dan nilai independen variabel yang tinggi masuk kedalam grup 1. Pada logistic regression juga terdapat classification matrix, dimana observasi-observasi yang memiliki probabilitas diatas cutoff value masuk kedalam grup 1 dan dibawah cutoff value masuk kedalam grup 0. Sehingga dengan cutoff value tersebut, setiap observasi akan dapat dimasukkan kedalam grup 1 ataupun grup 0.

Pada logistic regression, variate-nya terdiri dari logistic coefficients dan variabel independen yang sesuai dengan logistic coefficients tersebut. Untuk mengestimasi koefisien tersebut terdapat dua macam pengukuran, yaitu odds dan logit. Odds merupakan nilai ratio dari dari dua kejadian yang saling bersangkutan. Sehingga persamaan dari odds adalah:

 

Setelah didapatkan nilai odds maka langkah selanjutnya adalah menghitung nilai logit. Logit merupakan nilai odd yang dilogaritmakan. Sehingga persamaan untuk logistic regression berupa:

Selain itu, logistic regression melakukan estimasi menggunakan maximum likelihood estimation (MLE) tidak menggunakan sum of squared error seperti pada regresi lainnya. Sehingga untuk tes goodness-of-fit-nya berbeda dengan regresi pada umumnya. Tetapi sebelum goodness-of-fit, hal yang perlu diperhatikan adalah signifikansi dari nilai koefisien yang diestimasi. Nilai signifikansi tersebut didapatkan menggunakan uji dari Wald, dimana null hypothesis dari uji tersebut adalah koefisien yang diestimasi bernilai sama dengan nol. Sehingga nilai signifikansi yang berada diatas batas nilai yang ditentukan sebelumnya menandakan bahwa diterimanya null hypothesis yang berarti koefisien memiliki nilai sama dengan nol dan tidak berpengaruh terhadap model secara keseluruhan.

Goodness-of-fit dari logistic regression dapat diukur dengan 3 nilai, yaitu -2 log likelihood (-2LL), pseudo R2, dan predictive accuracy. -2LL merupakan pengukuran goodness-of-fit dasar khusus untuk logistic regression. Pengukuran -2LL tersebut didasarkan atas nilai likelihood yang merupakan pengukuran goodness-of-fit untuk estimasi menggunakan MLE, dimana untuk logistic regression nilai likelihood tersebut diubah menjadi nilai log dan kemudian dikalikan dengan -2. Nilai minimum untuk -2LL adalah 0 yang menandakan model sangat sesuai dengan data aktual. Sehingga semakin rendah nilai -2LL semakin sesuai model dengan data aktual. Pseudo R2 memiliki representasi yang mirip dengan koefisien determinasi (R2) yang sering digunakan pada regresi. R2 menyatakan besarnya proporsi variansi variabel dependen yang dijelaskan atau diakibatkan oleh variansi dari variabel independen. Pseudo R2 merupakan R2 khusus untuk logistic regression. Persamaan untuk pseudo R2 tersebut adalah:

 

Nilai pseudo R2 berkisar diantara 0 hingga 1, dimana semakin sesuai model dengan data makin kecil nilai pseudo R2. Predictive accuracy memberikan gambaran mengenai berapa jumlah data yang sesuai dengan hasil grup aktual apabila dihitung menggunakan logistic regression. Terdapat dua metode untuk menghitung predictive accuracy tersebut, yaitu classification matrix dan pengukuran berbasis chi-square.

Comments

comments

donisuryaputra

You Might Also Like

No Comment

Comments are closed here.