Mengapa Datanya Di-log?

Dalam analisis data dengan model regresi, sering kita jumpai transformasi variabel tak bebas ke dalam bentuk logaritma (natural). Mungkin di antara kita ada yang bertanya kenapa mesti di-log datanya? Apa alasannya?
Sedikitnya, ada dua alasan mengapa kita melakukannya. Pertama, menormalkan distribusi data. Salah satu asumsi mendasar dalam model regresi klasik adalah variabel tak bebas berdistribusi normal. Dalam prakteknya, dunia tidak selalu normal. Banyak data-data ekonomi yang nature-nya tidak berdistribusi normal.
Data pendapatan/gaji dan pengeluaran, misalnya, hampir pasti tidak berdistribusi normal. Umumnya keduanya cenderung mengikuti distribusi lognormal. Dengan kata lain, keduanya akan berdistribusi normal bila ditransformasi ke dalam bentuk logaritma.
Peraga berikut menyajikan ilustrasi mengenai hal ini. Data upah/gaji per bulan yang awalnya cenderung berdistribusi lognormal menjadi cenderung berdistribusi normal (setidaknya tidak terlalu buruk) setelah ditransformasi ke dalam bentuk logaritma.

Kedua, alasan interpretasi. Secara matematis perubahan data yang dilogkan merupakan aproksimasi dari perubahan relatif (dalam persen) dari data awal (sebelum transformasi). Dengan demikian, interpretasi dampak marginal dari perubahan variabel bebas terhadap variabel tak bebas menjadi lebih bermakna. (*)

Komentar

Postingan Populer