Spurious Regression (Regresi Lancung)

Salah satu topik bahasan dalam penggunaan model regresi dengan data runtun waktu adalah regresi lancung (spurious). Isu ini muncul ketika salah satu atau semua variabel dalam konstruksi model regresi mengandung unit root.
Regresi lancung adalah model regresi yang mendalilkan atau menyatakan sebagai sebuah kenyataan (postulasi) bahwa suatu variabel berhubungan dan memiliki pengaruh terhadap variabel lain padahal dalam kenyataannya kedua variabel tersebut sama sekali tidak saling berhubungan.

Misalkan, sebuah model regresi manyatakan bahwa nilai Y sepanjang waktu dipengaruhi secara linear oleh nilai X. Dalam bahasa matematis, pernyataan ini dapat dituliskan sebagai berikut:
Y(t) = BX(t) + e(t), (1)
Dalam kasus X dan Y stasioner (tidak memiliki unit root), fakta bahwa pernyataan di atas tidak sesuai dengan kenyataan (spurious) bakal terdeteksi melalui pengujian statistik.
Semakin besar jumlah observasi, seiring dengan konsisten penduga B (katakanlah b), semakin besar peluang untuk terdeteksi bahwa pernyataan matematis tersebut "menipu". Mereka yang malas berkata-kata biasa menuliskan hal ini dengan formulasi berikut
Plim b = B (B =0).
Lain cerita ketika X dan/atau Y tidak stasioner. Alih-alih mengkonfirmasi bahwa persamaan (1) tidak sejalan dengan kenyataan, hasil pengujian statistik bakal mengamini "kesesatan" dari postulasi pada persamaan (1). Celakanya, semakin besar sampel, semakin menyesatkan. Nilai t-stat berikut semakin besar.
t-stat = b/se(b)
Alhasil, hipotesis nul yang menyuarakan kebenaran bakal tertolak. Lagi-lagi, orang-orang yang malas berkata-kata memformulasikan hal ini seperti berikut.
Plim b != B (B =0)
Bukti empiris terkait hal ini ternyata telah ditunjukkan oleh Granger dan Newbold sebelum generasi milenial lahir (1974). Keduanya melakukan percobaan Monte Carlo. X dan Y dibangkitkan dari dua persamaan berikut:
X(t) = X(t-1) + v(t) (2)
Y(t) = Y(t-1) + u(t) (3).
Dari persamaan (2) dan (3), dua hal dapat kita simpulkan. Pertama, X dan Y saling independen. Tak ada satupun yang merupakan fungsi dari yang lain. Ini seperti hubungan antara lama status menjomblo setelah tamat kuliah dan kekayaan dari hasil judi. Kedua, X dan Y tidak stasioner. Keduanya adalah random walk without drift.
Percobaan Granger dan Newbold memperlihatkan, semakin besar jumlah observasi (T--->oo) semakin besar nilai t-stat, semakin besar peluang hipotesis nul ditolak. Dengan kata lain, kesesatan persamaan (1) semakin diamini.
Itulah sebabnya, penting untuk memastikan bahwa semua variabel dalam persamaan regresi stasioner. Dengan demikian, perangkap regresi lancung dapat dihindari.
Contoh konkrit regresi lancung adalah seperti berikut.
Gambar di bawah ini memperlihatkan bahwa dua variabel (produksi beras di Ghana dan jumlah penumpang pesawat udara di Australia) yang mengandung trend (stokastik dan deterministik) memiliki korelasi yang kuat meski pada dasarnya keduanya tidak saling berhubungan.
Plot produksi beras di Ghana dan penumpuang pesawat udara di Australia
Hasi estimasi persamaan regresi (bisa diakses di https://otexts.com/fpp2/regression-evaluation.html) memperlihatkan bahwa produksi beras di Guinea signifikan secara statistik pada level signifikansi 5% mempengaruhi jumlah penumpang pesawat udara di Australia.
Hasil diagnosis terhadap residual hasil estimasi model regresi (pengaruh produksi beras di Guinea terhadap jumlah penumpang pesawat udara di Australia) memperlihatkan bahwa asumsi-asumsi linear klasik (homoskedastisitas dan no-serial correlation) tidak terpenuhi. Hal ini mengindikasikan terjadinya regresi lancung.
Residual dari spurious regression

Referensi:
Granger, C. & Newbold. (1974). Spurious regressions in econometrics. Journal of Econometrics, 2(2), 111-120. https://wolfweb.unr.edu/~zal/STAT758/Granger_Newbold_1974.pdf
Hyndman, R.J., & Athanasopoulos, G. (2018) Forecasting: principles and practice, 2nd edition, OTexts: Melbourne, Australia. OTexts.com/fpp2. 

Komentar

Postingan Populer