Generalized Linear Mixed Model (GLMM) adalah perluasan dari Generalized Linear Model (GLM) yang mengakomodasi struktur data berkelompok atau hierarkis dengan memasukkan komponen acak. GLMM memungkinkan analisis variabel respon yang tidak mengikuti distribusi normal, seperti data biner, hitungan, atau proporsi.
Struktur matematis umum dari GLMM adalah sebagai berikut:
$$ g(E[y|\mathbf{u}]) = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}\mathbf{u} $$
Di mana:
GLMM terdiri dari dua komponen utama:
Efek tetap merepresentasikan pengaruh variabel prediktor yang dianggap konstan dan sistematis terhadap variabel respon. Koefisien efek tetap (\(\boldsymbol{\beta}\)) menunjukkan arah dan kekuatan hubungan antara prediktor dan respon.
Efek acak menangkap variabilitas yang berasal dari perbedaan antar kelompok atau hierarki dalam data. Efek ini memungkinkan intercept dan kemiringan model berubah antar kelompok, memodelkan variasi yang tidak dapat dijelaskan oleh efek tetap.
Fungsi link menghubungkan rata-rata ekspektasi dari respons (\(\mu\)) dengan prediktor linear (\(\eta\)). Contohnya termasuk logit untuk data binomial dan log untuk data Poisson.
Faktor acak dalam GLMM memungkinkan model untuk menangkap perbedaan alami antar kelompok yang tidak dapat dijelaskan oleh variabel prediktor. Ini penting untuk memahami seberapa besar variabilitas yang dapat diatribusikan kepada perbedaan antar kelompok.
Dalam data berkelompok atau berulang, pengamatan dalam kelompok yang sama cenderung saling berkorelasi. Faktor acak memperhitungkan korelasi ini, sehingga menghindari bias dalam estimasi parameter dan inferensi statistik.
Dengan memasukkan efek acak, model dapat menangkap variabilitas ekstra yang mungkin tidak terlihat jika hanya menggunakan efek tetap. Ini membantu mencegah model menjadi terlalu spesifik terhadap data latih dan meningkatkan kemampuan generalisasi ke data baru.
GLMM dengan faktor acak mampu menghasilkan prediksi yang lebih akurat, terutama ketika memprediksi nilai untuk kelompok baru yang belum diamati dalam data. Ini karena model telah menangkap struktur variabilitas antar kelompok yang mendasari.
Pseudoreplication terjadi ketika pengamatan yang tidak independen dianggap independen, yang dapat menyebabkan kesalahan dalam analisis statistik. Faktor acak membantu memodelkan pengamatan yang terkait dalam kelompok yang sama sebagai bagian dari satu unit pengamatan, menjaga integritas analisis.
Dalam penelitian klinis, data seringkali dikelompokkan berdasarkan pasien atau lokasi geografis. GLMM memungkinkan analisis efek dari intervensi medis sambil memperhitungkan variabilitas antar pasien atau tempat.
Dalam studi ekologi, pengamatan sering kali dikelompokkan berdasarkan lokasi geografis atau populasi spesies. GLMM membantu dalam memodelkan faktor-faktor yang mempengaruhi distribusi spesies sambil memperhitungkan variabilitas antar lokasi.
Data pendidikan sering kali memiliki struktur hierarkis, seperti siswa dalam kelas dan sekolah. GLMM memungkinkan analisis pengaruh faktor-faktor individu dan kelas terhadap hasil pendidikan siswa.
Dalam analisis data survei yang dikelompokkan berdasarkan wilayah atau komunitas, GLMM membantu dalam memahami pengaruh variabel demografis sambil memperhitungkan variabilitas antar wilayah.
Pemilihan metode estimasi dalam GLMM tergantung pada kompleksitas model dan sifat data. Beberapa metode umum meliputi:
MLE adalah metode yang sering digunakan untuk mengestimasi parameter model dengan mencari nilai yang memaksimalkan fungsi likelihood.
REML adalah variasi dari MLE yang mengestimasi parameter varians dengan mengintegrasikan efek tetap, memberikan estimasi yang lebih tidak bias untuk komponen varians.
Metode Bayesian menggunakan pendekatan Bayes untuk mengestimasi parameter dengan menggabungkan informasi prior dan data, sering kali dengan bantuan metode MCMC (Markov Chain Monte Carlo).
GLMM dapat diimplementasikan menggunakan berbagai perangkat lunak statistik, di antaranya:
R menyediakan beberapa paket untuk GLMM, seperti lme4
dan glmmTMB
, yang memungkinkan pengguna untuk membangun dan menganalisis model dengan berbagai distribusi respon.
library(lme4)
model <- glmer(y ~ x1 + x2 + (1 | group), family = binomial, data = dataset)
Dalam Python, paket statsmodels
dan PyMC3
dapat digunakan untuk membangun GLMM, memungkinkan pendekatan yang lebih fleksibel dengan estimasi Bayesian.
import statsmodels.api as sm
model = sm.MixedLM.from_formula("y ~ x1 + x2", groups="group", data=dataset)
result = model.fit()
SAS menyediakan prosedur PROC GLIMMIX
dan SPSS memiliki modul Mixed Models yang memungkinkan pengguna untuk membangun GLMM dengan antarmuka yang lebih ramah pengguna.
Generalized Linear Mixed Model (GLMM) merupakan alat analisis yang kuat untuk data yang tidak hanya memiliki variabel respon dengan distribusi yang tidak normal, tetapi juga struktur berkelompok atau hierarkis. Dengan menggabungkan efek tetap dan acak, GLMM mampu menangkap kompleksitas variabilitas dalam data, memberikan estimasi yang lebih akurat dan prediksi yang lebih handal. Pemahaman yang mendalam tentang tujuan penggunaan faktor acak dalam GLMM memungkinkan peneliti untuk mengoptimalkan model mereka sesuai dengan kebutuhan analisis, meningkatkan integritas dan validitas hasil penelitian.