BelajarBIGDATA#15 Melakukan Analisis Regresi Linear dengan Python untuk Big data
Sebelum melakukan praktik analisis regresi secara langsung menggunakan bahasa pemrogramman python, saya ingin memberikan pemasahan singkat tentang analisis regresi terlebih dahulu supaya bisa mengikuti dan memahami apa itu analisis regresi dan bagaimana cara cara melakukanya. Selain itu penjelasan singkat juga akan membuka wawasan anda tentang fungsi melakukan analisis regresi.
Analisis Regresi adalah suatu satu metode yang cukup popular dalam mencari hubungan antara 2 variabel atau lebih. Variabel yang dikomputasi selanjutnya dikelompokkan menjadi variabel dependen (tidak bebas) yang biasanya dinotasikan dengan huruf Y dan variabel independen (bebas) yang biasanya dinotasikan dengan huruf X.
Apa perbedaan antara variabel dependen (tidak bebas) dan variabel independen (bebas). Perbedaanya adalah pada nilai yang ada, dimana variabel dependen memiliki variabel dengan nilai yang di pengaruhi oleh variabel independen, sedangkan independen memiliki nilai yang bebas alias tidak terpengaruh dari variabel apapun.
Analisis regresi dengan python |
Apa perbedaan antara variabel dependen (tidak bebas) dan variabel independen (bebas). Perbedaanya adalah pada nilai yang ada, dimana variabel dependen memiliki variabel dengan nilai yang di pengaruhi oleh variabel independen, sedangkan independen memiliki nilai yang bebas alias tidak terpengaruh dari variabel apapun.
Cara Menghitung Analisis Regresi Linear
Unutk melakukan perhitungan analisis regresi menggunakan bahasa pemrogramman python kita membutuhkan beberapa library untuk memudahkan perhitungan dan penulisan kode kita, berikut di bawah ini adalah library yang kita butuhkan untuk melakukan analisis ini.- Pandas
- Numpy
- Statsmodels
- Sklearn
- Seaborn
Selanjutnya untuk melakukan analisis kita membutuhkan data yang harus di analisis, karena ini masih pembelajaran, saya sarankan untuk mengambil data berikut ini supaya anda bisa mengikuti bagaimana jalanya perhitungan analisis berdasarkan data berikut, silahkan anda download terlebih dahulu.
Link : https://notebooks.azure.com/novri-suhermi/libraries/regression-analysis
Untuk melancarkan proses perhitungan akan saya sebutkan langkah-langkah apa saja yang akan di lakukan untuk menghitung analisis regresi ini, berikut di bawah ini adalah langkah-langkah yang akan dilakukan untuk menghitung analisis regresi dengan python.
- Import Library
- Load dataset
- Analisis Korelasi
- Estimasi Parameter
- Uji Asumsi Residual
Sekarang mari kita mulai untuk melakukan penulisan kode python, media editor yang akan di gunakan anda bisa memilih bebas yang terpenting anda harus menginstall Anaconda terlebih dahulu, jika anda belum menginstallnya silahkan anda membuka halaman daftar isi pada website ini kemudian ikuti tutorial install anaconda python. Sara sarankan untuk menggunakan Jupyter dalam melakukan perhitungan ini.
Langkah 1 : Import Library python
import pandas as pd
import seaborn as sns
from statsmodels.tools.tools import add_constant
from statsmodels.regression.linear_model import OLS
from statsmodels.stats.diagnostic import acorr_ljungbox, het_white
from scipy.stats import kstest, shapiro
Langkah 2 : Load dataset
data = pd.read_csv('delivery.csv')
Langkah 3 : Visualisasi Data
sns.regplot(x='n.prod', y='delTime', fit_reg=False, data=data) #baris1
sns.regplot(x='distance', y='delTime', fit_reg=False, data=data) #baris2
Langkah 4 : Menghitung Koefisien Korelasi
data.corr()['delTime']
Langkah 5 : Menambahkan Constant
data = add_constant(data)
Langkah 6 : Estimasi Parameter (dua variabel)
model_all = OLS(data['delTime'], data[['const', 'n.prod', 'distance']])
result_all = model_all.fit()
print(result_all.summary())
Langkah 7 : Uji Asumsi Independen dan Heteroskedastisitas
chisq_stat, chisq_pval = acorr_ljungbox(residual)
print('statistik uji chi-square =', ['{0:.3f}'.format(val) for val in chisq_stat])
print('p-value =', ['{0:.3f}'.format(val) for val in chisq_pval])
het_result = het_white(residual, data[['const', 'n.prod', 'distance']])
print('LM stat = {0:.3f}'.format(het_result[0]))
print('LM p-value = {0:.3f}'.format(het_result[1]))
print('F stat = {0:.3f}'.format(het_result[2]))
print('F p-value = {0:.3f}'.format(het_result[3]))
Langkah 8 : Menampilkan Plot Histogram Residual
sns.distplot(model_residual, kde=False, norm_hist=False)
Langkah 9 : Uji Asumsi Normalitas Residual
model_residual = result_all.resid
kstest(model_residual, 'norm')
Output : KstestResult(statistic=0.24779196158296946, pvalue=0.07733486314041116)
shapiro(model_residual)
Output : (0.9515107870101929, 0.27110064029693604)
Pada langkah terakhir yaitu langkah sembilan anda dapat lihat pada output hasil kode pertama yang menampilkan pvalue=0.07733486314041116 lebih dari 0.05 yang artinya asumsi normalitas terpenuhi. Kemudian anda lihat pada output baris terakhir 0.27110064029693604 lebih dari 0.05 yang berarti asumsi normalitas juga terpenuhi.
No comments: