BelajarBIGDATA#14 Penerapan Statistik Deskriptif dan Inferensial pada Analisis Big data
Statistik Deskripsi dan Inferensial merupakan sebuah materi yang tidak terlepas dengan yang namanya analisis data, karena dengan bantuan teori dari materi Statistik Deskripsi dan Inferensial kita dapat melakukan pembacaan data yang lebih baik dan akurat.
Pada pembahasan kali ini akan langsung melakukan praktik pemrogramman, jadi bagi anda yang belum mengetahui apa itu Statistik Deskriptif dan Inferensial, bisa membaca dahulu.
Big data statistik |
import numpy as np
from scipy import stats
from math import sqrt
data = np.array([175, 190, 215, 198, 184, 207, 210, 193, 196, 180])
# mean data
mean_data = np.mean(data)
# standar deviasi data
stdev_data = np.std(data, ddof=1)
# mean hipotesis nol
mu = 200
# ukuran sampel
sample_size = len(data)
# derajat bebas
df = sample_size - 1
# statistik uji t
stat_t = (mean_data-mu)/(stdev_data/sqrt(sample_size))
# print mean data
print('mean = %.3f' % mean_data)
# print standar deviasi
print('s = %.3f' % stdev_data)
# print statistik uji t
print('statistik uji t = %.3f' % stat_t)
Baris program di atas merupakan kode yang berfungsi untuk menjalankan dan menghitung data yang berada pada variabel berisi array bernama 'data'. pada beberapa fungsi yang ada dapat anda lihat pada fungsi pencarian mean, standar deviasi, derajat bebas dan seterusnya. Apabila kode tadi di jalankan akan menghasilkan angka seperti di bawah ini.
Selanjutnya mari kita coba untuk menghitung sebuah soal cerita berupa studi kasus sebuah permasalah seperti di bawah ini.
Menurut CDC, rata-rata tinggi badan orang dewasa 20 tahun ke atas adalah 66.5 inci. Kemudian, dilakukan pengambilan sampel secara acak sebanyak 402 orang dewasa mengenai tinggi badan
mereka.Lakukanlahpengujianmenggunakanujit1-sampel apakah rata-rata tinggi badan sampel berbeda dari 66,5 inci. Dataset tersedia pada file data_height.csv.
Silahkan tulis baris program di bawah ini.
import pandas as pd
import numpy as np
from scipy import stats
data = pd.read_csv('data_height.csv')
data.shape()
data.head()
# mean hipotesis nol
mu = 66.5
# perhitungan statistik uji dan p-value
result = stats.ttest_1samp(data['height'], popmean=mu)
# cetak statistik uji
print('statistik uji t = %.3f' % result[0])
# cetak p-value
print('p-value = %.10f' % result[1])
Jika baris program di atas di jalankan maka akan menghasilkan sebuah angka seperti di bawah ini. Catata apabila anda ingin mendapatkan file csv yang di gunakan untuk praktik, anda bisa mendapatkanya pada link
Itulah pembahasan singkat mengenai analisis big data pada sesi statistik deskriptif dan inferensial yang di praktikan dengan menggunakan bahasa pemrogramman python yang memang di lengkapi dengan banyak sekali library yang bisa membantu kita dalam melakukan analisis big data.
No comments: