BelajarBIGDATA#10 Visualisasi Bigdata dari Source data Online dengan Python

Grabbing data online merupakan salah satu cara dari visualisasi bigdata dengan menggunakan python, selain dengan menggunakan cara online, ada banyak cara untuk mendapatkan data yang digunakan sebagai dasar analisis bigdata seperti dengan melakukan grabbing website yaitu dengan melakukan grab tabel yang ditampilkan pada suatu halaman website, selain itu anda juga bisa mendapatkan data dengan menginport langsung dari file CSV yang telah disimpan pada komputer.

Visualisasi sumber data online dengan python
Pada pembahasan sebelumnya sudah di bahas tentang visualisasi data namun menggunakan data array yang telah tersaji di dalam baris kode, jika anda ingin mempelajarinya anda bisa mengakses lewat Visualisasi dan Menghitung Mean Median Modus Peaks pada Python.

Untuk lebih jelasnya dalam melakukan visualisasi bigdata dari sumber data online, pertama anda bisa menuliskan kode di bawah ini terlebih dahulu pada editor code seperti VSCode yang sudah terhubung ke Anaconda. Jika anda belum menginstall anaconda anda bisa memperlajarinya di artikel sebelumnya yaitu Cara Menginstall Anaconda Python.

import pandas as pd
import numpy as np
import statistics as stats
import matplotlib.pyplot as plt
from scipy.signal import find_peaks

#Menghitung
data=pd.read_csv('https://raw.githubusercontent.com/LearnDataSci/article-resources/master/Essential%20St
atistics/middle_tn_schools.csv')
data['size'].mean()
data['size'].median()
data['size'].mode()
data['size'].max()
data['size'].min()
data['size'].std()
data['size'].var()

#print hasil
print(data['size'])
print("mean :",data['size'].mean())
print("median :",data['size'].median())
print("modus :",data['size'].mode())
print("nilai maksimum :",data['size'].max())
print("nilai minimum :",data['size'].min())
print("standard Deviasi :",data['size'].std())
print("nilai variance :",data['size'].var())

#Get data for Plotting
s1=data['size']
s2=data['school_rating']

#Proses plot 2 baris 1 kolom
fig,(ax1, ax2)=plt.subplots(nrows=2,ncols=1,sharex=True)
ax1.plot(s1,'b-')
ax2.plot(s2,'g-')

ax1.set(ylabel="size",xlabel="N")
ax2.set(ylabel="school_rating",xlabel="N")
ax1.set(title="Hasil plot dua fungsi")

#Menampilkan
plt.show()

X=data['size']
index,_=find_peaks(X,distance=1) #deteksi peak

plt.plot(X)
plt.plot(index, X[index],"ro")
plt.show()
Rangkaian kode python di atas adalah sebuah program yang berfungsi untuk menghitung mean, median, modus, standar deviasi dan variasi dari sebuah data yang di ambil secara online lewat link https://raw.githubusercontent.com/LearnDataSci/article-resources/master/Essential%20Statistics/middle_tn_schools.csv yang berisi kumpulan data dari sebuah tabel dengan berbagai macam struktur kolom, namun yang akan di hitung adalah kolom size.

Jika anda sudah menuliskan seluruh baris kode di atas silahkan cobalah untuk menjalankan atau compiler code tersebut menggunakan anaconda promt atau lewat console dari VSCode. Jika penulisan kode sudah benar, maka akan muncul hasil seperti gambar di bawah ini.

2. Hasil perhitungan mencari Mean, media, modus dan standar deviasi
Selain menghasilkan angka seperti gambar di atas, baris kode tersebut juga akan menghasilkan diagram grafis yang merepresentasikan naik turunya angka dari kolom size dan school rating. Juga menampilkan diagram variasi dari nilai peaks atau nilai puncak dari data variabel X yang dalam hal ini adalah hasil dari perhitungan kolom size.

3. Diagram plot perhitungan dua baris satu kolom
4. Menampilkan diagram variasi dari pencarian peaks atau nilai puncak
Kedua hasil diagram di atas merupakan hasil dari perhitungan yang di lakukan dengan menggunakan library python, data yang digunakan juga di ambil dari internet, sehingga kita tidak perlu lagi menuslikan baris data di dalam kode, karena pada prakteknya data akan di ambil dari luar baik secara langsung seperti menggunakan file csv yang tersimpan di komputer, maupun secara online yang tersimpan di internet.

No comments:

Powered by Blogger.