Hai, Kita sudah mengenal Pengenalan Machine Learning beserta contoh dan programnya, sekarang saat nya kita mengenal Data Processing pada Machine Learning, Data processing merupakan tahap paling awal disetiap proyek ML. Pada tahap ini data akan diambil dari sumber tertentu, dimasukkan pada suatu environment, dan diproses agar bisa diolah oleh model machine learning.
Ketika kita mengenal Machine learning sama seperti mengajari seorang anak kecil. Mengajari anak kecil artinya kita harus mengajari mereka untuk membedakan antara motor dan mobil dan kita tinggal memperlihatkan kendaraannya dan memberi tahu mana motor dan mana mobil. Namun demikian, komputer saat ini belum secanggih itu sehingga kita perlu mempersiapkan data dengan data processing agar bisa dimengerti komputer.
Menurut Wikipedia, pandas adalah perpustakaan perangkat lunak yang ditulis untuk bahasa pemrograman Python untuk manipulasi dan analisis data. Secara khusus, ia menawarkan struktur dan operasi data untuk memanipulasi tabel numerik dan deret waktu. Tabel numerik merupakan tabel yang berisi bilangan numerik, dan Tabel time series merupakan tabel yang berubah seiring waktu, misalnya tabel yang memuat perubahan nilai pasar saham untuk setiap menitnya.
Pandas mendukung banyak jenis data yang dapat dipakai dalam sebuah project machine learning. Berikut adalah beberapa contoh data yang dapat diolah dengan pandas.
[1] CSV
[2] SQL
[3] EXCEL
[4] SPSS
[5] JSON
Google Colab
Google Colaboratory atau sering juga disebut Colab merupakan sebuah tools dari Google yang dibuat untuk keperluan mengolah data, belajar, dan bereksperimen khususnya dalam bidang Machine Learning. Colab berjalan sepenuhnya pada Cloud dengan memanfaatkan media penyimpanan Google Drive.
Berikut langkah-langkah menggunakan Google Colab
[1] Buka link http://colab.research.google.com/
[2] Klik New Notebook, perhatikan gambar dibawah ini
[3] Ketik code berikut ini untuk membuka sample data
import os
os.listdir('sample_data')
Outputnya:
[‘anscombe.json’, ‘README.md’, ‘mnist_train_small.csv’, ‘california_housing_train.csv’, ‘mnist_test.csv’, ‘california_housing_test.csv’]
[4] Arahkan mouse ke bawah code, dan klik tombol + code
[5] Masukkan code berikut ini untuk mengambil sample data
Untuk mengubah berkas csv menjadi dataframe, kita menggunakan fungsi read_csv() pada library pandas
import pandas as pd
df = pd.read_csv('sample_data/mnist_train_small.csv')
df.head()
Kemudian klik tombol play disamping code nya
Oke, sampai disini kita telah mengenal apa itu Data Processing, Pandas dan cara menggunakan Google Colab. Semoga informasi yang kami sajikan ini bermanfaat bagi temen temen semua. jangan lupa jika ada pertanyaan, jangan sungkan tinggalkan di kolom komentar.
Salam.