Mengenal Data Processing Pada Machine Learning / ML dengan menggunakan Google Colab (Teori & Praktikal)

   

Hai, Kita sudah mengenal Pengenalan Machine Learning beserta contoh dan programnya, sekarang saat nya kita mengenal Data Processing pada Machine Learning, Data processing merupakan tahap paling awal disetiap proyek ML. Pada tahap ini data akan diambil dari sumber tertentu, dimasukkan pada suatu environment, dan diproses agar bisa diolah oleh model machine learning.

Ketika kita mengenal Machine learning sama seperti mengajari seorang anak kecil. Mengajari anak kecil artinya kita harus mengajari mereka untuk membedakan antara motor dan mobil dan kita tinggal memperlihatkan kendaraannya dan memberi tahu mana motor dan mana mobil. Namun demikian, komputer saat ini belum secanggih itu sehingga kita perlu mempersiapkan data dengan data processing agar bisa dimengerti komputer.

Menurut Wikipedia, pandas adalah perpustakaan perangkat lunak yang ditulis untuk bahasa pemrograman Python untuk manipulasi dan analisis data. Secara khusus, ia menawarkan struktur dan operasi data untuk memanipulasi tabel numerik dan deret waktu. Tabel numerik merupakan tabel yang berisi bilangan numerik, dan Tabel time series merupakan tabel yang berubah seiring waktu, misalnya tabel yang memuat perubahan nilai pasar saham untuk setiap menitnya.

Pandas mendukung banyak jenis data yang dapat dipakai dalam sebuah project machine learning. Berikut adalah beberapa contoh data yang dapat diolah dengan pandas.

[1] CSV
[2] SQL
[3] EXCEL
[4] SPSS
[5] JSON

Google Colab

Google Colaboratory atau sering juga disebut Colab merupakan sebuah tools dari Google yang dibuat untuk keperluan mengolah data, belajar, dan bereksperimen khususnya dalam bidang Machine Learning. Colab berjalan sepenuhnya pada Cloud dengan memanfaatkan media penyimpanan Google Drive.

Berikut langkah-langkah menggunakan Google Colab
[1] Buka link http://colab.research.google.com/
[2] Klik New Notebook, perhatikan gambar dibawah ini

[3] Ketik code berikut ini untuk membuka sample data

import os
os.listdir('sample_data')

Outputnya:
[‘anscombe.json’, ‘README.md’, ‘mnist_train_small.csv’, ‘california_housing_train.csv’, ‘mnist_test.csv’, ‘california_housing_test.csv’]

[4] Arahkan mouse ke bawah code, dan klik tombol + code

[5] Masukkan code berikut ini untuk mengambil sample data
Untuk mengubah berkas csv menjadi dataframe, kita menggunakan fungsi read_csv() pada library pandas

import pandas as pd
df = pd.read_csv('sample_data/mnist_train_small.csv')
df.head()

Kemudian klik tombol play disamping code nya

Oke, sampai disini kita telah mengenal apa itu Data Processing, Pandas dan cara menggunakan Google Colab. Semoga informasi yang kami sajikan ini bermanfaat bagi temen temen semua. jangan lupa jika ada pertanyaan, jangan sungkan tinggalkan di kolom komentar.
Salam.

   

Wahyu Amaldi, M.Kom has written 178 articles

Hallo Pembaca,
Saya merupakan konsultan di dunia SAP dan merupakan Spesialis .Net Programming.
Saya gemar berbagi pengalaman mengenai SAP & Dunia Programming, dan jika ada sesuatu yang perlu ditanyakan, bisa hubungi saya di email berikut ini:

Email 1 : wahyu.amaldi@outlook.com
Email 2 : wahyu.amaldi@ilmuprogram.com

Semoga Artikel yang Anda baca di website ini berguna dan dapat membantu Anda dalam menemukan solusi.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>