Cara terbaik untuk memulai proyek Machine Learning adalah dengan mendesain dan menyelesaikan proyek-proyek kecil.
Dikutip dari Toward Data Science, tulisan oleh Fahmi Nurfikri
Untuk memulai dan menyelesaikan proyek Machine Learning, kita bisa ikutin tahapan berikut ini:
Pahami Masalahnya
Tahap awal dan penting dalam memulai proyek apapun adalah nyari tau masalah yang mau kita pecahin. Kemudian, tentuin solusinya.
Contoh masalah:
Mau mengetahui komentar user di media sosial tentang produk kita secara realtime (waktu nyata saat ini). Tapi, kita bisa kesulitan, karena harus nyortir banyak komentar yang ada. Kita juga bisa kesulitan untuk menilai maksud komentar tertentu. Apakah komentar tersebut bermakna baik/buruk.
Contoh solusi:
Buat Machine Learning yang bisa ngelompokin komentar user (baik/buruk)
Saran dari penulis:
Pelajari soal dekomposisi dalam berpikir komputasional (computational thinking), yaitu proses ngurai masalah yang kompleks jadi beberapa bagian masalah yang lebih sederhana.
Dengan cara ini, masalah yang awalnya keliatan rumit, jadi lebih mudah buat diselesain.
Akuisisi Data
Tahap selanjutnya adalah dapetin data yang dibutuhin.
Cara yang bisa dilakuin buat ngumpulin data:
Unduh data dari internet yang open source seperti Kaggle, Google dataset, dan UCI machine learning.
Crawling dan scraping data: ngumpulin banyak sumber data tertentu (data crawling). kemudian nge-ekstrak data dari banyak sumber data tersebut buat dianalisis (data scraping).
Contoh
Pengen ngumpulin komentar hate speech di sosial media, bisa kita dapetin dari Twitter, Instagram, dan sosmed lainnya.
Persiapan data
Setelah dapetin data yang kita butuhin, selanjutnya kita mesti nyiapin data sebelum diolah.
Prosesnya kayak masak. Kita perlu nyuci bahan makanannya dulu, sisihin segala macem bahan yang gak penting, potong bahannya, dll.
Begitu juga dengan data. Sebelum “siap dimasak” di tahapan traning, pastiin data gak ngandung noise yang bisa berdampak ke performa model yang dibikin.
Cara yang bisa dilakukan:
Data cleaning
Proses nge-eliminasi data yang gak dibutuhinData transformation
Proses ngerubah struktur dataExploratory Data Analysis (EDA)
Proses investigasi awal buat nemuin pola, anomali, uji hipotesis, dan ngecek asumsi dengan bantuan ringkasan statistik dan grafik tertentu.
Pemodelan
Tahapan yang paling ditunggu dan seru. Soalnya, di tahap ini kita udah bisa ngebuat model Machine Learning-nya.
Di tahap ini, ada 3 pilihan pendekatan yang bisa dilakuin:
Supervised learning
Analogi proses pembelajaran model Machine Learning dengan pendekatan seperti si model lagi belajar dengan pengawasan guru. Si guru nyediain dataset dengan label tertentu (labeled dataset). Ketika salah menebak, si model perlu ngulang sampe jawaban sesuai dengan yang diinginkan.Unsupervised learning
Bedanya dengan pendekatan pembelajaran sebelumnya, Model Machine Learning di pendekatan ini "belajar mandiri" tanpa bantuan labeled dataset. Hanya bermodal dengan sejumlah informasi (pengetahuan) yang udah diberikan kepadanya sebelumnya.
Dengan pendekatan ini, model juga belajar buat ngelompokin data berdasar algoritma dan kemiripan informasi.Reinforcement learning
Proses pembelajaran berdasarkan interaksi si model dengan lingkungannya. Pendekatan ini lebih dekat dengan cara manusia belajar dari pengalamannya.
Tips penulis:
Sesuain pendekatan dengan karakter data masing-masing agar proses pemodelan lebih efisien.
Evaluasi
Cara ngukur bagus gaknya model yang dibuat adalah dengan ngukur performanya. Salah satunya dengan nanya ke ahli di bidang langsung.
Sumber:
Towards Data Science, platform seputar data sciene (tulisan oleh Fahmi Nurfikri dengan sedikit perubahan)
Itu dia 5 tahapan yang bakal kita lakuin kalau ngerjain proyek machine learning. Udah lebih kebayang kan? Yuk, mulai dari sekarang! Tag temen kamu yang mau diajak proyek machine learning bareng :)
Discussion