Machine Learning vs Statistik

June 9, 2019, 2:25 p.m.   afifai   FYI  


sample image

Praktisi machine learning memiliki concern terhadap algoritma dan fokus pada pemodelan di atas suatu masalah seperti interpretabilitas model. Ahli statistik bekerja pada jenis masalah pemodelan yang sama dengan nama statistik terapan dan pembelajaran statistik (statistical learning). Berasal dari latar belakang matematika, mereka lebih fokus pada perilaku model dan penjelasan prediksi.

Hubungan yang sangat dekat antara kedua pendekatan dengan masalah yang sama dapat disimpulkan bahwa kedua bidang tersebut memiliki banyak hal untuk dipelajari satu sama lain. Para ahli statistik perlu mempertimbangkan metode algoritmik yang telah diteliti oleh para computer scientist agar segala proses yang dilakukan bekerja lebih optimal. Praktisi machine learning juga harus memperhatikan dan mempelajari terminologi dan metode yang relevan dari statistika terapan.

Artikel kali ini akan membahas beberapa hal berikut :

  • Machine learning dan predictive modeling adalah perspektif ilmu komputer dalam pemodelan data dengan berfokus kepada algoritma dan kemampuan model untuk memprediksi perilaku data
  • Statistik dan statistical learning adalah perspektif matematika dalam pemodelan data dengan fokus kepada kecocokan model terhadap data

Machine Learning

Machine learning atau pembelajaran mesin adalah sub bidang dari kecerdasan buatan (artificial intelligence) dan terkait dengan bidang ilmu komputer lainnya (contoh : robotik, pengolahan bahasa, pengolahan citra, dll). Ketika kita mengembangkan model machine learning untuk membuat prediksi, ada titik fokus berat yang tertuju kepada algoritma, kode dan hasil yang didapatkan. Machine learning kini berkembang jauh lebih luas daripada sekedar mengembangkan model untuk membuat prediksi, seperti yang dapat dilihat dengan definisi dalam buku teks klasik tahun 1997 oleh Tom Mitchell yang berbunyi :

The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience. (Halaman xv, Machine Learning, 1997)

Di sini, kita dapat melihat bahwa dari perspektif penelitian, machine learning merupakan studi dari "learning berdasarkan program komputer". Beberapa program pembelajaran ini dapat diaplikasikan untuk masalah pemodelan prediktif, dan beberapa "dipinjam" dari bidang lain, seperti statistik. Misalnya regresi linier. Ini adalah metode yang berasal dari bidang statistik yang digunakan untuk mencocokkan garis atau bidang ke data bernilai riil. Dari perspektif machine learning, metode ini merupakan sistem untuk mempelajari bobot (weight) untuk mencocokkan garis / bidang tersebut ke dalam data. Banyak metode telah dikembangkan di bidang kecerdasan buatan dan pembelajaran mesin, kadang-kadang oleh ahli statistik, yang terbukti sangat berguna untuk predictive modeling.

Predictive Modeling

Bagian penting dari machine learning untuk praktisi dapat disebut predictive modeling. Hal ini secara eksplisit mengabaikan perbedaan antara statistik dan machine learning. Ini juga melepaskan tujuan yang lebih luas dari statistik (memahami data) dan machine learning (memahami pembelajaran dalam algoritma) dan hanya menyangkut dirinya sendiri, seperti namanya, dengan mengembangkan model yang membuat prediksi.

The term predictive modeling may stir associations such as machine learning, pattern recognition, and data mining. Indeed, these associations are appropriate and the methods implied by these terms are an integral piece of the predictive modeling process. But predictive modeling encompasses much more than the tools and techniques for uncovering patterns within data. The practice of predictive modeling defines the process of developing a model in a way that we can understand and quantify the model’s prediction accuracy on future, yet-to-be-seen data. (Halaman vii, Applied Predictive Modeling, 2013)

Predictive modeling memberikan fokus khusus pada pengembangan model dengan tujuan untuk mendapatkan hasil terbaik yang berkaitan dengan beberapa metrik model skill. Pendekatan pragmatis ini sering berarti bahwa hasil dalam bentuk kemampuan maksimum atau kesalahan minimum dicari dengan mengorbankan hampir semua hal lain. Dalam kasus ini, kita tidak peduli apakah proses ini disebut machine learning ataupun predictive modeling, tujuan yang terpenting adalah mendapatkan hasil yang sesuai dengan apa yang diharapkan oleh user.

Statistical Learning

Proses bekerja dengan dataset dan mengembangkan predictive modeling juga merupakan tugas dalam statistik. Seorang ahli statistik mungkin secara "konvensional" menyebut aktivitas tersebut sebagai statistik terapan. Statistik adalah subbidang matematika, dan warisan ini memberikan fokus metode yang didefinisikan dengan baik dan dipilih dengan cermat. Kebutuhan untuk memahami tidak hanya mengapa model tertentu dipilih, tetapi juga bagaimana dan mengapa prediksi spesifik dibuat. Dari perspektif ini, seringkali model skill itu penting, tetapi kurang penting dibandingkan kemampuan interpretasi model tersebut. Namun demikian, ahli statistik modern telah merumuskan perspektif baru sebagai subbidang statistik terapan yang disebut statistical learning. Ini mungkin setara dengan statistik predictive modeling di mana model skill penting, tetapi mungkin penekanan yang lebih kuat diberikan untuk pemilihan dan pengenalan model learning.

Statistical learning refers to a set of tools for modeling and understanding complex datasets. It is a recently developed area in statistics and blends with parallel developments in computer science and, in particular, machine learning. (Halaman vii, An Introduction to Statistical Learning with Application in R, 2013)

Kita bisa melihat bahwa ada perbedaan antar gagasan antara bidang dan subbidang dalam statistik. Praktisi machine learning harus menyadari machine learning dan pendekatan berbasis statistik untuk masalah tersebut. Ini sangat penting mengingat penggunaan terminologi yang berbeda di kedua domain. Dalam kursus online statistik Rob Tibshirani, seorang ahli statistik, beliau memberikan glosarium yang memetakan istilah dalam statistik dengan istilah dalam machine learning berikut :

Machine Learning Statistik
Jaringan, Graf Model
Bobot (Weight) Parameter
Learning Fitting
Generalization Test Set Performance
Supervised Learning Regression / Classification
Unsupervised Learning Density Estimation, Clustering

Ini menyoroti kebutuhan yang lebih dalam bagi praktisi machine learning untuk fokus pada predictive modeling dan tetap open minded untuk metode, ide, dan terminologi, terlepas dari bidang asalnya. Ini mungkin berlaku untuk bidang modern seperti bioinformatika dan ekonometrik tetapi lebih berlaku untuk bidang statistik yang terkait erat dan jauh lebih "tua".


CARI

Afif A.I

Halo, saya Afif.
Semoga platform NgodingPython.com menjadi sarana untuk berbagi lebih luas