Supervised learning adalah salah satu jenis pembelajaran mesin (machine learning) di mana model dilatih menggunakan data yang telah diberi label. Dalam supervised learning, terdapat dua kategori utama: klasifikasi dan regresi. Fokus kita kali ini adalah pada klasifikasi.
Supervised Learning (Klasifikasi)
Klasifikasi adalah salah satu
tugas utama dalam supervised learning, di mana model bertujuan untuk memetakan
input ke dalam salah satu dari beberapa kategori atau kelas yang sudah
ditentukan sebelumnya. Misalnya, dalam klasifikasi email, model dilatih untuk
mengkategorikan email sebagai "spam" atau "not spam." Dalam
klasifikasi gambar, model dilatih untuk mengenali objek dalam gambar seperti
"kucing," "anjing," atau "mobil." Dalam konteks pembelajaran mesin,
supervised learning (pembelajaran terawasi) adalah metode di mana model dilatih
menggunakan data yang telah diberi label. Artinya, setiap contoh data dalam set
pelatihan memiliki input (fitur) yang sesuai dengan output (label). Tujuan
utama dari supervised learning adalah untuk membuat model yang dapat
memprediksi label yang benar untuk data baru yang tidak diketahui.
Algoritma dalam Supervised Learning (Klasifikasi)
Berikut adalah beberapa algoritma yang umum digunakan dalam klasifikasi:
Logistic Regression: Algoritma statistik yang digunakan untuk memodelkan probabilitas kelas biner.
K-Nearest Neighbors (KNN): Algoritma non-parametrik yang mengklasifikasikan data berdasarkan kedekatan dengan tetangga terdekatnya.
Support Vector Machines (SVM): Algoritma yang mencari hyperplane yang memaksimalkan margin antara dua kelas.
Decision Trees: Algoritma berbasis pohon keputusan yang memisahkan data berdasarkan fitur yang memberikan informasi maksimal.
Random Forest: Algoritma ensemble yang menggunakan banyak pohon keputusan untuk meningkatkan akurasi dan mengurangi overfitting.
Naive Bayes: Algoritma probabilistik yang didasarkan pada Teorema Bayes dengan asumsi independensi antar fitur.
Gradient Boosting Machines (GBM): Algoritma ensemble yang membangun model secara bertahap dan menggabungkan banyak model lemah menjadi model kuat.
XGBoost: Implementasi optimasi dari gradient boosting yang dirancang untuk kinerja dan efisiensi.
LightGBM: Algoritma boosting yang mengembangkan pohon secara vertikal dengan efisiensi memori tinggi.
CatBoost: Algoritma boosting yang khusus dirancang untuk menangani fitur kategorikal secara otomatis.
Neural Networks: Model berbasis jaringan saraf yang mampu menangkap pola kompleks dalam data.
Convolutional Neural Networks (CNN): Jaringan saraf yang dirancang khusus untuk tugas pengenalan gambar.
Recurrent Neural Networks (RNN): Jaringan saraf yang dirancang untuk memproses data urutan, seperti teks atau sinyal waktu.
Multilayer Perceptron (MLP): Jaringan saraf dengan satu atau lebih lapisan tersembunyi yang digunakan untuk klasifikasi.
AdaBoost: Algoritma boosting yang menggabungkan beberapa model lemah menjadi model kuat dengan menekankan contoh yang sulit diklasifikasikan.
Bagging Classifier: Teknik ensemble yang menggabungkan prediksi dari beberapa model untuk meningkatkan stabilitas dan akurasi.
Extra Trees: Algoritma ensemble yang mirip dengan random forest tetapi lebih random dalam pembentukan pohon.
Linear Discriminant Analysis (LDA): Teknik statistik yang menemukan kombinasi fitur yang memisahkan dua atau lebih kelas.
Quadratic Discriminant Analysis (QDA): Mirip dengan LDA tetapi mengasumsikan bahwa kelas memiliki matriks kovarians berbeda.
Stochastic Gradient Descent (SGD): Algoritma optimasi untuk model linear yang digunakan untuk klasifikasi dan regresi.
Ridge Classifier: Variasi dari regresi logistik dengan regularisasi L2 untuk menghindari overfitting.
Lasso Classifier: Regresi logistik dengan regularisasi L1 yang dapat melakukan seleksi fitur otomatis.
Elastic Net: Kombinasi dari regularisasi L1 dan L2 yang dapat mengatasi kelemahan Ridge dan Lasso.
Passive Aggressive Classifier: Algoritma untuk pembelajaran online yang cepat dan efisien.
Perceptron: Algoritma dasar jaringan saraf untuk klasifikasi linier.
Bernoulli Naive Bayes: Varian dari naive Bayes untuk fitur biner.
Multinomial Naive Bayes: Varian dari naive Bayes untuk fitur kategorikal.
Gaussian Naive Bayes: Varian dari naive Bayes untuk fitur kontinu dengan distribusi Gaussian.
Complement Naive Bayes: Varian dari naive Bayes yang dirancang untuk mengatasi ketidakseimbangan kelas.
K-Mean Clustering: Algoritma pengelompokan yang kadang digunakan dalam metode semi-supervised learning.
Hierarchical Clustering: Algoritma pengelompokan yang menghasilkan hierarki dari cluster, berguna untuk klasifikasi hierarkis.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Algoritma pengelompokan yang menemukan cluster berdasarkan kepadatan data, berguna untuk klasifikasi dengan noise.
Affinity Propagation: Algoritma pengelompokan yang mengidentifikasi cluster dengan mengirim pesan antar data poin.
Mean Shift: Algoritma pengelompokan berbasis densitas yang menemukan pusat massa dalam data.
Gaussian Mixture Model (GMM): Model probabilistik yang mengasumsikan bahwa data berasal dari campuran distribusi Gaussian.
Neural Collaborative Filtering: Model berbasis jaringan saraf yang digunakan untuk rekomendasi dengan menggabungkan informasi pengguna dan item.
Deep Belief Networks (DBN): Jenis jaringan saraf dalam yang terdiri dari beberapa lapisan RBM (Restricted Boltzmann Machines).
Restricted Boltzmann Machines (RBM): Model probabilistik yang digunakan sebagai blok bangunan dalam DBN untuk menemukan representasi fitur yang baik.
Deep Q-Network (DQNs): Model berbasis reinforcement learning yang digunakan untuk klasifikasi dengan menggunakan jaringan saraf untuk memperkirakan nilai tindakan.
Setiap algoritma memiliki karakteristik dan keunggulan tersendiri tergantung pada jenis data dan masalah yang dihadapi. Pemilihan algoritma yang tepat memerlukan pemahaman yang baik tentang data dan masalah spesifik yang ingin diselesaikan.
Comments
Post a Comment