Skip to main content

P3 - Pre-processing menggunakan Google Colab

 Pre-processing merupakan hal penting sebelum melatih model. Pre-processing diperlukan untuk mengubah data mentah menjadi data bersih yang cocok untuk dianalisis. Pre-processing penting dilakukan karena berbagai alasan diantaranya untuk meningkatkan kualitas data, meningkatkan kinerja model dan meningkatkan efisiensi. Pada pembahasan kali ini akan menjelaskan data collection, data cleaning data transform dan data reduction.

Data Collection
Data collection adalah proses pengumpulan, pengukuran, dan analisis berbagai tipe informasi menggunakan teknik berstandar. Tujuan dari data collection adalah untuk mengumpulkan informasi dan data terpercaya sebanyak-banyaknya, yang kemudian dianalisis untuk membuat sebuah keputusan bisnis yang krusial. Ketika sudah berhasil dikumpulkan, data ini kemudian melalui sejumlah proses meliputi pembersihan dan pemrosesan data agar dapat digunakan oleh perusahaan. Dalam melakukan data collection harus diketahui dahulu beberapa poin yaitu sebagai berikut.
  1. Apa tujuan dari penelitian kita?
  2. Data apa saja yang harus dikumpulkan?
  3. Menggunakan metode apa dalam mengumpulkan, menyimpan, dan memproses setiap informasi tersebut?
Data juga bisa dipecah lagi menjadi dua tipe, kualitatif dan kuantitatif. Data kualitatif meliputi deskripsi, mulai dari warna, ukuran, hingga kualitas dan penampilan data itu sendiri. Sedangkan tipe kuantitatif berkaitan langsung dengan angka, misalnya statistik, angka polling, persentase, dan sebagainya.

Data Cleaning

Data cleaning merupakan salah satu langkah pada prapemrosesan dimana data dikumpulkan, dievaluasi dan dibersihkan dari kesalahan atau nilai yang tidak valid. Salah satu tindakan yang sering dilakukan dalam data cleaning adalah menghapus data yang tidak relevan, tidak akurat, atau tidak diinginkan. Contohnya saya mempunyai data mahasiswa sebagai berikut.



Dari gambar diatas terdapat variabel status_masuk yang ditandai kotak merah. Disana terdapat dua nilai yaitu "0" dan "1". Dari data tersebut bisa dilakukan data cleaning yaitu dengan menghapus variabel data_masuk yang bernilai "1" menggunakan metode drop() dari Pandas DataFrame. Caranya adalah sebagai berikut.


dari kode di atas kita menghapus baris dengan nilai '1' pada variabel 'status_masuk' menggunakan operasi filtering untuk mendapatkan baris-baris yang memiliki nilai 'status_masuk' bukan '1' dengan menggunakan df['status_masuk'] != '1'. Maka hasilnya adalah sebagai berikut.


Untuk melihat apakah berhasil terhapus atau tidak bisa menggunakan cara berikut.

Kode di atas untuk memfilter apakah ada data status_masuk yang bernilai "1". Jika berhasil cleaning maka akan menampilkan pesan "Empty DataFrame" yang artinya data sudah terhapus.


Data Transform
Data Transformasi adalah tahap dalam pra-pemrosesan data di mana data dimodifikasi atau diubah untuk memenuhi kebutuhan analisis atau model tertentu. Proses transformasi data penting karena dapat meningkatkan kualitas data, membuatnya lebih mudah untuk dipahami, dan mengoptimalkan kinerja model yang akan dibangun. Terdapat banyak contoh yang dapat digunakan pada proses data transform seperti normalisasi. Namun, kali ini saya menggabungkan variabel 'tanggal_lulus' dan 'tgl_masuk' menjadi satu variabel datetime 'lama_studi'. 

Dari kode tersebut akan menghasilkan variabel baru yaitu "lama_studi" seperti berikut.

Data Reduction
Analisis data yang menggunakan dataset dalam ukuran besar akan sangat sulit dilakukan, oleh karena itu, perlu adanya teknik data reduction dengan tujuan untuk meningkatkan efisiensi penyimpanan serta mengurangi biaya penyimpanan dan analisis data.Ada banyak teknik dalam data reduction yaitu Data Cube Aggregation, Attribute Subset Selection, Numerosity Reduction, dan Dimensionality Reduction. 
Disini saya akan mencontohkan data reduction dengan pembagian sample sebagai bagian dari Numerosity Reduction. Numerosity Reduction bertujuan untuk mengurangi jumlah instansi atau observasi dalam dataset. Ini dapat dilakukan dengan mengambil sampel data, seperti yang telah dijelaskan sebelumnya.
Mari kita lihat berapa banyak baris dan kolom sebelum dilakukan pembagian sample

Hasilnya adalah sebagai berikut.

Terdapat banyak sekali bukan oleh karena itu kita lakukan pembagian sample agar lebih efektif

kita melakukan pembagian sampel dengan menggunakan metode sample() dari Pandas DataFrame dengan menetapkan frac=0.2 untuk mengambil 20% dari total data. Hasil pembagian sampel disimpan dalam DataFrame df_sample. Maka hasilnya adalah sebagai berikut.

Sangat berkurang signifikan bukan? Dari data semua proses pre-processing di atas diharapkan dapat membantu kinerja model yang akan kita lakukan.








Comments

Popular posts from this blog

P9 - Supervise Learning (Klasifikasi) dan Contoh Algoritma Yang Ada Didalamnya

Supervised learning adalah salah satu jenis pembelajaran mesin (machine learning) di mana model dilatih menggunakan data yang telah diberi label. Dalam supervised learning, terdapat dua kategori utama: klasifikasi dan regresi. Fokus kita kali ini adalah pada klasifikasi. Supervised Learning (Klasifikasi) Klasifikasi adalah salah satu tugas utama dalam supervised learning, di mana model bertujuan untuk memetakan input ke dalam salah satu dari beberapa kategori atau kelas yang sudah ditentukan sebelumnya. Misalnya, dalam klasifikasi email, model dilatih untuk mengkategorikan email sebagai "spam" atau "not spam." Dalam klasifikasi gambar, model dilatih untuk mengenali objek dalam gambar seperti "kucing," "anjing," atau "mobil." Dalam konteks pembelajaran mesin, supervised learning (pembelajaran terawasi) adalah metode di mana model dilatih menggunakan data yang telah diberi label. Artinya, setiap contoh data dalam set pelatihan memiliki in...

MENENTUKAN KARDINALITAS DAN OPSIOANLITAS

Prodi diketuai oleh dosen (one to one) 2. Dosen ploting program studi (one to one) 3.   Mahasiswa dibimbing dosen (many to one) 4.  Dosen memiliki prodi(one to one) 5.  Dosen mengampu matakuliah (one to one) 6.   Prodi memiliki kelas (many to many) 7.  Mahasiswa memilih matakuliah (many to many) 8.  mahasiswa ploting kelas (many to many) 9.  Fakultas memiliki Prodi (one to many) 10.  Mahasiswa dibimbing dosen (many to one)

Quiz Pertemuan 5 Data Mining

  Anda juga dapat mendownload laporan  Di sini . silahkan klik kata 'di sini'. Bagian 1. Pendahuluan Di era modern ini, tantangan dalam meningkatkan kualitas pendidikan menjadi semakin kompleks. Salah satu indikator keberhasilan pendidikan adalah tingkat kelulusan tepat waktu dan lama masa studi mahasiswa di perguruan tinggi. Oleh karena itu, pemahaman mendalam terhadap faktor-faktor yang memengaruhi lulusan tepat waktu sangat penting. Laporan ini bertujuan untuk melakukan analisis yang mendalam terhadap faktor-faktor yang mempengaruhi lulusan tepat waktu dan lama masa studi di lingkungan akademik. Analisis dilakukan meliputi integrasi dan pembersihan data, serta mengidentifikasi tren atau pola yang mempengaruhi lulusan tepat waktu. Berikut permasalahan-permasalahan yang akan dibahas pada analisis lulusan tepat waktu. 1.      Langkah-langkah apa saja dalam integrasi dan pembersihan data serta analisis pola lulusan tepat waktu? 2.    ...