Pre-processing merupakan hal penting sebelum melatih model. Pre-processing diperlukan untuk mengubah data mentah menjadi data bersih yang cocok untuk dianalisis. Pre-processing penting dilakukan karena berbagai alasan diantaranya untuk meningkatkan kualitas data, meningkatkan kinerja model dan meningkatkan efisiensi. Pada pembahasan kali ini akan menjelaskan data collection, data cleaning data transform dan data reduction.
Data Collection
Data collection adalah proses pengumpulan, pengukuran, dan analisis berbagai tipe informasi menggunakan teknik berstandar. Tujuan dari data collection adalah untuk mengumpulkan informasi dan data terpercaya sebanyak-banyaknya, yang kemudian dianalisis untuk membuat sebuah keputusan bisnis yang krusial. Ketika sudah berhasil dikumpulkan, data ini kemudian melalui sejumlah proses meliputi pembersihan dan pemrosesan data agar dapat digunakan oleh perusahaan. Dalam melakukan data collection harus diketahui dahulu beberapa poin yaitu sebagai berikut.
- Apa tujuan dari penelitian kita?
- Data apa saja yang harus dikumpulkan?
- Menggunakan metode apa dalam mengumpulkan, menyimpan, dan memproses setiap informasi tersebut?
Data juga bisa dipecah lagi menjadi dua tipe, kualitatif dan kuantitatif. Data kualitatif meliputi deskripsi, mulai dari warna, ukuran, hingga kualitas dan penampilan data itu sendiri. Sedangkan tipe kuantitatif berkaitan langsung dengan angka, misalnya statistik, angka polling, persentase, dan sebagainya.
Data Cleaning
Data cleaning merupakan salah satu langkah pada prapemrosesan dimana data dikumpulkan, dievaluasi dan dibersihkan dari kesalahan atau nilai yang tidak valid. Salah satu tindakan yang sering dilakukan dalam data cleaning adalah menghapus data yang tidak relevan, tidak akurat, atau tidak diinginkan. Contohnya saya mempunyai data mahasiswa sebagai berikut.

Dari gambar diatas terdapat variabel status_masuk yang ditandai kotak merah. Disana terdapat dua nilai yaitu "0" dan "1". Dari data tersebut bisa dilakukan data cleaning yaitu dengan menghapus variabel data_masuk yang bernilai "1" menggunakan metode drop() dari Pandas DataFrame. Caranya adalah sebagai berikut.
dari kode di atas kita menghapus baris dengan nilai '1' pada variabel 'status_masuk' menggunakan operasi filtering untuk mendapatkan baris-baris yang memiliki nilai 'status_masuk' bukan '1' dengan menggunakan df['status_masuk'] != '1'. Maka hasilnya adalah sebagai berikut.
Untuk melihat apakah berhasil terhapus atau tidak bisa menggunakan cara berikut.
Kode di atas untuk memfilter apakah ada data status_masuk yang bernilai "1". Jika berhasil cleaning maka akan menampilkan pesan "Empty DataFrame" yang artinya data sudah terhapus.
Data Transform
Data Transformasi adalah tahap dalam pra-pemrosesan data di mana data dimodifikasi atau diubah untuk memenuhi kebutuhan analisis atau model tertentu. Proses transformasi data penting karena dapat meningkatkan kualitas data, membuatnya lebih mudah untuk dipahami, dan mengoptimalkan kinerja model yang akan dibangun. Terdapat banyak contoh yang dapat digunakan pada proses data transform seperti normalisasi. Namun, kali ini saya menggabungkan variabel 'tanggal_lulus' dan 'tgl_masuk' menjadi satu variabel datetime 'lama_studi'.
Dari kode tersebut akan menghasilkan variabel baru yaitu "lama_studi" seperti berikut.
Data Reduction
Analisis data yang menggunakan dataset dalam ukuran besar akan sangat sulit dilakukan, oleh karena itu, perlu adanya teknik data reduction dengan tujuan untuk meningkatkan efisiensi penyimpanan serta mengurangi biaya penyimpanan dan analisis data.Ada banyak teknik dalam data reduction yaitu Data Cube Aggregation, Attribute Subset Selection, Numerosity Reduction, dan Dimensionality Reduction.
Disini saya akan mencontohkan data reduction dengan pembagian sample sebagai bagian dari Numerosity Reduction. Numerosity Reduction bertujuan untuk mengurangi jumlah instansi atau observasi dalam dataset. Ini dapat dilakukan dengan mengambil sampel data, seperti yang telah dijelaskan sebelumnya.
Mari kita lihat berapa banyak baris dan kolom sebelum dilakukan pembagian sample
Hasilnya adalah sebagai berikut.
Terdapat banyak sekali bukan oleh karena itu kita lakukan pembagian sample agar lebih efektif
kita melakukan pembagian sampel dengan menggunakan metode sample() dari Pandas DataFrame dengan menetapkan frac=0.2 untuk mengambil 20% dari total data. Hasil pembagian sampel disimpan dalam DataFrame df_sample. Maka hasilnya adalah sebagai berikut.
Sangat berkurang signifikan bukan? Dari data semua proses pre-processing di atas diharapkan dapat membantu kinerja model yang akan kita lakukan.
Comments
Post a Comment