Skip to main content

Pertemuan 4 Data Cleaning, Data Transformation, Data Reduction pada data transkip nilai

Kelompok 48
  • Trisya Nurmayanti 21416255201019
  • Hilman Abdurrohim Azis 21416255201055
  • Kiki Khoerulnisa 214162552024
Sebelum Melakukan Preparation kami menyiapkan datasetnya terlebih dahulu, menggunakan dataset transkip nilai sebanyak 256299 data

  1.  Data Cleaning
  • Handling Missing Values
    Handling missing values adalah proses mengatasi nilai yang kosong atau hilang dalam dataset. Nilai yang hilang dapat terjadi karena berbagai alasan, seperti kesalahan pengukuran, kegagalan sistem, atau ketidakhadiran informasi. Penanganan nilai yang kosong penting karena dapat mempengaruhi hasil analisis secara negatif jika dibiarkan. Salah satu pendekatan umum dalam menangani nilai yang kosong adalah dengan menghapus baris atau kolom yang mengandung nilai kosong. Namun, pendekatan ini dapat mengurangi jumlah data yang tersedia dan menghilangkan informasi penting. Alternatifnya, nilai yang kosong dapat diisi dengan nilai rata-rata, median, atau modus dari kolom yang bersangkutan. Pendekatan lain termasuk menggunakan teknik imputasi, di mana nilai yang kosong diestimasi berdasarkan hubungan antara variabel lain dalam dataset. Dalam semua kasus, penting untuk memahami penyebab nilai yang kosong dan memilih pendekatan yang paling sesuai dengan konteks dan tujuan analisis.
berikut hasil pengecekan missing values dari data transkip.
  • Handling Outliers
    Handling outliers adalah proses mengidentifikasi dan menangani nilai ekstrim dalam dataset yang mungkin tidak sesuai dengan pola umum data atau mungkin merupakan kesalahan dalam pengukuran atau perekaman. Outliers dapat memengaruhi analisis data dengan cara yang negatif, seperti menyebabkan estimasi statistik yang bias atau menghasilkan model yang tidak akurat. Untuk mengidentifikasi outliers, metode yang umum digunakan termasuk visualisasi data menggunakan boxplot atau scatter plot, serta analisis statistik menggunakan metode seperti z-score atau IQR (interquartile range). Setelah outliers diidentifikasi, langkah selanjutnya adalah menentukan apakah outliers tersebut merupakan nilai yang valid atau merupakan kesalahan. Jika outliers valid, mereka dapat dipertahankan dalam analisis. Namun, jika outliers merupakan kesalahan atau data yang tidak biasa, beberapa pendekatan untuk menanganinya termasuk menghapus outliers, menggantinya dengan nilai lain seperti nilai median, atau menggunakan teknik transformasi data untuk mengurangi dampak outliers pada analisis. Penting untuk memilih pendekatan yang tepat berdasarkan konteks dan tujuan analisis untuk memastikan hasil yang akurat dan dapat dipercaya.
pada dataset transkip kami mengindetifikasi outliers pada kolom numerik diantaranya kolom nilai grade, nilai total, dan sks matakuliah, Berikut hasil dari otliers dari data transkip.
2. Data Transformation

Transformasi data adalah salah satu tahap penting dalam analisis data, di mana data diubah, dimodifikasi, atau disesuaikan agar sesuai dengan kebutuhan analisis yang dilakukan. Pada contoh kali ini transformasi data dilakukan untuk mengonversi nilai-nilai dalam kolom 'grade' menjadi nilai biner yang menunjukkan apakah mahasiswa lulus atau tidak pada matakuliah yang ditempuh. Dengan mengubah format data menjadi biner, kita dapat dengan mudah menggunakannya untuk analisis lebih lanjut, seperti pemodelan prediktif atau analisis statistik.
dari kode tersebut menggunakan percabangan, jika grade matakuliah adalah A, A-, B, B+, B-, C, C+ maka diganti menjadi '1' yang berarti lulus, sedangkan selain itu bernilai '0' atau tidak lulus. setelah itu kolom grade dihapus karena sudah tidak diperlukan dan diganti dengan kolom 'lulus'. Hasilnya adalah sebagai berikut.

3. Data reduction
Data reduction adalah salah satu tahap dalam pengolahan data di mana ukuran data dikurangi atau disederhanakan dengan cara menghilangkan atau mengurangi jumlah atribut atau sampel data. Dalam contoh ini, data reduction dilakukan dengan menghapus beberapa kolom dari DataFrame yaitu kolom id, nama_mk, nama_mk_ing. Penghapusan kolom menggunakan fungsi drop() kita mengurangi jumlah atribut yang ada dalam data. Tindakan ini bertujuan untuk menyederhanakan struktur data dan menghilangkan informasi yang tidak relevan atau tidak diperlukan untuk analisis tertentu. Dengan melakukan data reduction, kita dapat meningkatkan efisiensi analisis data, mengurangi kompleksitas, dan mempercepat waktu pemrosesan data. Ini bisa sangat bermanfaat ketika kita bekerja dengan dataset yang sangat besar atau kompleks. sehingga hasilnya adalah sebagai beirkut.


Comments

Popular posts from this blog

P9 - Supervise Learning (Klasifikasi) dan Contoh Algoritma Yang Ada Didalamnya

Supervised learning adalah salah satu jenis pembelajaran mesin (machine learning) di mana model dilatih menggunakan data yang telah diberi label. Dalam supervised learning, terdapat dua kategori utama: klasifikasi dan regresi. Fokus kita kali ini adalah pada klasifikasi. Supervised Learning (Klasifikasi) Klasifikasi adalah salah satu tugas utama dalam supervised learning, di mana model bertujuan untuk memetakan input ke dalam salah satu dari beberapa kategori atau kelas yang sudah ditentukan sebelumnya. Misalnya, dalam klasifikasi email, model dilatih untuk mengkategorikan email sebagai "spam" atau "not spam." Dalam klasifikasi gambar, model dilatih untuk mengenali objek dalam gambar seperti "kucing," "anjing," atau "mobil." Dalam konteks pembelajaran mesin, supervised learning (pembelajaran terawasi) adalah metode di mana model dilatih menggunakan data yang telah diberi label. Artinya, setiap contoh data dalam set pelatihan memiliki in...

P3 - Pre-processing menggunakan Google Colab

 Pre-processing merupakan hal penting sebelum melatih model. Pre-processing diperlukan untuk mengubah data mentah menjadi data bersih yang cocok untuk dianalisis. Pre-processing penting dilakukan karena berbagai alasan diantaranya untuk meningkatkan kualitas data, meningkatkan kinerja model dan meningkatkan efisiensi. Pada pembahasan kali ini akan menjelaskan  data collection,  data cleaning data transform dan data reduction . Data Collection Data collection adalah proses pengumpulan, pengukuran, dan analisis berbagai tipe informasi menggunakan teknik berstandar. Tujuan dari data collection adalah untuk mengumpulkan informasi dan data terpercaya sebanyak-banyaknya, yang kemudian dianalisis untuk membuat sebuah keputusan bisnis yang krusial. Ketika sudah berhasil dikumpulkan, data ini kemudian melalui sejumlah proses meliputi pembersihan dan pemrosesan data agar dapat digunakan oleh perusahaan. Dalam melakukan data collection harus diketahui dahulu beberapa poin yaitu seb...

MENENTUKAN KARDINALITAS DAN OPSIOANLITAS

Prodi diketuai oleh dosen (one to one) 2. Dosen ploting program studi (one to one) 3.   Mahasiswa dibimbing dosen (many to one) 4.  Dosen memiliki prodi(one to one) 5.  Dosen mengampu matakuliah (one to one) 6.   Prodi memiliki kelas (many to many) 7.  Mahasiswa memilih matakuliah (many to many) 8.  mahasiswa ploting kelas (many to many) 9.  Fakultas memiliki Prodi (one to many) 10.  Mahasiswa dibimbing dosen (many to one)