Kelompok 48
- Trisya Nurmayanti 21416255201019
- Hilman Abdurrohim Azis 21416255201055
- Kiki Khoerulnisa 214162552024
Sebelum Melakukan Preparation kami menyiapkan datasetnya terlebih dahulu, menggunakan dataset transkip nilai sebanyak 256299 data
- Data Cleaning
- Handling Missing Values
Handling missing values adalah proses mengatasi nilai yang kosong atau hilang dalam dataset. Nilai yang hilang dapat terjadi karena berbagai alasan, seperti kesalahan pengukuran, kegagalan sistem, atau ketidakhadiran informasi. Penanganan nilai yang kosong penting karena dapat mempengaruhi hasil analisis secara negatif jika dibiarkan. Salah satu pendekatan umum dalam menangani nilai yang kosong adalah dengan menghapus baris atau kolom yang mengandung nilai kosong. Namun, pendekatan ini dapat mengurangi jumlah data yang tersedia dan menghilangkan informasi penting. Alternatifnya, nilai yang kosong dapat diisi dengan nilai rata-rata, median, atau modus dari kolom yang bersangkutan. Pendekatan lain termasuk menggunakan teknik imputasi, di mana nilai yang kosong diestimasi berdasarkan hubungan antara variabel lain dalam dataset. Dalam semua kasus, penting untuk memahami penyebab nilai yang kosong dan memilih pendekatan yang paling sesuai dengan konteks dan tujuan analisis.
berikut hasil pengecekan missing values dari data transkip.
- Handling Outliers
Handling outliers adalah proses mengidentifikasi dan menangani nilai ekstrim dalam dataset yang mungkin tidak sesuai dengan pola umum data atau mungkin merupakan kesalahan dalam pengukuran atau perekaman. Outliers dapat memengaruhi analisis data dengan cara yang negatif, seperti menyebabkan estimasi statistik yang bias atau menghasilkan model yang tidak akurat. Untuk mengidentifikasi outliers, metode yang umum digunakan termasuk visualisasi data menggunakan boxplot atau scatter plot, serta analisis statistik menggunakan metode seperti z-score atau IQR (interquartile range). Setelah outliers diidentifikasi, langkah selanjutnya adalah menentukan apakah outliers tersebut merupakan nilai yang valid atau merupakan kesalahan. Jika outliers valid, mereka dapat dipertahankan dalam analisis. Namun, jika outliers merupakan kesalahan atau data yang tidak biasa, beberapa pendekatan untuk menanganinya termasuk menghapus outliers, menggantinya dengan nilai lain seperti nilai median, atau menggunakan teknik transformasi data untuk mengurangi dampak outliers pada analisis. Penting untuk memilih pendekatan yang tepat berdasarkan konteks dan tujuan analisis untuk memastikan hasil yang akurat dan dapat dipercaya.
pada dataset transkip kami mengindetifikasi outliers pada kolom numerik diantaranya kolom nilai grade, nilai total, dan sks matakuliah, Berikut hasil dari otliers dari data transkip.
2. Data Transformation
Transformasi data adalah salah satu tahap penting dalam analisis data, di mana data diubah, dimodifikasi, atau disesuaikan agar sesuai dengan kebutuhan analisis yang dilakukan. Pada contoh kali ini transformasi data dilakukan untuk mengonversi nilai-nilai dalam kolom 'grade' menjadi nilai biner yang menunjukkan apakah mahasiswa lulus atau tidak pada matakuliah yang ditempuh. Dengan mengubah format data menjadi biner, kita dapat dengan mudah menggunakannya untuk analisis lebih lanjut, seperti pemodelan prediktif atau analisis statistik.
dari kode tersebut menggunakan percabangan, jika grade matakuliah adalah A, A-, B, B+, B-, C, C+ maka diganti menjadi '1' yang berarti lulus, sedangkan selain itu bernilai '0' atau tidak lulus. setelah itu kolom grade dihapus karena sudah tidak diperlukan dan diganti dengan kolom 'lulus'. Hasilnya adalah sebagai berikut.
Data reduction adalah salah satu tahap dalam pengolahan data di mana ukuran data dikurangi atau disederhanakan dengan cara menghilangkan atau mengurangi jumlah atribut atau sampel data. Dalam contoh ini, data reduction dilakukan dengan menghapus beberapa kolom dari DataFrame yaitu kolom id, nama_mk, nama_mk_ing. Penghapusan kolom menggunakan fungsi drop() kita mengurangi jumlah atribut yang ada dalam data. Tindakan ini bertujuan untuk menyederhanakan struktur data dan menghilangkan informasi yang tidak relevan atau tidak diperlukan untuk analisis tertentu. Dengan melakukan data reduction, kita dapat meningkatkan efisiensi analisis data, mengurangi kompleksitas, dan mempercepat waktu pemrosesan data. Ini bisa sangat bermanfaat ketika kita bekerja dengan dataset yang sangat besar atau kompleks. sehingga hasilnya adalah sebagai beirkut.



Comments
Post a Comment