Skip to main content

P1 - Proses atau Tahapan Data Mining



Proses data mining adalah serangkaian langkah atau tahapan yang dilakukan untuk menghasilkan wawasan atau pengetahuan yang berharga dari kumpulan data. Tahapan-tahapan ini dirancang untuk memastikan bahwa analisis data dilakukan dengan benar dan hasilnya dapat diterapkan secara efektif dalam konteks bisnis atau penelitian. Berikut adalah tahapan dalam proses data mining:

1. Pembersihan data

Pembersihan data bertujuan untuk membuang atau menghilangkan data yang tidak konsisten atau dianggap sebagai noise sehingga tidak dibutuhkan untuk tahapan data mining selanjutnya. Langkah pertama dalam pembersihan data adalah mengidentifikasi dan menangani nilai yang hilang, yang dapat mempengaruhi keakuratan analisis. Setelah itu, outlier, yaitu nilai yang ekstrim, juga perlu dideteksi dan diperlakukan secara khusus karena dapat mengganggu pola umum dalam data. Selain itu, jika data yang digunakan adalah data teks, pembersihan teks dilakukan untuk menghapus karakter khusus, mengonversi teks menjadi huruf kecil, dan menghapus kata-kata umum yang tidak relevan. Langkah selanjutnya adalah memeriksa konsistensi data untuk mengidentifikasi dan memperbaiki kesalahan manusia atau kesalahan entri data. Normalisasi atau standarisasi variabel juga penting untuk memastikan bahwa variabel dalam dataset memiliki skala yang seragam. Akhirnya, setelah proses pembersihan selesai, verifikasi dan validasi dilakukan untuk memastikan bahwa data telah dibersihkan dengan benar dan tidak ada informasi yang hilang atau terdistorsi. Dengan melakukan pembersihan data dengan cermat, akan dihasilkan data yang lebih baik, yang pada akhirnya akan menghasilkan hasil analisis yang lebih akurat dan dapat diandalkan.

2.  Integrasi data

Integrasi data melibatkan penggabungan data dari berbagai sumber atau sumber data yang berbeda untuk membentuk satu dataset yang lebih lengkap dan terpadu. Tujuan utama dari integrasi data adalah untuk memastikan bahwa data yang digunakan dalam analisis memiliki cakupan yang memadai dan menyeluruh, sehingga memungkinkan analisis yang lebih komprehensif dan akurat. Proses integrasi data dimulai dengan identifikasi dan pengumpulan data dari berbagai sumber. Setelah data dikumpulkan, langkah selanjutnya adalah menentukan cara terbaik untuk menggabungkan data tersebut menjadi satu dataset yang koheren. Proses integrasi data juga dapat melibatkan pemecahan konflik yang mungkin muncul antara data yang berasal dari berbagai sumber. Misalnya, jika terdapat duplikasi data atau perbedaan format, perlu diambil keputusan untuk menentukan data mana yang akan diprioritaskan atau bagaimana data yang konflik tersebut akan disatukan.

3. Transformasi data

Transformasi data adalah tahap dalam proses data mining yang melibatkan pengubahan atau pengolahan data dari bentuk asalnya menjadi bentuk yang lebih sesuai atau lebih berguna untuk analisis selanjutnya. Tujuan utama dari transformasi data adalah untuk meningkatkan kualitas data, membuatnya lebih siap untuk analisis, dan menghasilkan hasil yang lebih akurat.

4.  Mining Data

Tahap ini merupakan inti dari proses data mining. Berbagai teknik dan algoritma data mining diterapkan pada data yang telah dipersiapkan sebelumnya. Teknik data mining meliputi eksplorasi data, pengelompokan (clustering), klasifikasi, regresi, asosiasi, dan lainnya. Tujuan dari tahap ini adalah mengidentifikasi pola, hubungan, atau wawasan yang tersembunyi dalam data yang dapat digunakan untuk tujuan analisis atau pengambilan keputusan yang lebih baik.

5. Evaluasi

Evaluasi dilakukan untuk mengukur kualitas model atau temuan yang diperoleh dari data mining. Hal ini melibatkan penggunaan metrik evaluasi yang sesuai, seperti akurasi, presisi, recall, atau metrik lain yang relevan tergantung pada jenis analisis yang dilakukan. Hasil yang diperoleh kemudian diinterpretasikan untuk mendapatkan wawasan yang berarti dan informasi yang dapat diaplikasikan dalam konteks bisnis atau tujuan analisis yang ditentukan.

6. Presentasi Pengetahuan

Presentasi pengetahuan dilakukan dengan visualisasi agar mudah dipahami.


CRISP-DM (Cross-Industry Standard Process for Data Mining)

CRISP-DM adalah metodologi yang paling umum digunakan dalam industri untuk menyelesaikan proyek data mining. Kerangka kerja ini terdiri dari enam tahapan yang saling terkait: 

Understanding the Business Understanding: Tahap ini dimulai dengan pemahaman mendalam tentang tujuan bisnis proyek. Ini melibatkan identifikasi masalah yang ingin diselesaikan, peluang yang ingin dimanfaatkan, serta kebutuhan informasi yang harus dipenuhi.

Understanding the Data: Pada tahap ini, data yang relevan untuk proyek dikumpulkan, dieksplorasi, dan dipahami. Ini termasuk pemahaman terhadap struktur data, kualitas data, serta karakteristik variabel yang tersedia.

Data Preparation: Data yang diperoleh sering kali memerlukan pembersihan, integrasi, dan transformasi sebelum dapat digunakan untuk analisis lebih lanjut. Pada tahap ini, data dipersiapkan agar sesuai dengan kebutuhan model data mining yang akan dibangun.

Modeling: Setelah data dipersiapkan, berbagai teknik dan algoritma data mining diterapkan untuk membangun model. Ini dapat mencakup pemodelan prediktif, di mana model digunakan untuk membuat prediksi tentang perilaku di masa depan, atau pemodelan deskriptif, di mana model digunakan untuk menggambarkan pola atau relasi dalam data.

Evaluation: Model yang dibangun dievaluasi untuk memastikan bahwa mereka memenuhi tujuan bisnis dan memiliki kinerja yang memadai. Evaluasi dapat melibatkan penggunaan metrik kinerja dan teknik validasi untuk menilai keakuratan dan keandalan model.

Deployment: Model yang telah dievaluasi dan divalidasi diterapkan dalam lingkungan produksi atau operasional. Proses ini melibatkan integrasi model ke dalam sistem atau proses yang relevan dan memastikan bahwa model dapat digunakan secara efektif oleh pengguna yang dituju.


SEMMA (Sample, Explore, Modify, Model, Assess)

Metodologi SEMMA juga sering digunakan dalam proses data mining, terutama dalam konteks analisis prediktif. Tahapan-tahapannya adalah sebagai berikut:

Sample: Tahap ini melibatkan pemilihan sampel data yang representatif dari keseluruhan populasi data. Sampel ini akan menjadi dasar untuk analisis lebih lanjut.

Explore: Pada tahap ini, data dieksplorasi untuk mengidentifikasi pola, tren, anomali, dan hubungan yang mungkin ada di dalamnya. Teknik visualisasi data sering digunakan untuk membantu dalam pemahaman awal terhadap data.

Modify: Data sering kali memerlukan pemrosesan lanjutan sebelum dapat digunakan untuk analisis lebih lanjut. Ini dapat mencakup pembersihan data untuk mengatasi missing values atau outliers, penggabungan data dari sumber yang berbeda, atau transformasi variabel untuk memenuhi asumsi model.

Model: Pada tahap ini, model data mining dibangun dengan menggunakan teknik yang sesuai untuk tujuan analisis yang telah ditetapkan. Ini dapat mencakup pemodelan statistik, pemodelan prediktif, atau pemodelan lainnya tergantung pada kebutuhan proyek.

Assess: Setelah model dibangun, mereka dievaluasi dan diuji menggunakan data yang independen untuk memastikan bahwa mereka memiliki kinerja yang memadai dan dapat diterapkan dalam situasi dunia nyata. 


CCC (Computational, Cognitive, and Communication)

CCC adalah kerangka kerja yang menekankan pada aspek komputasional, kognitif, dan komunikatif dari proses data mining. Ini menyoroti pentingnya penggunaan teknik komputasi yang tepat, pemahaman manusia yang mendalam, dan komunikasi efektif dari temuan analisis kepada pemangku kepentingan. Tahapan-tahapan yang terlibat dalam CCC adalah:

Computational: Pendekatan ini menekankan penggunaan teknik komputasi dan algoritma untuk mengekstrak informasi dari data. Ini melibatkan pemilihan dan penerapan algoritma yang sesuai untuk tujuan analisis yang ditetapkan.

Cognitive: Aspek kognitif memperhatikan peran manusia dalam proses data mining. Ini melibatkan pemahaman dan interpretasi manusia terhadap hasil analisis data serta pengambilan keputusan yang didukung oleh wawasan yang diperoleh.

Communication: Tahap ini berfokus pada penyajian hasil analisis data kepada pemangku kepentingan. Komunikasi yang efektif tentang temuan dan wawasan yang diperoleh dari data mining sangat penting untuk mendukung pengambilan keputusan yang informasi-didukung.

Comments

Popular posts from this blog

P9 - Supervise Learning (Klasifikasi) dan Contoh Algoritma Yang Ada Didalamnya

Supervised learning adalah salah satu jenis pembelajaran mesin (machine learning) di mana model dilatih menggunakan data yang telah diberi label. Dalam supervised learning, terdapat dua kategori utama: klasifikasi dan regresi. Fokus kita kali ini adalah pada klasifikasi. Supervised Learning (Klasifikasi) Klasifikasi adalah salah satu tugas utama dalam supervised learning, di mana model bertujuan untuk memetakan input ke dalam salah satu dari beberapa kategori atau kelas yang sudah ditentukan sebelumnya. Misalnya, dalam klasifikasi email, model dilatih untuk mengkategorikan email sebagai "spam" atau "not spam." Dalam klasifikasi gambar, model dilatih untuk mengenali objek dalam gambar seperti "kucing," "anjing," atau "mobil." Dalam konteks pembelajaran mesin, supervised learning (pembelajaran terawasi) adalah metode di mana model dilatih menggunakan data yang telah diberi label. Artinya, setiap contoh data dalam set pelatihan memiliki in...

MENENTUKAN KARDINALITAS DAN OPSIOANLITAS

Prodi diketuai oleh dosen (one to one) 2. Dosen ploting program studi (one to one) 3.   Mahasiswa dibimbing dosen (many to one) 4.  Dosen memiliki prodi(one to one) 5.  Dosen mengampu matakuliah (one to one) 6.   Prodi memiliki kelas (many to many) 7.  Mahasiswa memilih matakuliah (many to many) 8.  mahasiswa ploting kelas (many to many) 9.  Fakultas memiliki Prodi (one to many) 10.  Mahasiswa dibimbing dosen (many to one)

Quiz Pertemuan 5 Data Mining

  Anda juga dapat mendownload laporan  Di sini . silahkan klik kata 'di sini'. Bagian 1. Pendahuluan Di era modern ini, tantangan dalam meningkatkan kualitas pendidikan menjadi semakin kompleks. Salah satu indikator keberhasilan pendidikan adalah tingkat kelulusan tepat waktu dan lama masa studi mahasiswa di perguruan tinggi. Oleh karena itu, pemahaman mendalam terhadap faktor-faktor yang memengaruhi lulusan tepat waktu sangat penting. Laporan ini bertujuan untuk melakukan analisis yang mendalam terhadap faktor-faktor yang mempengaruhi lulusan tepat waktu dan lama masa studi di lingkungan akademik. Analisis dilakukan meliputi integrasi dan pembersihan data, serta mengidentifikasi tren atau pola yang mempengaruhi lulusan tepat waktu. Berikut permasalahan-permasalahan yang akan dibahas pada analisis lulusan tepat waktu. 1.      Langkah-langkah apa saja dalam integrasi dan pembersihan data serta analisis pola lulusan tepat waktu? 2.    ...