CRISP DM adalah
11:23 PM
Edit
Penelitian ini melakukan proses data mining dengan memanfaatkan metodologi CRISP-DM. Metodologi initerdiridarienam tahapprosessiklus. Metodologi ini membuat data mining yang besar dapat dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur. Bahkan, datamining yang berukuran kecil pun dapat memperoleh keuntungan dari CRISP-DM (Olson & Dursun, 2008). Berikut adalah enam tahap yang disebut sebagai siklus:
1. Business understanding
Business understanding meliputi penentuan tujuan bisnis, menilai situasi saat ini, menetapkan tujuan data mining, dan mengembangkan rencana proyek.
Setelah sumber data telah tersedia untuk diidentifikasi. Data tersebut perlu untuk dipilih, dibersihkan, dibangun ke dalam model yang diinginkan, dan diformat. Pembersihan data dan transformasi data dalam penyusunan pemodelan data perlu terjadi ditahap ini.
Terdapat beberapa teknik dalam mengolah data seperti Data Transformation, Data Reduction dan Data Cleaning, diantaranya :
• Generalization
Mengubah data atribut low level menjadi atribut high level, contoh: atribut numerical menjadi ordinal.
• Attribute construction
Penambahan atribut baru untuk kepentingan proses mining.
• Attribute subset selection
Attribute subset selection dilakukan untuk pemilihan atribut yang menjadi atribut predictor. Ada 4 (empat) metode yang dapat digunakan dalam melakukan attribute subset selection, yaitu :
• Missing Value
Nilai null yang terdapat dalam data set dapat mengganggu pembuatan mining yang dilakukan. Ada 6 (enam) metode yang dapat digunakan dalam mengolah nilai null yang terdapat dalam data, yaitu :
Tujuan dari pemodelan data mining adalah untuk mencari hasil dari berbagai situasi yang ada. Alat perangkat lunak untuk data mining seperti visualisasi (men-split data dan membangun hubungan) dan analisis kluster (untuk mengidentifikasikan variabel berjalan dengan baik secara bersamaan) dapat berguna untuk analisis awal model yang akan digunakan. Pembagian data ke dalam set pelatihan dan pengujian juga diperlukan untuk pemodelan.
5. Evaluation
Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama (pemahaman bisnis). Evaluasi dilakukan dari hasil visualisasi dan perhitungan statistik pengujian berdasarkan pemodelan yang dibuat. Pada akhir dari tahap ini, keputusan penggunaan hasil data mining telah ditentukan.
6. Deployment
Pembuatan dari model bukanlah akhir dari proyek data mining. Meskipun tujuan dari pemodelan adalah untuk meningkatkan pengetahuan dari data, pengetahuan data tersebut perlu dibangun dengan terorganisasi dan dibuat pada satu bentuk yang dapat digunakan oleh pengguna.
2. Data understanding
Setelah tujuan bisnis dan rencana proyek ditetapkan, Data understanding mempertimbangkan persyaratan data. Langkah inidapat mencakup pengumpulan data awal, deskripsi data, eksplorasi data, dan verifikasi data yang berkualitas.3. Data preparation
Setelah sumber data telah tersedia untuk diidentifikasi. Data tersebut perlu untuk dipilih, dibersihkan, dibangun ke dalam model yang diinginkan, dan diformat. Pembersihan data dan transformasi data dalam penyusunan pemodelan data perlu terjadi ditahap ini.
Greedy (heuristic) methods for attribute subset selection |
Terdapat beberapa teknik dalam mengolah data seperti Data Transformation, Data Reduction dan Data Cleaning, diantaranya :
• Generalization
Mengubah data atribut low level menjadi atribut high level, contoh: atribut numerical menjadi ordinal.
• Attribute construction
Penambahan atribut baru untuk kepentingan proses mining.
• Attribute subset selection
Attribute subset selection dilakukan untuk pemilihan atribut yang menjadi atribut predictor. Ada 4 (empat) metode yang dapat digunakan dalam melakukan attribute subset selection, yaitu :
- a. Stepwise forward selection
- b. Stepwise backward elimination
- c. Combination of forward selection and backward elimination
- d. Decision tree induction
• Missing Value
Nilai null yang terdapat dalam data set dapat mengganggu pembuatan mining yang dilakukan. Ada 6 (enam) metode yang dapat digunakan dalam mengolah nilai null yang terdapat dalam data, yaitu :
- Ignore the tuple: tidak menggunakan tuple yang memiliki nilai null.
- Fill in the missing value manually: mengisi sendiri nilai null yang terdapat dalam data.
- Use global constant to fill in the missing value: mengganti nilai null dengan label constant, seperti “Unknown”.
- Use the attribute mean to fill in the missing value: mengganti nilai null dengan rata-rata yang dimiliki atribut.
- Use the attribute mean for all samples belonging to the same class the given tuple: mengganti nilai null dengan nilai rata-rata yang dimilik atribut berdasarkan target kelas yang dicari.
- Use the most probable value to fill in the missing value: mengganti nilai null dengan nilai yang paling mungkin muncul berdasarkan atribut target kelas yang dicari.
Tujuan dari pemodelan data mining adalah untuk mencari hasil dari berbagai situasi yang ada. Alat perangkat lunak untuk data mining seperti visualisasi (men-split data dan membangun hubungan) dan analisis kluster (untuk mengidentifikasikan variabel berjalan dengan baik secara bersamaan) dapat berguna untuk analisis awal model yang akan digunakan. Pembagian data ke dalam set pelatihan dan pengujian juga diperlukan untuk pemodelan.
5. Evaluation
Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama (pemahaman bisnis). Evaluasi dilakukan dari hasil visualisasi dan perhitungan statistik pengujian berdasarkan pemodelan yang dibuat. Pada akhir dari tahap ini, keputusan penggunaan hasil data mining telah ditentukan.
6. Deployment
Pembuatan dari model bukanlah akhir dari proyek data mining. Meskipun tujuan dari pemodelan adalah untuk meningkatkan pengetahuan dari data, pengetahuan data tersebut perlu dibangun dengan terorganisasi dan dibuat pada satu bentuk yang dapat digunakan oleh pengguna.
CRISP-DM process |