-->

Ads

CRISP DM adalah

Penelitian ini melakukan proses data mining dengan memanfaatkan metodologi CRISP-DM. Metodologi initerdiridarienam tahapprosessiklus. Metodologi ini membuat data mining yang besar dapat dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur. Bahkan, datamining yang berukuran kecil pun dapat memperoleh keuntungan dari CRISP-DM (Olson & Dursun, 2008). Berikut adalah enam tahap yang disebut sebagai siklus:

1.    Business understanding

Business understanding meliputi penentuan tujuan bisnis, menilai situasi saat ini, menetapkan tujuan data mining, dan mengembangkan rencana proyek.

2.    Data understanding

Setelah tujuan bisnis dan rencana proyek ditetapkan, Data understanding mempertimbangkan persyaratan data. Langkah inidapat mencakup pengumpulan data awal, deskripsi data, eksplorasi data, dan verifikasi data yang berkualitas.

3.    Data preparation


Setelah sumber data telah tersedia untuk diidentifikasi. Data tersebut perlu untuk dipilih, dibersihkan, dibangun ke dalam model yang diinginkan, dan diformat. Pembersihan data dan transformasi data dalam penyusunan pemodelan data perlu terjadi ditahap ini.
Greedy (heuristic) methods for attribute subset selection
Greedy (heuristic) methods for attribute subset selection

Terdapat beberapa teknik dalam mengolah data seperti Data Transformation, Data Reduction dan Data Cleaning, diantaranya :
•    Generalization
Mengubah data atribut low level menjadi atribut high level, contoh: atribut numerical menjadi ordinal.
•    Attribute construction
Penambahan atribut baru untuk kepentingan proses mining.
•    Attribute subset selection
Attribute subset selection dilakukan untuk pemilihan atribut yang menjadi atribut predictor. Ada 4 (empat) metode yang dapat digunakan dalam melakukan attribute subset selection, yaitu :
  1. a.    Stepwise forward selection
Proses metode ini adalah untuk mencari atribut terbaik dari seluruh data set dan di masukkan ke dalam data set baru berdasarkan atribut terbaik yang telah dipilih.
  1. b.    Stepwise backward elimination
Proses metode ini adalah untuk mencari atribut yang tidak berkaitan dengan data mining yang dicari, lalu langsung menghapusnya dari data set.
  1. c.    Combination of forward selection and backward elimination
Proses metode ini adalah penggabungan dari metode stepwise forward selection dan stepwise backward elimination.
  • d.    Decision tree induction
Proses metode ini menggunakan algoritma decision tree, seperti algoritma ID3, C4.5, dan cart dalam mencari atribut yang terbaik.

•    Missing Value
Nilai null yang terdapat dalam data set dapat mengganggu pembuatan mining yang dilakukan. Ada 6 (enam) metode yang dapat digunakan dalam mengolah nilai null yang terdapat dalam data, yaitu :
  • Ignore the tuple: tidak menggunakan tuple yang memiliki nilai null.
  • Fill in the missing value manually: mengisi sendiri nilai null yang terdapat dalam data.
  • Use global constant to fill in the missing value: mengganti nilai null dengan label constant, seperti “Unknown”.
  • Use the attribute mean to fill in the missing value: mengganti nilai null dengan rata-rata yang dimiliki atribut.
  • Use the attribute mean for all samples belonging to the same class the given tuple: mengganti nilai null dengan nilai rata-rata yang dimilik atribut berdasarkan target kelas yang dicari.
  • Use the most probable value to fill in the missing value: mengganti nilai null dengan nilai yang paling mungkin muncul berdasarkan atribut target kelas yang dicari.
4.    Modeling

Tujuan dari pemodelan data mining adalah untuk mencari hasil dari berbagai situasi yang ada. Alat perangkat lunak untuk data mining seperti visualisasi (men-split data dan membangun hubungan) dan analisis kluster (untuk mengidentifikasikan variabel berjalan dengan baik secara bersamaan) dapat berguna untuk analisis awal model yang akan digunakan. Pembagian data ke dalam set pelatihan dan pengujian juga diperlukan untuk pemodelan.
5.    Evaluation
Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama (pemahaman bisnis). Evaluasi dilakukan dari hasil visualisasi dan perhitungan statistik pengujian berdasarkan pemodelan yang dibuat. Pada akhir dari tahap ini, keputusan penggunaan hasil data mining telah ditentukan.
6.    Deployment
Pembuatan dari model bukanlah akhir dari proyek data mining. Meskipun tujuan dari pemodelan adalah untuk meningkatkan pengetahuan dari data, pengetahuan data tersebut perlu dibangun dengan terorganisasi dan dibuat pada satu bentuk yang dapat digunakan oleh pengguna.
CRISP-DM process
CRISP-DM process

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel