Sebelum mengetahui teknik-teknik yang dapat digunakan dalam data mining terdapat empat operasi yang dapat dihubungkan dengan data mining sebagai berikut.
a. Predictive modeling, ada dua teknik yang dapat dilakukan dalam predictive modeling, yaitu:
#Classification
Digunakan untuk membuat dugaan awal tentang class yang spesifik untuk setiap record dalam database dari satu setnilai class yang mungkin
#Value Prediction
Digunakan untuk memperkirakan nilai numeric yang kontinu yang trasosiasi dengan record database. Teknik ini menggunakan teknik statistic klasik dari linier regression dan nonlinier regression.
b. Database segmentation
Tujuan dabase segmentation adalah untuk mempartisi database menjadi sejumlah segmen, cluster, atau record yang sama, dimana record tersebut diharapkan homogen.
c. Link analysis
Tujuan link analysis adalah untuk membuat hubungan antara record yang individual atau sekumpulan record dalam database. Aplikasi pada link analysis meliputi product affinity analysis, direct marketing, dan stock price movement.
d. Deviation detection
Teknik ini sering kali merupakan sumber dari penemuan yang benar karena teknik ini mengidentifikasi outlier yang mengekspresikan deviasi dari ekspektasi yang telah diketahui sebelumnya. Operasi ini dapat ditampilkan menggunakan teknik statistik dan visualisasi.
Aplikasi deviation detection misalnya pada deteksi penipuan dalam penggunaan kartu kredit dan klaim asuransi, quality control, dan defect tracing.
Dalam data mining terdapat dua tipe teknik yaitu:
1. Teknik Klasik (Classical Technique) yang terdiri atas:
a. Statistic
Statistik adalah cabang ilmu matematika yang mempelajari tentang sekumpulan dan deskripsi data yang akan digunakan dalam membuat laporan tentang informasi yang penting agar seseorang dapat membuat keputusan yang berguna. Salah satu keuntungan statistik adalah menampilkan database dalam tampilan ber-level tinggi yang menyediakan informasi-informasi yang berguna tanpa perlu mengerti setiap record secara detail.
b. Nearest Neighbour
Teknik prediksi pengelompokan dan nearest neighbour merupakan teknik yang tertua yang digunakan dalam data mining. Nearest neighbour merupakan teknik prediksi yang hampir sama dengan pengelompokan, untuk memperkirakan apakah nilai prediksi ada dalam satu record, mencari kesamaan nilai prediktor didalam basis data historis dan menggunakan nilai prediksi dari record yang “Terdekat” untuk tidak membagi-bagikan record.
c. Pengelompokan (Clustering)
Pengelompokan merupakan metode yang mengklasifikasikan data kedalam kelompok-kelompok berdasarkan kriteria masing-masing data. Biasanya,teknik ini dipakai untuk memberikan pengguna akhir sebuah gambaran level atas dari apa yang telah terjadi didalam basis data. Pengelompokan terkadang digunakan untuk segmentasi.
2. Teknik generasi selanjutnya (The Next Generation Technique)
Decision Tree (Pohon Keputusan)
Pohon keputusan merupakan model prediktif yang dapat digambarkan seperti pohon, dimana setiap node didalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data. Struktur ini dapat digunakan untuk membantu memperkirakan kemungkinan nilai setiap atribut data.
Beberapa hal menarik tentang tree:
- Tree ini membagi data pada setiap cabangnya tanpa kehilangan data sedikit pun. Jumlah total record pada node parent sama dengan jumlah total record yang ada node children.
- Sangat mudah dimengerti bagaimana sebuah model dibangun, kebalikan dengan model dari neural network atau dari statistik standar.
- Mudah untuk menggunakan model ini jika kita mempunyai target pelanggan yang sepertinya tertarik dengan penawaran marketing.
Dari perspektif bisnis, decision tree dapat dilihat sebagai pembuatan segmentasi dari data set yang orisinil. Segmentasi ini dilakukan untuk beberapa alasan tertentu, misalnya untuk prediksi dari beberapa potong informasi penting. Meskipun decision tree sendiri dan algoritma yang membuat decision tree itu mungkin saja sangat kompleks, namun hasil yang ditampilkan dengan cara yang mudah dimengerti sangat membantu untuk pengguna bisnis. Decision tree sering kali dikembangkan untuk statistican dalam mengotomatisasi proses menentukan field mana dari database mereka yang benar-benar berguna untuk terkorelasi dengan masalh tertentu yang sedang mereka usahakan untuk mengerti. Karena itu, algoritma decision tree cenderung mengotomatisasi seluruh proses pembuatan hipotesis dan kemudian melakukan validasi yang lebih komplit dalam cara yang lebih terintegrasi dibanding dengan teknik data mining lainnya.
Decision tree biasanya digunakan untuk berbagai kebutuhan:
a. Eksplorasi
Teknologi decision tree dapat digunakan untuk eksplorasi data set dan masalah bisnis. Hal ini biasanya dilakukan dengan mencari predictor dan nilai yang dipilih untuk setiap bagian/cabang dari tree tersebut.
b. Preprocessing data
Teknologi ini juga dapat digunakan untuk mengolah daan memproses data yang dapat digunakan pada algoritma lain, misalnya neural network, nearest neighbour, dan lain-lain. Hal itu karena algoritma lain memerlukan waktu yang relatif lama untuk dijalankan jika terdapat jumlah predictor dalam jumlah besar untuk digunakan sebagai model sehingga teknik decision tree biasanya digunakan pada tahap pertama data mining untuk menciptakan subset yang berguna dari predictor baru kemudian hasil tersebut akan dapat dimasukkan pada teknik data miing yang lain.
c. Prediksi
Para analis menggunakan teknik ini untuk membangun sebuah model prediktif yang efektif. Decision tree mempunyai beberapa keuntungan sebagai berikut :
- Decision tree mudah dimengerti dan diinterprestasikan.
- Penyiapan data untuk decision tree adalahutama dan tidak dibutuhkan.
- Decision tree dapat mengatasi, baik data nominal maupun kategorial.
- Decision tree merupakan model white box.
- Decision tree dapat melakukan validasi terhadap model dengan tes statistik. Hal itu akan memungkinan untuk menghitung reliabilitad model.
- Decision tree meruakan teknik yang kuat, dapat bekerja baik dengan data yang besar dalam waktu yang singkat.