Teknik Data Mining


Sebelum mengetahui teknik-teknik yang dapat digunakan dalam data mining terdapat empat operasi yang dapat dihubungkan dengan data mining sebagai berikut.

a. Predictive modeling, ada dua teknik yang dapat dilakukan dalam predictive modeling, yaitu:

#Classification
Digunakan untuk membuat dugaan awal tentang class yang spesifik untuk setiap record dalam database dari satu setnilai class yang mungkin

#Value Prediction
Digunakan untuk memperkirakan nilai numeric yang kontinu yang trasosiasi dengan record database. Teknik ini menggunakan teknik statistic klasik dari linier regression dan nonlinier regression.

b. Database segmentation

Tujuan dabase segmentation adalah untuk mempartisi database menjadi sejumlah segmen, cluster, atau record yang sama, dimana record tersebut diharapkan homogen.

c. Link analysis

Tujuan link analysis adalah untuk membuat hubungan antara record yang individual atau sekumpulan record dalam database. Aplikasi pada link analysis meliputi product affinity analysis, direct marketing, dan stock price movement.

d. Deviation detection
Teknik ini sering kali merupakan sumber dari penemuan yang benar karena teknik ini mengidentifikasi outlier yang mengekspresikan deviasi dari ekspektasi yang telah diketahui sebelumnya. Operasi ini dapat ditampilkan menggunakan teknik statistik dan visualisasi.
Aplikasi deviation detection misalnya pada deteksi penipuan dalam penggunaan kartu kredit dan klaim asuransi, quality control, dan defect tracing.

Dalam data mining terdapat dua tipe teknik yaitu:

1. Teknik Klasik (Classical Technique) yang terdiri atas:

a. Statistic

Statistik adalah cabang ilmu matematika yang mempelajari tentang sekumpulan dan deskripsi data yang akan digunakan dalam membuat laporan tentang informasi yang penting agar seseorang dapat membuat keputusan yang berguna. Salah satu keuntungan statistik adalah menampilkan database dalam tampilan ber-level tinggi yang menyediakan informasi-informasi yang berguna tanpa perlu mengerti setiap record secara detail.

b. Nearest Neighbour

Teknik prediksi pengelompokan dan nearest neighbour merupakan teknik yang tertua yang digunakan dalam data mining. Nearest neighbour merupakan teknik prediksi yang hampir sama dengan pengelompokan, untuk memperkirakan apakah nilai prediksi ada dalam satu record, mencari kesamaan nilai prediktor didalam basis data historis dan menggunakan nilai prediksi dari record yang “Terdekat” untuk tidak membagi-bagikan record.

c. Pengelompokan (Clustering)

Pengelompokan merupakan metode yang mengklasifikasikan data kedalam kelompok-kelompok berdasarkan kriteria masing-masing data. Biasanya,teknik ini dipakai untuk memberikan pengguna akhir sebuah gambaran level atas dari apa yang telah terjadi didalam basis data. Pengelompokan terkadang digunakan untuk segmentasi.

2. Teknik generasi selanjutnya (The Next Generation Technique)

Decision Tree (Pohon Keputusan)

Pohon keputusan merupakan model prediktif yang dapat digambarkan seperti pohon, dimana setiap node didalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data. Struktur ini dapat digunakan untuk membantu memperkirakan kemungkinan nilai setiap atribut data.

Beberapa hal menarik tentang tree:
  1. Tree ini membagi data pada setiap cabangnya tanpa kehilangan data sedikit pun. Jumlah total record pada node parent sama dengan jumlah total record yang ada node children.
  2. Sangat mudah dimengerti bagaimana sebuah model dibangun, kebalikan dengan model dari neural network atau dari statistik standar.
  3. Mudah untuk menggunakan model ini jika kita mempunyai target pelanggan yang sepertinya tertarik dengan penawaran marketing.
Dari perspektif bisnis, decision tree dapat dilihat sebagai pembuatan segmentasi dari data set yang orisinil. Segmentasi ini dilakukan untuk beberapa alasan tertentu, misalnya untuk prediksi dari beberapa potong informasi penting. Meskipun decision tree sendiri dan algoritma yang membuat decision tree itu mungkin saja sangat kompleks, namun hasil yang ditampilkan dengan cara yang mudah dimengerti sangat membantu untuk pengguna bisnis. Decision tree sering kali dikembangkan untuk statistican dalam mengotomatisasi proses menentukan field mana dari database mereka yang benar-benar berguna untuk terkorelasi dengan masalh tertentu yang sedang mereka usahakan untuk mengerti. Karena itu, algoritma decision tree cenderung mengotomatisasi seluruh proses pembuatan hipotesis dan kemudian melakukan validasi yang lebih komplit dalam cara yang lebih terintegrasi dibanding dengan teknik data mining lainnya.

Decision tree biasanya digunakan untuk berbagai kebutuhan:

a. Eksplorasi

Teknologi decision tree dapat digunakan untuk eksplorasi data set dan masalah bisnis. Hal ini biasanya dilakukan dengan mencari predictor dan nilai yang dipilih untuk setiap bagian/cabang dari tree tersebut.

b. Preprocessing data

Teknologi ini juga dapat digunakan untuk mengolah daan memproses data yang dapat digunakan pada algoritma lain, misalnya neural network, nearest neighbour, dan lain-lain. Hal itu karena algoritma lain memerlukan waktu yang relatif lama untuk dijalankan jika terdapat jumlah predictor dalam jumlah besar untuk digunakan sebagai model sehingga teknik decision tree biasanya digunakan pada tahap pertama data mining untuk menciptakan subset yang berguna dari predictor baru kemudian hasil tersebut akan dapat dimasukkan pada teknik data miing yang lain.

c. Prediksi

Para analis menggunakan teknik ini untuk membangun sebuah model prediktif yang efektif. Decision tree mempunyai beberapa keuntungan sebagai berikut :
  • Decision tree mudah dimengerti dan diinterprestasikan.
  • Penyiapan data untuk decision tree adalahutama dan tidak dibutuhkan.
  • Decision tree dapat mengatasi, baik data nominal maupun kategorial.
  • Decision tree merupakan model white box.
  • Decision tree dapat melakukan validasi terhadap model dengan tes statistik. Hal itu akan memungkinan untuk menghitung reliabilitad model.
  • Decision tree meruakan teknik yang kuat, dapat bekerja baik dengan data yang besar dalam waktu yang singkat.




Proses Data Mining


Fase-fase dimulai dari data mentah dan berakhir dengan pengetahuan atau informasi yang telah diolah, yang didapatkan sebagai hasil dari tahapan-tahapan berikut:
  1. Data Cleansing, juga dikenal sebagai data cleansing, ini adalah sebuah fase dimana data-data tidak lengkap, mengndung error dan tidk konsisten dibuang dari koleksi data, sehingga data yang telah bersih relevan dapat digunakan untuk diproses ulang untuk penggalian pengetahuan(discovery knowledge)
  2. Data Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data yang berulang(multiple data), file-file yang berulang(multiple file), dapat dikombinasikan dan digabungkan kedalam suatu sumber.
  3. Data Selection, pada langkah ini, data yang relevan terhadap analisis dapat dipilih dan diterima dari koleksi data yang ada.
  4. Data Transformation, juga dikenal sebagai data consolidation. Pada tahap ini, dimana data-data yang telah terpilih, ditransformasikan kedalam bentuk-bentuk yang cocok untuk prosedur penggalian (meaning proedure) dengan cara melakukan normalisasi dan agregasi data.
  5. Data Mining, tahap ini adalah tahap yang paling penting, dengan menggunakan teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola potensial yang berguna.
  6. Pattern Evaluation, pada tahap ini, pola-pola menarik dengan jelas mempresentasikan pengetahuan telah diidentifikasi berdasarkan measure yang telah diberikan.
  7. Knowledge Representation, ini merupakan tahap terakhir dimana pengetahuan yang telah ditemukan secara visual ditampilkan kepada user.Tahap penting ini menggunakan teknik visualisasi untuk membantu user dalam mengerti dan menginterpresentasikan hasil dari data mining.




Metodologi Data Mining


Sebagai salah satu bagian dari sistem informasi, data mining menyediakan perencanaan dari ide hingga implementasi akhir. Komponen-komponen dari rencana data mining adalah sebagai berikut.

1. Analisa Masalah (Analyzing the Problem)

Data asal atau data sumber harus bisa ditaksir untuk dilihat apakah data tersebut memenuhi kriteria data mining.

Kualitas kelimpahan data adalah faktor utama untuk memutuskan apakah data tersebut cocok dan tersedia sebagau tambahan. Hasil yang diharapkan dari dampak data mining harus dengan hati-hati dimengerti dan dipastikan bahwa data yang diperlukan membawa informasi yang bisa diekstrak.

2. Mengekstrak dan Membersihkan Data (Extracting dan Cleansing The Data)

Data pertama kli diekstrak dari data aslinya, seperti dari OLTP basis data, text file, Microsoft Acces Database, dan bahkan dari spreadsheet, lalu data tersebut diletakan dalam data warehouse yang mempunyai sruktur yang sesuai dengan data model secara khas.

Data Transformation Service (DTS) dipakai untuk mengekstrak dan membersihkan data dari tidak konsistennya dan tidak kompatibelnya dengan format yang sesuai.

3. Validitas Data (Validating the Data)

Sekali data telah diekstrak dan dibersihkan, ini adalh latihan yang bagus untuk menelusuri model yang telah kita ciptakan untuk memastikan bahwa semua data yang ada adalah data sekarang dan tetap.

4. Membuat dan Melatih Model (Creatig and Training the Model)

Ketika algoritma diterapkan pada model, struktur telah dibangun. Hal ini sangatlah penting pada saat ini untuk melihat data yang telah dibangun untuk memastikan bahwa data tersebut menyerupai fakta di dalam data sumber.

5. Query Data dari Model Data Mining (Querying the Model Data)

Ketika model yang telah cocok diciptakan dan dibangun, data yang telah dibuat tersedia untuk mendukung keputusan. Hal ini biasanya melibatkan penulisan front end query aplikasi dengan program aplikasi/suatu program basis data.

6. Evaluasi Validitaas dari Mining Model (Maintaining the Validity of the Data Mining Model)

Setelah moddel data mining terkumpul, lewat bebrapa waktu, karakteristik data awal seperti granularitas dan validitas mungkin berubah. Karena model data mining dapat terus berubah seiring perkembangan waktu.





Penerapan Data Mining

Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan data mining:

Analisa pasar dan manajemen
Solusi yang dapat di selesaikan dengan Data Mining, diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.

Analisa Perusahaan dan Manajemen resiko
Solusi yang dapat diselesaikan dengan data mining diantaranya: Perencanaan keuangan dan evaluasi aset, perencanaan sumber daya (resource planning), persaingan (competition).

Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.

Keuangan
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk menambang triliyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (Seperti money laundry).

Asuransi
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan lesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi.

Olahraga
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA ( jumlah shots blocked, assists dan fouls ) dalam rangka mencapai keunggulan bersaing ( competitive advantage ) untuk tim New York Knicks dan Miami Heat.




Fungsi dan Tujuan Data Mining


Data Mining mengidentifikasi fakta- fakta atau kesimpulan-kesimpulan yang di sarankan berdasarkan penyaringan melalui data untuk menjelajahi pola-pola atau anomali-anomali data. Data Mining mempunyai 5 fungsi:


a. Classification

Classification, yaitu menyimpulkan definisi-definisi karakteristik sebuah grup. Contoh: pelanggan-pelanggan perusahaan yang telah berpindah kesaingan perusahaan yang lain.


b. Clustering

Clustering, yaitu mengindentifikasikan kelompok-kelompok dari barang-barang atau produk-produk yang mempunyai karakteristik khusus(clustering berbeda dengan classification, dimana pada clustering tidak terdapat definisi-definisi karakteristik awak yang di berikan pada waktu classification.)


c. Association

Association, yaitu mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada suatu waktu, seperti isi-isi dari keranjang belanja.


d. Sequencing

Hampir sama dengan association, sequencing mengidentifikasikan hubungan-hubungan yang berbeda pada suatu periode waktu tertentu, seperti pelanggan-pelanggan yang mengunjungi supermarket secara berulang-ulang.


e. Forecasting

Forecasting memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola dengan sekumpulan data yang besar, seperti peramalan permintaan pasar.

Tujuan data mining antara lain:

a. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick up meningkat di colorado.

b. Confirmatory
Untuk mempertegas hipotesis, seperti halnya 2 kali pendapatan keluarga lebih suka di pakai untuk membeli peralatan keluarga, di bandingkan dengan satu kali pendapatan keluarga.

c. Exploratory
Menganalisis data untuk hubungan yang baru yang tidak di harapkan, seperti halnya pola apa yang cocok untuk kasus penggelapan kartu kredit.




Pengertian Data Mining


Banyak sekali definisi mengenai apa itu data mining. Data mining merupan suatu alat yang memungkinkan para pengguna untuk mengakses secara cepat data dengan jumlah yang besar. Pengertian yang lebih khusus dari data mining, yaitu suatu alat dan aplikasi menggunakan analisis statistik pada data. Data mining adalah suatu proses ekstraksi atau penggalian data dan informasi yang besar, yang belum diketahui sebelumnya, namun dapat dipahamidan berguna dari database yang besar serta digunakan untuk membuat suatu keputusanbisnis yang sangat penting. Data mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan untuk menemukan pola-pola yang tidak diketahui pada data yang telah dikumpulkan. Data mining memungkinkan pemakai menemukan pengetahuan dalam data database yang tidak mungkin diketahui keberadaanya oleh pemakai.

Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar. (Turban et al, 2005 ). Data mining adalah bagian dari proses KDD ( Knowledge Discovery in Databases)yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil (Maimon dan Last, 2000). KDD secara umum juga dikenal sebagai pangkalan data.




sumber

Macam-macam DBMS | Data Base Management System


1.            MySQL
MySQL merupakan sebuah perangkat lunak system manajemen basis data SQL (bahasa inggris : data management system) atau DNMS yang multithread, multi-user, dengan sekitar 6 juta instalasi di seluruh dunia. MySQL dimiliki dan disponsori oleh sebuah perusahaan komersial Swedia yaitu MySQL AB. MySQL AB memegang penuh hak cipta hampir atas semua kode sumbernya. Kedua orang Swedia dan satu orang Finlandia yang mendirikan MySQL AB adalah : david axmark, allan larsson, dan Michael “monthy widenius.
Kelebihan MySQL antara lain :
1.      free (bebas didownload)
2.      stabil dan tangguh
3.      fleksibel dengan berbagai pemrograman
4.      Security yang baik
5.      dukungan dari banyak komunitas
6.      kemudahan management database
7.      mendukung transaksi
8.      perkembangan software yang cukup cepat.

2.            ORACLE
Oracle adalah relational database management system (RDBMS) untuk mengelola informasi secara terbuka, komprehensif dan terintegrasi. Oracle Server menyediakan solusi yang efisien dan efektif karena kemampuannya dalam hal sebagai berikut:
-          Dapat bekerja di lingkungan client/server (pemrosesan tersebar)
-          Menangani manajemen space dan basis data yang besar
-          Mendukung akses data secara simultan
-          Performansi pemrosesan transaksi yang tinggi
-          Menjamin ketersediaan yang terkontrol
-          Lingkungan yang terreplikasi


-           
3.            FIREBIRD
Firebird (juga disebut FirebirdSQL) adalah sistem manajemen basisdata relasional yang menawarkan fitur-fitur yang terdapat dalam standar ANSI SQL-99 dan SQL-2003. RDBMS ini berjalan baik di Linux, Windows, maupun pada sejumlah platform Unix. Firebird ini diarahkan dan di-maintain oleh FirebirdSQL Foundation. Ia merupakan turunan dari Interbase versi open source milik Borland. Karena itulah Interbase dan Firebird sebenarnya mempunyai CORE yang sama karena awalnya sama” dikembangkan oleh Borland.
Kemampuan dan Kelebihan Firebird
1.      Firebird support dengan transaksi layaknya pada database komersial lainnya. Sebuah transaksi bisa di-commit atau di-rollback dengan mudah
2.      Firebird menggunakan sintaks standard untuk menciptakan suatu foreign key.
3.      Firebird support stored procedure dan triggers dengan bahasa yang standard sehingga tidak akan membingungkan bagi Anda yang ingin belajar
4.      Firebird bisa menggunakan lebih dari satu file sebagai single logic database

4.            Microsoft SQL server 2000
Microsoft SQL Server 2000 adalah perangkat lunak relational database management system (RDBMS) yang didesain untuk melakukan proses manipulasi database berukuran besar dengan berbagai fasilitas.
5.            Visual Foxpro 6.0
pada tahun 1989. FoxPro berkembang menjadi Visul FoxPro pada tahun 1995. kemampuan pemrogrman prosural tetap dipertahankan dan dilengkapi dengan pemrograman berorietasi objek. Visual FoxPro 6.0 dilengkapi dengan kemampuan untuk berinteraksi dengan produk desktop dan client/server lain dan juga dapat membangun aplikasi yang berbasis Web
Model data yang digunakan Visual FoxPro yaitu model relasional. Model ini menggunakan sekumpulan table berdimensi dua (yang disebut relasi atau table), dengan masing-masing relasi tersusun atas tupel atau baris dan atribut

6.            Database Desktop Paradox
Database desktop merupakan suatu program “Add-Ins”, yaitu program terpisah yang langsung terdapat pada Borland Delphi. Pada database desktop terdapat beberapa DBMS yang terintegrasi di dalamnya antara lain Paradox 7, Paradox 4, Visual dBase, Foxpro, Ms. SQL, Oracle, Ms. Acces, db2 dan interbase

Kelebihan dan Kekuarangan DBMS (Database Management System)

Kelebihan:
  1. Kebebasan data dan akses yang efisien
  2. Mereduksi waktu pengembangan aplikasi
  3. Integritas dan keamanan data
  4. Administrasi keseragaman data
  5. Akses bersamaan dan perbaikan dari terjadinya crashes (tabrakan dari proses serentak).
  6. Mengurangi data redundancy : Data redundansi dapat direduksi/dikurangi, tetapi tidak dapat dihilangkan sama sekali (untuk kepentingan keyfield)
  7. Membutuhkan sedikit memory untuk penyimpanan data.
Kekurangan :
  1. Biaya Kebutuhan untuk medapatkan perangkat lunak dan perangkat keras yang tepat cukup mahal, termasuk biaya pemeliharaan dan sumber daya manusia yang mengelola basis data tersebut.
  2. Sangat kompleks. Sistem basis data lebih kompleks dibandingkan dengan proses berkas, sehingga dapat mudah terjadinya kesalahan dan semakin sulit dalam pemeliharaan data.
  3. Resiko data yang terpusat. Data yang terpusat dalam satu lokasi dapat beresiko kehilangan data selama proses aplikasi.
  4. Memerlukan suatu skill tertentu untk bisa melakukan administrasi dan manajemen database agar dapat diperolehh struktur dan relasi data yang optimal.
  5. Memerlukan kapasitas penyimpanan baik eksternal disc maupun internal memory agar DBMS dapat bekerja cepat dan efisien.
  6. Kebutuhan akan sumber daya resources biasanya cukup tinggi.
  7. apabila DBMS gagal menjalankan misinya maka tingkat kegagalan menjadi lebih tinggi Karena banyak pengguna bergantung pada sistem ini.



Pengertian Database Server

Ada beberapa macam pengertian tentang DBMS :
  1. Menutut C.J. Date : DBMS adalah merupakan software yang menghandel seluruh akses pada database untuk melayani kebutuhan user.
  2. Menurut S, Attre : DBMS adalah software, hardware, firmware dan procedure-procedure yang memanage database. Firmware adalah software yang telah menjadi modul yang tertanam pada hardware (ROM).
  3. Menurut Gordon C. Everest : DBMS adalah manajemen yang efektif untuk mengorganisasi sumber daya data.
Jadi DBMS : Semua peralatan komputer (Hardware+Software+Firmware). DBMS dilengkapi dengan bahasa yang berorientasi pada data (High level data langauage) yang sering disebut juga sebagai bahasa generasi ke 4 (fourth generation language).