Knowledge Discovery In Database (KDD)

Pendahuluan

Setiap aktivitas manusia dalam kehidupan sehari-hari dapat menghasilkan data. Aktivitas tersebut dapat berupa berbelanja, memperbaiki kendaraan, bermedia sosial, melamar kerja, pengiriman dokumen, akademik perkuliahan dan lain-lain. Jumlah data  yang dihasilkan tersebut tidaklah sedikit dan semakin hari semakin bertambah dan bertumpuk. Data-data tersebut hanya dibiarkan saja dan dianggap sebagai sampah yang tidak bermanfaat. Namun setelah populernya Knowledge Discovery in Database (KDD), data mining, dan bigdata, data-data tersebut dapat diolah sedemikian rupa sehingga menghasilkan suatu pengetahuan (knowledge). Perkembangan ilmu pengetahuan dan teknologi dapat mengubah anggapan yang menyatakan bahwa data hanya sampah yang tidak bermanfaat menjadi sesuatu informasi yang bermanfaat. Tumpukan data dapat diibaratkan sebagai tambang emas yang dapat memberikan manfaat bagi kehidupan manusia. Sehingga pada era Industri 4.0 data banyak digunakan dalam berbagai bidang misalnya dalam bidang bisnis, pembuatan kebijakan dan pengambilan keputusan.

Definisi Knowledge Discovery in Database (KDD)

Knowledge Discovery in Database (KDD) merupakan proses penemuan pengetahuan dalam database. Secara lengkap KDD didefinisikan sebagai proses ekstraksi atau identifikasi pola, pengetahuan dan informasi potensial dari sekumpulan data yang besar. Pengetahuan dan informasi yang dihasilkan dari KDD bersifat sah, baru, mudah dimengerti, dan bermanfaat.

Tahapan Proses KDD

Proses penemuan pengetahuan dalam database atau Knowledge Discovery in Database (KDD) tentu saja memerlukan data. Data yang digunakan adalah data yang sudah terpisah dengan data operasional. Gambar berikut menunjukkan tahapan dari proses KDD.

Sumber : Han, Jiawei, Micheline Kamber, Jian Pie. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann Publishers, 2012.

Berdasarkan gambar di atas, proses penemuan pengetahuan tersbeut merupakan urutan berulang dari langkah-langkah sebagai berikut:

  1. Data Cleaning and Integration
    • Data cleaning (Pembersihan data) bertujuan untuk menghilangkan noise dan data yang tidak konsisten
    • Data integration (Penggabungan data) bertujuan untuk menggabungkan data-daya yang berasal dari berbagai sumber.

Tren yang populer di industri informasi adalah melakukan pembersihan data dan penggabungan data sebagai langkah preprocessing, di mana data yang dihasilkan disimpan dalam data warehouse.

  1. Data Selection and transformation
    • Data selection (Seleksi data) berfungsi untuk mengambil data dari database yang relevan dengan tugas analisis.
    • Data transformation (Transformasi data) berfungsi mentransformasikan dan mengkonsolidasikan data ke dalam bentuk yang sesuai untuk penambangan dengan melakukan operasi ringkasan atau agregasi.

Terkadang transformasi dan konsolidasi data dilakukan sebelum proses seleksi data, khususnya dalam kasus warehousing (pergudangan data). Data reduction (pengurangan data) juga dapat dilakukan untuk mendapatkan representasi yang lebih kecil dari data asli tanpa mengorbankan integritasnya.

  1. Data Mining

Data mining (penambangan data) merupakan proses penting di mana metode cerdas diterapkan untuk mengekstrak pola data.

  1. Evaluation and presentation
    • Pattern Evaluation (Evaluasi pola) berfungsi untuk mengidentifikasi pola-pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan ukuran-ukuran yang menarik.
    • Knowledge presentation (Presentasi pengetahuan) digunakan untuk memvisualisasikan dan merepresentasikan pengetahuan yang ditambang kepada pengguna.

Langkah 1 dan langkah 2 merupakan bentuk-bentuk pengolahan awal (preprocessing) data, untuk persiapan data mining. Langkah data mining dapat berinteraksi dengan pengguna atau basis pengetahuan. Pola-pola yang menarik disajikan kepada pengguna dan dapat disimpan sebagai pengetahuan baru di basis pengetahuan.

Dari uraian di atas dapat diketahui bahwa data mining merupakan salah satu langkah dalam proses KDD. Namun, dalam industri, media, dan di lingkungan penelitian, istilah data mining sering digunakan untuk merujuk pada keseluruhan proses KDD. (mungkin karena istilah data mining lebih pendek daripada Knowledge Doscovery in Database).

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top
× How can I help you?