Pengertian, Tugas Utama dan Akar Ilmu Data Mining

Pendahuluan

Sebagaimana telah dibahas pada artikel sebelumnya yang tentang Knowledge Discovery In Database (KDD), data mining merupakan salah satu tahap dari proses KDD, namun, dalam industri, media, dan di lingkungan penelitian, istilah data mining sering digunakan untuk merujuk pada keseluruhan proses KDD. (mungkin karena istilah data mining lebih pendek daripada Knowledge Doscovery in Database).

Pengertian Data Mining

Istilah Data Mining terdiri dari dua kata, yaitu data dan mining. Data merupakan kumpulan fakta yang terekam atau sebuah entitas yang tidak memiliki arti dan selama ini terabaikan. Sedangkan Mining merupakan proses penambangan. Dengan demikian Data Mining dapat dimaknai sebagai proses penambangan data yang menghasilkan keluaran berupa pengetahuan.

Berikut ini adalah beberapa kutipan pengertian lain dari Data Mining dari berbagai sumber.

Data mining dapat artikan sebagai proses menemukan pola dan pengetahuan yang menarik dari data dalam jumlah besar. Sumber data dapat mencakup basis data, gudang data, Web, repositori informasi lainnya, atau data yang dialirkan ke sistem secara dinamis. [1]

Data mining merupakan proses ekstraksi suatu data (sebelumnya tidak diketahui, bersifat implisit, dan dianggap tidak berguna) menjadi informasi atau pengetahuan atau pola dari data yang jumlahnya besar. [2]

Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis teks, dan multimedia (citra). [3]

Tugas Utama Data Mining

Tugas utama yang dapat dilakukan, data mining dibagi menjadi enam yaitu: (1) Deskripsi, (2) Estimasi, (3) Prediksi, (4) Klasifikasi, (5) Pengklasteran, dan  (6) Asosiasi. [4]

1. Deskripsi (Description)

Tujuan dari deskripsi adalah untuk mengidentifikasi pola yang muncul secara berulang pada suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat dengan mudah dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan harus mudah dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan (knowledge) pada sistem. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik postprocessing untuk melakukan validasi dan menjelaskan hasil dari proses data mining. Postprocessing merupakan proses yang digunakan untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak yang berkepentingan.

2. Prediksi (Prediction)

Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan pada masa yang akan datang. Contoh : untuk memprediksikan adanya pengurangan jumlah pelanggan dalam waktu dekat dan prediksi harga saham dalam tiga bulan yang akan datang.

3. Estimasi (Estimation)

Estimasi hampir sama dengan prediksi, namun variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi.

4. Klasifikasi (Classification)

Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan proses pemeriksaan karakteristik dari objek dan memasukkan objek ke dalam salah satu kelas yang sudah didefinisikan sebelumnya.

5. Pengklasteran (Clustering)

Pengklasteran (Clustering) merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas objek yang sama. Sebuah kluster adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam cluster lain. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik.

6. Asosiasi (Association)

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market basket analisys). Tugas asosiasi berusaha untuk mengungkap aturan untuk mengukur hubungan antara dua atau lebih atribut.

Akar Ilmu Data Mining

Data mining muncul sebagai wujud evolusi teknologi informasi. Namun, Data Mining menjadi perdebatan tentang posisi bidang ilmu yang memilikinya, karena data mining sebenarnya memiliki empat akar bidang ilmu, yaitu Statistik, Kecerdasan Buatan, Pengenalan Pola, Sistem Basis Data. Penjelasan dari keempat akar ilmu tersebut adalah sebagai berikut. [5]

1. Statistik

Bidang statistik merupakan akar ilmu yang paling tua dari data mining, sehingga dapat dikatakan jika tidak ada statistik, mungkin data mining juga tidak ada. Dengan menggunakan statistik klasik ternyata data yang diolah dapat diringkas dalam apa yang umum dikenal sebagai Exploratory Data Analysis (EDA). EDA berguna untuk mengidentifikasi hubungan sistematis antarvariabel/fitur ketika tidak ada cukup informasi alami yang dibawanya. Teknik EDA klasik yang digunakan dalam data mining di antaranya:

  • Metode komputasional: statistik deskriptif (distribusi, parameter statistik klasik (mean, median, rata-rata, varian, dan sebagainya), korelasi, tabel frekuensi, teknik eksplorasi multivariat (analisis cluster, analisis faktor, analisis komponen utama dan klasifikasi, analisis kanonik, analisis diskriminan, classification tree, analisis korespondensi), model linear/nonlinear lanjutan (regresi linear/nonlinear, time series/forecasting, dan sebagainya)
  • Visualisasi data: mengarah pada representasi informasi dalam bentuk visual dan dapat dipandang sebagai satu yang paling berguna. Pada saat yang sama, visualisasi data merupakan metode eksplorasi data yang atraktif. Teknik visualisasi yang paling umum yang dikenal adalah histogram semua jenis (kolom, silinder, kerucut, piramida, lingkaran, batang, dan sebagainya), kotak, scatter, kontur, matriks, ikon, dan sebagainya.

2. Kecerdasan buatan/Artifical Intelligence (Al)

Teori dari bidang ilmu ini kecerdasan buatan dibangun berdasarkan teknik heuristik sehingga AI berkontribusi terhadap teknik pengolahan informasi berdasarkan pada model penalaran manusia. Salah satu cabang dari Al, yaitu pembelajaran mesin atau machine learning, merupakan disiplin ilmu yang paling penting yang direpresentasikan dalam pembangun data mining, menggunakan teknik di mana sistem komputer belajar dengan training (pelatihan).

3. Pengenalan pola

Data mining menjadi turunan bidang pengenalan pola, namun hanya mengolah data dari basis data. Data yang diambil dari basis data untuk diolah bukan dalam bentuk relasi, melainkan dalam bentuk normal pertama sehingga set data dibentuk menjadi bentuk normal pertama. Akan tetapi, data mining mempunyai ciri khas yaitu pencarian pola asosiasi dan pola sekuensial.

4. Sistem basis data

Sistem basis data menyediakan informasi berupa data yang akan ‘digali’ menggunakan metode-metode data minig.

Daftar Pustaka

[1]      J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques, 3rd ed. San Francisco: Morgan Kaufmann, 2012.
[2]      I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques, 2nd ed. San Francisco: Morgan Kaufmann Publishers, 2011.
[3]      A. M. Siregar and A. Puspabhuana, Data Mining, Pengolahan Data Menjadi Informasi dengan RapidMiner. Surakarta: CV Kekata Group, 2017.
[4]      D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining: Second Edition. Wiley, 2014.
[5]      E. Prasetyo, Data Mining: Konsep dan Aplikasi menggunakan MATLAB. Yogyakarta: CV. Penerbit Andi, 2012.

You May Also Like

About the Author: Webagus

1 Comment

Leave a Reply

Your email address will not be published. Required fields are marked *

© 2025 Webagus - Theme by HappyThemes