Eksplorasi Data Mining – Galih 13507069 –

June 17, 2009

  1. Abstraksi
  2. Teknologi komputasi dan media penyimpanan telah memungkinkan manusia untuk mengumpulkan dan menyimpan data dari berbagai sumber dengan jangkauan yang amat luas. Fenomena ini terjadi dalam banyak bidang kehidupan, seperti bisnis, perbankan, pemasaran, produksi, sains, dan sebagainya.
    Dalam sains misalnya, berbagai teknologi memungkinkan pengambilan data yang dilakukan secara kontinu hingga dalam jumlah bertera-tera byte. Salah satu contohnya adalah Sistem Observasi Bumi milik NASA yang mampu mengirimkan berbagai jenis data berkaitan dengan objek-objek yang diamatinya hingga berpuluh-puluh gigabyte setiap jamnya.
    Dalam dunia bisnis pada era globalisasi ini para pelaku bisnis harus selalu memikirkan strategi-strategi terobosan yang dapat menjamin kelangsungan bisnis mereka. Dan tidak dapat kita pungkiri bahwa aset utama dan penting yang dimiliki oleh perusahaan masa kini adalah data-data bisnis dalam jumlah yang sangat banyak, baik data kekayaan, data pegawai, maupun data-data lain yang memuat rahasia perusahaan. Hal tersebut melahirkan kebutuhan akan adanya teknologi yang dapat memanfaatkan data-data tersebut untuk memperoleh informasi baru, yang dapat membantu dalam pengaturan strategi bisnis.
    Meskipun teknologi basis data modern telah menghasilkan media penyimpanan yang ekonomis bagi aliran data yang amar besar ini, teknologi untuk membantu kita menganalisis, memahami, atau bahkan memvisualisasikannya belumlah tersedia. Hal inilah yang melatarbelakangi dikembangannya konsep Pengambilan Pengetahuan dari Basisdata (PPB) dan teknologi data mining hadir sebagai solusi.

  3. Definisi Data, Informasi, dan Pengetahuan
  4. 2.1. Data
    Data adalah semua fakta, atau tulisan yang dapat diproses oleh komputer. Saat ini data yang kita temui terletak dalam lingkup yang luas dan jumlah yang besar, selain itu terdiri dari format yang berbeda dan database yang berbeda pula. Termasuk juga :
    – Data operasional atau transaksi, seperti penjualan, harga, inventori, payroll, dan perhitungan.
    – Data nonoperasional, seperti data ramalan dan data makro ekonomi.
    – Meta data mengenai data itu sendiri, seperti desain database logik atau definisi kamus data.

    2.2. Informasi
    Pola, asosiasi, dan hubungan di antara data ini dapat memberikan informasi. Misalnya, analisis dari data penjualan dapat memberikan informasi mengenai produk apa yang paling laku dijual.

    2.3. Pengetahuan
    Informasi dapat diubah menjadi pengetahuan mengenai pola yang terlihat dan trend masa depan. Dengan menganalisis pola pembelian konsumen, kita dapat mengetahui benda seperti apa yang paling disukai oleh konsumen dan kita mampu memproduksi hal yang lebih menarik sehingga dapat memperoleh keuntungan lebih.

  5. Pengertian
  6. 3.1. Wikipedia

    Data mining adalah proses mengekstraksi pola yang tersembunyi dari dalam kumpulan data. Karena semakin banyak data yang diperoleh, dan kira-kira jumlahnya akan menjadi 2x lipat tiap 3 tahun, data mining berubah menjadi sarana penting untuk mengolah data mentah menjadi suatu informasi.

    3.2. Budi Santosa

    Data Mining merupakan disiplin ilmu yang menggabungkan statistika, machine learning, database dan visualisasi. Kini sangat diperlukan baik dalam industri perbankan sampai mikrobiologi.

    3.3. Veronika S. Moertini

    Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis text, dan multimedia (citra).
    Data mining dapat juga didefinisikan sebagai “pemodelan dan penemuan pola-pola yang tersembunyi dengan memanfaatkan data dalam volume yang besar”.

    3.4. Secara Umum

    Data mining (kadang disebut juga data or knowledge discovery) adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan keuntungan, memperkecil biaya pengeluaran, atau bahkan keduanya. Dengan data mining kita dapat menganalisis data dari berbagai dimensi dan sudut, mengelompokkannya, dan menyimpulkan relasi yang terbentuk. Secara teknis, data mining dapat disebut sebagai proses untuk menemukan korelasi atau pola dari ratusan atau ribuan field dari sebuah relasional database yang besar.

  7. Tujuan Data mining
  8. Dengan kemampuan Data mining (penambangan data) untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar, yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai untuk :

    a. Prediksi trend dan sifat-sifat bisnis.

    Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaan-pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia. Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan, dan bentuk-bentuk kerugian lainnya.

    b. Penemuan pola- pola yang tidak diketahui sebelumnya.

    Kakas data mining “menyapu” basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produk-produk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh customer.

  9. Tahap-Tahap Knowledge Data Discovery (KDD)
  10. Dibandingkan dengan Knowledge Data Discovery (KDD), istilah Data mining lebih dikenal para pelaku bisnis. Pada aplikasinya, sebenarnya Data mining bukanlah sebuah teknologi yang utuh dan mampu berdiri sendiri, Data mining merupakan bagian dari proses KDD. Sebagai komponen dalam KDD, Data mining berkaitan terutama dengan ekstraksi dan penghitungan pola-pola dari data yang ditelaah.

    untitled

    Gambar 1. Langkah-langkah dalam proses KDD

    a. Pemahaman terhadap domain dari aplikasi, relevansinya terhadap pengetahuan yang ada dan goal dari end-user.
    Dengan teknologi sekarang, tahap ini menitikberatkan pada analis / pengguna. Faktor-faktor yang dipertimbangkan :
    – Apa saja bottle neck dalam domain? Apa saja proses yang berharga untuk diotomatisasi dan apa yang sebaiknya diproses secara manual?
    – Apa tujuan yang diinginkan? Kriteria unjuk kerja apa saja yang penting?

    b.  Menciptakan himpunan data target.
    Hal ini melibatkan homogenitas data, dinamika dan perubahan, strategi pengambilan sampel, tingkat kebebasan, dan sebagainya.

    c. Pemrosesan pendahuluan dan pembersihan data.
    Melibatkan operasi-operasi dasar seperti penghilangan derau atau “outliner”, pengumpulan informasi yang diperlukan untuk model, menentukan strategi penanganan field data yang hilang, perhitungan informasi urutan waktu, normalisasi yang sesuai, dan seterusnya.

    d. Proyeksi dan pengurangan data.
    Melibatkan keputusan ciri-ciri penting representasi data (bergantung pada tujuan). Penggunaan reduksi dimensionalitas atau metode-metode transformasi untuk mengurangi banyaknya variabel efektif di bawah pertimbangan atau menemukan representasi invarian bagi data, dan memproyeksikan data pada ruang-ruang yang di dalamnya sebuah solusi lebih mudah ditemukan.

    e.Pemilihan tugas data mining.
    Melibatkan keputusan tujuan dari proses PPB, yaitu : klasifikasi, regresi, clustering, peringkasan, pemodelan kebergantungan, atau deteksi perubahan dan deviasi

    f. Pemilihan algoritma data mining untuk pencarian.
    Memilih metode yang digunakan untuk menemukan pola atau mencocokkan model kedalam data. Pemilihan model dan parameter yang sesuai seringkali bersifat kritikal. Sebagai tambahan, metode datamining harus kompatibel dengan tujuan (pengguna akhir seringkali lebih tertarik pada memahami model daripada memprediksi kapabilitasnya.

    g. Datamining.
    Melibatkan pencarian minat dalam sebuah form atau sekumpulan representasi : pohon atau aturan klasifikasi, regresi, clustering, dan sebagainya. Pengguna dapat secara signifikan menyumbang metode datamining dengan mengikuti tahap-tahap berikutnya secara tepat

    h. Penterjemahan pola-pola yang dihasilkan dari Datamining.
    Pada tahap ini diputuskan apa yang menjadi pengetahuan, hal tersebut merupakan sebuah tugas yang sulit. Pencapaian hasil yang dapat diterima dapat melibatkan penggunaan beberapa pilihan berikut (mungkin juga kombinasinya) :

    – Mendefinisikan sebuah skema terotomasi menggunakan ukuran “ketertarikan” dan lain-lain untuk menyaring pengetahuan dari keluaran-keluaran yang lain. Pengukuran dapat bersifat statistikal, goodness of fit, atau kesederhanaan dibandingkan dengan yang lain.

    – Menyandarkan pada teknik visualisasi untuk membantu analis memutuskan utilitas pengetahuan yang terekstraksi atau mencapai kesimpulan tentang data / fenomena underlying.

    – Menyandarkan secara keseluruhan kepada pengguna untuk bergeser melalui pola-pola yang diturunkan dengan harapan of coming across items of interest.

    Tahap ini mungkin menghasilkah perubahan-perubahan pada tahap-tahap selanjutnya, atau pengulangan seluruh proses.

    i. Konsolidasi pengetahuan yang ditemukan.
    Hal ini juga melibatkan pengecekan dan pemecahan konflik-konflik yang potensial dengan pengetahuan atau keyakinan sebelumnya

  11. Keunggulan Data Mining
  12. Ketika teknologi informasi dalam skala besar terpisah menjadi transaksi dan sistem analisis, data mining menjadi penghubung di antara keduanya. Empat jenis keterhubungan yang dapat diciptakannya adalah :
    –     Classes: Data yang disimpan dikelompokkan dalam group yang dapat diprediksi.
    Clusters: Data yang dikelompokkan, diklasifikasikan berdasarkan relasi logik atau kesukaan konsumen.
    Associations: Identifikasi data agar kita dapat mengetahui hubungan antar data.
    –   Sequential patterns: Pengolahan data untuk memprediksikan pola tingkah laku dan trends konsumen terkini.

    Data mining terdiri dari 5 konsep penting :
    – Ekstrak, mengubah, dan memuat data transaksi ke dalam sistem data warehouse.
    – Menyimpan dan mengatur data dalam sebuah sistem database multidimensional.
    – Menyediakan akses data pada analis bisnis dan professional IT.
    – Menganalisis data dengan aplikasi software.
    – Memberikan data dalam bentuk yang mudah ditelaah, seperti  grafik atau tabel.

    Level-level analisis yang ada :
    –       Artificial neural networks: Model prediksi non-linear yang dipelajari berdasarkan konsep sistem saraf manusia.
    –       Genetic algorithms: Teknik optimasi yang menggunakan proses yang disadur dari kombinasi genetika, mutasi, dan seleksi alam yang sesuai dengan konsep evolusi.
    –  Decision trees: Struktur bentuk pohon yang merepresentasikan pilihan dan akibat yang dipilih karenanya.
    –  Nearest neighbor method: Sebuah teknik yang mengelompokkan tiap record dalam dataset menurut kombinasi dari klas yang memuat k record yang hampir mirip dengan dataset yang tercatat.
    –     Rule induction: Hasil pengolahan dari aturan if-then dari database pada signifikan statistikal.
    –     Data visualization: Interpretasi visual dari relasi kompleks dalam data multidimensional.

  13. Hal yang Diperlukan
  14. Secara teknis ada tiga hal yang diperlukan dalam data mining:
    a.Data
    Harus ada data mentah sebagai bahan untuk diolah.

    b.Modelling.
    Bagaimana model yang kita pilih untuk menyelesaikan problem yang kita hadapi. Apakah dengan klastering, klasifikasi atau prediksi (akan dijelaskan kemudian).

    c.Teknik data mining
    Setelah itu harus ada teknik data mining yang kita kuasai untuk menyelesaikan model yang kita punyai.

  15. Metodologi Data Mining
  16. Data mining yang ada pada proses KDD seringkali merupakan penerapan dari metodologi data mining yang sudah ada. Di sini kita perlu mengenal apa itu Pola dan Model, Pola dapat diartikan sebagai instansiasi dari Model. Sebagai contoh f(x) = 2×2 + 5x + 3 adalah pola terapan dari model f(x) = ax2 + bx + c. Data mining mencari model apa yang cocok ke data yang diteliti, atau pola dari data tersebut. Ada dua pendekatan matematis yang digunakan dalam pencocokan model : statistik yang memberikan efek non-deterministik dan logik yang murni deterministik. Namun pendekatan statistik lebih sering dipakai karena lebih sesuai dengan ketidakpastian yang ada pada pola data-data di dunia riil.

  17. Tugas Data Mining
  18. ok

    Gambar 2.

    Empat Jenis Inti Tugas Data Mining

    Inti dari Tugas Data mining tersebut adalah :

    a. Predictive Modelling

    Predictive Modelling digunakan untuk membangun sebuah model untuk target variable sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable yang discrete (diskret) dan Regression digunakan untuk memprediksi nilai dari target variable yang continu (berkelanjutan).

    b. Association Analysis

    Association analysis digunakan untuk menemukan aturan asosiasi yang memperlihatkan hubungan antara nilai atribut yang sering muncul secara bersamaan dalam satu himpunan data.

    c. Cluster Analysis

    Tidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label. Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering merupakan proses pengelompokkan sekumpulan objek yang sangat mirip.

    d. Anomaly Detection

    Anomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk data.

  19. Pemaparan Tugas Utama Data mining
  20. Data Mining

    Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi. Prediksi dan deskripsi pada data mining task akan dijelaskan di bawah ini.

    a. Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan. Gambar 2 menunjukkan pembagian sederhana pada data peminjaman menjadi dua ruang kelas (punya dan tidak punya peminjaman). Pada gambar tersebut, x merepresentasikan peminjaman yang bermasalah, dan o peminjaman yang pengembaliannya lancar.

    2

    Gambar 3.

    Batas klasifikasi linier sederhana pada himpunan data peminjaman.

    b. Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresi ini misalnya pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll. Gambar 3 menunjukkan regresi linear sederhana dimana “total peminjaman” (total debt) diplot sebagai fungsi linier dari penghasilan (income): pengeplotan ini menghasilkan kesalahan besar karena hanya ada korelasi sedikit antara kedua variabel ini.

    3

    Gambar 4.

    Regresi linier sederhana untuk himpunan data peminjaman.

    c. Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasi yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping). Gambar 4 menunjukkan pembagian himpunan data peminjaman menjadi 3 cluster. Di sini, cluster cluster dapat saling menumpu, sehingga titik-titik data dapat menjadi anggota lebih dari satu cluster. (Label x dan o pada gambar sebelumnya diubah menjadi + untuk mengindikasikan bahwa keanggotaan kelas diasumsikan belum diketahui.).

    4

    Gambar 5.

    Pengelompokan himpunan data peminjaman menjadi 3 cluster

    d. Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.

    e. Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabel-variabel. Model kebergantungan ini ada di 2 tingkat : tingkat struktural yang menspesifikasikan variabel-variabel yang secara lokal bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numerik

    f. Prediksi Model yaitu pola-pola yang dianalisis dari database, diolah lebih lanjut untuk memprediksi keadaan masa mendatang. Pemodelan Prediksi memungkinkan user untuk mengirimkan record dengan beberapa field kosong, dan sistem akan menebak nilai yang kosong tersebut dengan pola-pola sebelumnya yang ditemukan dari basis data.

    g. Analisis Forensik bertujuan menemukan keanehan atau elemen data yang tidak biasa. Untuk mencari data yang tidak biasa pertama kali yang dicari adalah normal dari data tersebut, kemudian mendeteksi item-item deviasi dari dari data yang biasa dengan batasan yang diberikan.


  21. Masalah yang Dihadapi Saat Ini
  22. Masalah-masalah yang dihadapi dalam mengaplikasikan Knowledge Data Discovery kini pun makin kompleks, sehingga KDD harus dikembangkan untuk dapat mengatasi masalah-masalah tersebut, seperti :
    –   Kesalahan input data dan missing data pada basisdata.
    – Dinamisnya data dan pengetahuan sehingga harus diimbangi penemuan pola-pola baru.
    –   Besarnya ukuran basisdata, dengan jutaan record dan berukuran giga.
    –  Dimensi permasalahan yang luas, selain jutaan record tetapi juga jumlah field (atribut, variabel) yang besar.
    –  Relasi antar-field basisdata yang makin kompleks. Saat ini data mining masih dirancang untuk relasi yang cukup sederhana.
    – Sistem KDD susah berintegrasi dengan sistem luar karena didesain untuk dapat berdiri sendiri. Integrasi yang dimaksud bisa terjadi dengan DBMS, kakas-kakas spreadsheet dan visualisasi, serta pencatat sensor waktu-nyata.

  23. Kesimpulan
  24. Teknologi Data mining dapat menganalisis, memahami, atau memvisualisasikan record dalam basis data, sehingga user dapat memahami suatu pola yang terbentuk dengan lebih mudah. Data mining juga telah membantu para pelaku bisnis untuk mempertahankan dan mengembangkan bisnis mereka.

    ModelsDM1

    Akan tetapi, teknologi ini masih bersifat standalone sehingga susah berdampingan dengan bidang lain di dunia teknologi. Oleh sebab itu, inovasi-inovasi baru mengenai KDD dan Data Mining masih terus diperlukan untuk dapat mengatasi hal tersebut dan masalah-masalah lain yang ada.

    Cerita Tambahan

    imagesSelain masalah di atas, terdapat pula cerita menarik tentang data mining. Di banyak toko di Amerika, rak tempat popok diletakkan berseberangan dengan rak penjualan bir. Mengapa demikian? Hal ini berkaitan dengan hasil analisis yang dilakukan dengan data mining. Menurut penelitian pada hasil pembelian konsumen, kaum pria di Amerika yang sudah menikah biasanya akan membeli bir dan popok di saat yang bersamaan, karena istri mereka kebanyakan merupakan bisnis women, sehingga para suami  membeli bir agar dapat beristirahat dengan tenang plus popok agar bayi mereka tidak rewel.  That’s the Data Mining used for! ^^

  25. Daftar Pustaka
  26. Budi santosa’s site » Data Mining. Tanggal akses : 6 Juni 2009 pk. 18.27

    Dwiyanto, Arif Rifai.1997.Makalah “Data Mining“.

    Electronic Textbook Statsoft.1984.Statsof.Inc

    En.wikipedia.org/wiki/Data_mining. Tanggal akses : 6 Juni 2009 pk. 17.55

    Ilmukomputer.org/category/datamining. Tanggal akses : 6 Juni pk. 18.13

    Michalski R.S., Bratko I., Kubat M. “Machine Learning and Data Mining, Methods and Applications”.1999. John Wiley & Sons Ltd., New York.

    Moertini, Veronica. Data Mining Sebagai Solusi Bisnis. 2002.

    Moxon B, “Defining Data Mining”.DBMS Online. 1996.
    http://www.dbmsmag.com/9608d53.html

    Prasetyo, Philips Kokoh. 2006. “Data Mining Task“. Tanggal akses : 6 Juni 2009 pk. 18.44

4 Responses to “Eksplorasi Data Mining – Galih 13507069 –”

  1. Galih Andana said

    Tanggal Upload :
    1. 13 Juni 2009
    2. 27 Juni 2009
    3. 11 Juli 2009

    Maaf, saya tampak seperti seorang deadliner dari tanggal upload tersebut, hal tersebut tidak benar! Pengumpulan pada tanggal deadline tersebut dikarenakan saya tidak memiliki internet di rumah, sehingga saya harus pergi ke warnet untuk mengunggah post saya. Segala hasil tulisan yang saya post, saya kerjakan di rumah dengan komputer rumah, setelah itu baru saya post. Jadi, saya hanya mengupload sesekali tiap hari deadline yang ditentukan, dan pekerjaan yang saya buat tidak diselesaikan pada hari yang sama. Terimakasih atas perhatiannya. Salam Teman Basdaters!

  2. Noemi said

    Wonderful, what a weblog it is! This weblog gives valuable data to us, keep it up.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: