Resume Jurnal Data Mining (6)

6. Judul : A Model for Mining Public Health Topics from Twitter

Penulis : Michael J. Paul and Mark Dredze

Resume :

Dalam jurnal ini penulis membahas topik Ailment Topic Aspect Model (ATAM), topik baru untuk Twitter yang menghubungkan gejala, pengobatan dan kata-kata umum yang berkaitan dengan penyakit. Penulis mengkaji 1,6 juta tweet baru ATAM yang membahas topik berbagai kesehatan. Atam mengisolasi lebih koheren seperti influenza, infeksi, obesitas dibandingkan dengan model standar.

1. Twitter dan Kesehatan Masyarakat

Di dalam kasus ini penulis meneliti tweet untuk memantau bebagai penyakit. Model kami menggunakan pengetahuan eksplisit gejala-gejala dan perawatan untuk memisahkan kelompok penyakit koheren dari topik yang lebih umum. Kami menunjukkan bahwa model kami menemukan sejumlah besar lebih koheren penyakit daripada LDA, menghasilkan informasi lebih rinci penyakit (gejala / pengobatan) dan
melacak tingkat penyakit konsisten dengan diterbitkan pemerintah  (influenza surveilans) meskipun kurangnya data pelatihan influenza diawasi.

2. A Twitter Health Corpus

Penulis mengumpulkan kurang lebih 2 milyar tweet yan berhubungan dengan kesehatan dari tahun 2009 hingga 2010. Tweet-tweet tersebut dibersihkan dengan cara menghapus URL, lalu menghapus tweet yang bersifat ambigu.

3. ATAM: A Model for Ailments in Twitter

Dalam langkah ini penulis membuat model yang dapat menemukan berbagai topik kesehatan yang dibahas di Twitter. Dengan model probabilistik seperti LDA, mengasosiasikan kata tokens dengan topik laten dan menemukan struktur laten dalam data.Percobaan awal dengan LDA menghasilkan beberapa topik berkaitan dengan penyakit, tetapi sebagian besar tidak jelas terindikasi penyakit tertentu.

Kesimpulan

Dengan informasi dari twitter penulis dapat mengelompokkan kata-kata ke dalam topik kesehatan yang terkait.

Resume Jurnal Data Mining (5)

5. Judul : IMPLEMENTASI DATA MINING UNTUK MENEMUKAN POLA HUBUNGAN TINGKAT KELULUSAN MAHASISWA DENGAN DAT INDUK MAHASISWA

Penulis : Beta Noranita, Nurdin Bahtiar

Resume :

Perguruan tinggi saat ini dituntut untuk memiliki keunggulan bersaing dengan memanfaatkan semua sumber data yang dimiliki. Perguruan tinggu harus mampu melakukan proses evaluasi, perencanaan dan pengelolaan secara baik untuk dapat memenangkan persaingan di era globalisasi ini. Selain sumber daya sarana, rasarana dan manusia sistem informasi adalah salah satu sumberdaya yang dapat digunakan untuk meningkatkan keunggulan bersaing. Sistem informasi dapat digunakan untuk mendapatkan, mengolah dan menyebarakan informasi untuk menunjang kegiatan operasional sehari-hari sekalgus menunjang kegiatan pengambilan keputusan.

Data yang digunakan dalam makalah ini terdiri dari dua sumber yaitu data induk mahasiswa dan data kelulusan.

1. Data induk mahasiswa adalah data mahasiswa yang didata pertama kali ketika masuk perguruan tinggi seperti identitas pribadi, dan identitas sekolah asal.

2. Data kelulusan adalah data mahasiswa yang dinyatakan lusus, data yang dicatat adalah identitas mahasiswa dan data kelengkapan kelulusan.

Proses-proses yang terdapat pada aplikasi data mining adalah :

1. Import Data : proses load data dari database kelulusan dan database induk mahasiswa ke data warehouse.

2. Cleaning, Integrasi, Selection dan transformasi

a. Bersihkan data dari record data yang tidak lengkap, tidak valid, dan penghapusan atribut yang tidak terpkai.

b. Integrasi data dilakukan pada atributatribut yang megidentifikasikan entitas-entitas yaitu NIM.

c. Menyeleksi atribut yang akan diproses.

d. Mengubah data atau menggabungkan format yang sesuai untuk proses dalam data mining.

3. Proses mining proses masuk, asal sekolah, asal kota dan program studi

 

Analisa Hasil

Hubungan tingkat kelulusan dengan proses masuk mahasiswa dengan cara PSSB dan SPMB adalah 50 % berbanding 50%. Dengan demikian proses masuk PSSB dan SPMB memiliki tingkat kelulusan yang sama.

Resume Jurnal Data Mining (4)

4. Judul : PERBANDINGAN PARTITION AROUND MEDOIDS (PAM) DAN K-MEANS CLUSTERING UNTUK TWEETS

Penulis : Yudi Wibisono

Resume :

Paper ini membahas perbandingan hasil clustering PAM dengan K-Means. Data yang digunakan adalah 1000 tweets berbahasa Indonesia yang mengandung kata “telkomsel” dan “indosat” yang dimulai dari tanggal 29-8-2010 sampai dengan tanggal 30-8-2010.

3 tahap yang dilakukan oleh penulis untuk melakukan eksperimen ini, yaitu :

1. Prepocessing

Prepocessing ini digunakan untuk menghilangkan noise dalam tweet karena dalam tweet-tweet tersebut banyak mengandung kata singkatan, bahasa slank, bahasa campuran dan makian.

Preprocessingyang digunakan dalam penelitian ini adalah sebagai berikut:
(1) Membuang tweet yang mengandung kata “4sq.com”. Tweet ini hanya memberikan
informasi lokasi seseorang, sehingga dianggap tidak penting. Contoh: “I’m at Kantor Pusat PT Indosat (Jl. Medan Merdeka Barat No. 21, Jakarta). http://4sq.com/bBKAQc“
(2) Membuang link URLyang terdapat dalam tweet.
(3) Casefolding dan membuang karakter selain [a..z] dan [0..9].
(4) Membuang tweet yang terlalu pendek ( < 20 karakter).
(5) Membuang kata yang termasuk di dalam stopwords(kata yang terlalu sering muncul
seperti “yang”, “di” dan seterusnya).
(6) Menyeragamkan kata yang memiliki arti sama. Misalnya untuk kata emng”,”emang”,” emg” dan “mmg” diganti dengan kata baku yaitu “memang”.

2. Clustering

Dalam penelitian ini penulis menggunakan 2 teknik clustering yaitu K-Means dan Partition Around Medoids (PAM).

3. Evaluasi

Untuk mengukur kualitas hasil clustering, digunakan nilai purity. Nilai purity adalah kesesuaian antara cluster dengan cluster ideal yang ditentukan secara manual sebelumnya. Persamaan 2 memperlihatkan formula untuk menghitung purity. Semakin besar nilai purity(semakin mendekati 1), semakin baik kualitas cluster.

Untuk setiap teknik, dilakukan 10 kali eskperimen karena baik K-Means maupun PAM
menggunakan fungsi random. K-Means menggunakan fungsi random saat inisialisasi cluster dan PAM menggunakannya saat inisiasi dan proses pemilihan medoids

Eksperimen ke K-Means PAM
1 0.61 0.62
2 0.62 0.64
3 0.62 0.62
4 0.60 0.63
5 0.60 0.65
6 0.58 0.63
7 0.60 0.61
8 0.58 0.63
9 0.66 0.64
10 0.61 0.63
Rata-Rata 0.61 0.63

Penelitian tersebut memperlihatkan bahwa PAM lebih baik dibandingkan K-Means, tetapi secara keseluruhan masih banyak hal yang harus dilakukan untuk meningkatkan kualitas dari cluster.

Resume Jurnal Data Mining (3)

3. Judul : Analisis Kepuasan Konsumen Terhadap Restoran Cepat Saji Melalui Pendekatan Data Mining: Studi Kasus XYZ

Pembuat : Vina Mandasari, Bayu Adhi Tama

Resume :

Pesatnya pertumbuhan di industri jasa makanan memicu tumbuhnya restoran cepat saji. Dengan semakin banyaknya restoran cepat saji yang ada, maka menimbulkan persaingan tersendiri diantara restoran cepat saji tersebut. Berbagai cara dilakukan oleh masing-masing restoran cepat saji untuk memenangkan persaingan, antara lain yakni dengan meningkatkan kepuasan konsumen karena kepuasan konsumen merupakan salah satu faktor untuk meningkatkan kualitas layanan / revenue.

Kepuasan konsumen adalah tingkat dimana anggapan terhadap produk sesuai dengan harapan seorang pembeli. Harapan konsumen umumnya merupakan prakiraan atau keyakinan konsumen tentang apa yang akan diterimanya bila ia membeli atau mengkonsumsi suatu produk (Amstrong, 2002: 10).

Menurut Kotler (1997:38) salah satu untuk mengukur kepuasaan konsumen adalah dengan survei kepuasan konsumen. Seperti salah satu penelitian berjudul ”Data Mining Techniques For Customer Relationship Management” yang menggunakan data miningsebagai teknologi dengan jaringan syaraf tirun.

Adapun penggunaan berbagai model data mining di bidang industri makanan seperti restoran cepat saji, diantaranya adalah seperti yang dilakukan oleh Y. Hayashi et alyang melakukan analisis terhadap customer brand preferencedengan metode Decision Treedan Neural Network. Mereka mengumpulkan 800 responden di Taiwan untuk memahami faktor-faktor yang menentukan pilihan merek konsumen restoran cepat
saji (Hayashi, 2009).

Kepuasan konsumen terbagi menjadi dua yaitu:
1) Kepuasan fungsional, merupakan kepuasan yang diperoleh dari fungsi atau pemakaian suatu produk. Misalnya karena makan membuat perut kita menjadi kenyang.
2) Kepuasan psikologikal, merupakan kepuasan yang  diperoleh dari atribut yang bersifat tidak berwujud. Misalnya perasaan bangga karena mendapat peayanan
yang sangat istimewa dari sebuah rumah makan yang mewah

)Menurut Kolter (1997 : 38), ada empat metode yang
dilakukan oleh perusahaan untuk mengetahui tingkat
kepuaan konsumen yaitu:
1) Sistem keluhan dan saran
Untuk mengidentifikasikan masalah maka perusahaan harus mengumpulkan informasi langsung dari konsumendengan cara menyediakan kotak saran. Informasi yang terkumpul untuk memberikan masukan bagi perusahaan.
2) Survei Kepuasan Konsumen
Survei kepuasan konsumen dapat dilakukan dengan cara survei melalui pos surat, telefon, maupun wawancarapribadi. Dengan metode ini perusahaan dapat menciptakan komunikasi 2 arah dan menunjukkan
perhatiannya kepada konsumen.
3) Gost Shopping
Metode ini digunakan untuk mengetahui kekuatan dan kelemahan perusahaan pesaing dan membandingkannya dengan perusahaan yang bersangkutan.
4) Analisis Kehilangan Konsumen
Tingkat kehilangan konsumen menunjukkan kegagalan perusahaan dalam memuaskan konsumennya. Perusahaan seharusnya menganalisa dan memahami mengapa konsumen tersebut berhenti mengkonsumsi produk kita.

Hasi Penilitian

1. Pengumpulan Data, penulis mengumpulkan data dngan cara menyebar 340 kuisioner kepada responden yang berisi pertanyaan dari beberapa indikator seperti produk, pelayanan, fasilitas, harga dan tempat. Data tersebut memiliki 12 atribut yang dikelompokkan kedalam 5 dimensi yaitu (1) produk yang terdiri dari tiga atribut yaitu rasa makanan, porsi, dan dessert, (2) fasilitas yang terdiri dari empat atribut yaitu free internet access, tempat yang nyaman untuk anak, suasana restoran dan kebersihan washtuple, (3) pelayanan yang terdiri dari dua atribut yaitu penyajian makanan dan perilaku staf, (4) harga yang terdiri dari dua atribut yaituharga makanan dan diskon, (5) tempat yang terdiri dari satu atribut yaitu lokasi. Dari 340 responden yang terlibat, 207 responden menyatakan puas (kelas 1) dan 133 responden menyatakan tidak puas (kelas 0).

2. Rule yang Dihasilkan, penulis menggunakan metode k-cross validation untuk melihat performansi dari classifier. Rules yang berhasil diekstrak sebanyak 11 rule, dengan 5 rules mengelompokkan sample ke kelas 0 (tidak puas), dan 6 rules yang mengklasifikasikan sampel ke kelas 1 (puas). Tingkat akurasi yang berhasil dicapai oleh C4.5 adalah sebesar 79,41%. Secara keseluruhan, terdapat 8 atribut yangterlihat berpengaruh terhadap kepuasan konsumen yaitu dari dimensi pelayanan (2 atribut), produk (3 atribut), harga (2 atribut), dan fasilitas (1 atribut).

3. Pengujian Metode Klasifikasi, Pengujian model klasifikasi yang digunakan dilakukan secara empiris dan secara kualitatif. Secara empiris, performansi dari metode klasifikasi direpresentasikan ke dalam matriks confusion. Secara kualitatif, rulesyang dihasilkan akan ajukan ke store manageruntuk dipertimbangkan lebih lanjut sebagai pengambilan keputusan di bidang bisnis.

Resume Jurnal Data Mining (2)

2. Judul : ANALISIS SENTIMEN PADA DOKUMEN BERBAHASA INDONESIA DENGAN PENDEKATAN SUPPORT VECTOR MACHINE

Pembuat : Muhamad Yusuf Nur dan Diaz D. Santika

Resume :

Pertumbuhan media online mendorong munculnya informasi tekstual yang tidak terbatas, sehingga muncul kebutuhan penyajian tanpa mengurangi nilai dari informasi tersebut. Informasi tekstual dikategorikan menjadi dua: fakta dan opini. Fakta merupakan ekspresi obyektif mengenai suatu entitas, kejadian atau sifat, sedangkan opini adalah ekspresi subyektif yang menggambarkan sentimen orang, pendapat atau perasaan tentang sebuah entitas, kejadian, atau sifat.

Analisis sentimen yang merupakan bagian dari opinion mining, adalah proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi. Dilakukan untuk melihat pendapat terhadap sebuah masalah, atau dapat juga digunakan untuk identifikasi kecenderungan hal di pasar. Analisis sentimen dalam penelitian ini adalah proses klasifikasi dokumen tekstual ke dalam dua kelas, yaitu kelas sentimen positif dan negatif. Manfaat analisis sentimen dalam dunia usaha antara lain untuk melakukan pemantauan terhadap sebuah produk. Secara cepat dapat digunakan sebagai alat bantu untuk melihat respon masyarakat terhadap produk tersebut. Sehingga dapat segera diambil langkah-langkah strategis berikutnya.

Dalam pengumpulan data yang penulis gunakan adalah dari dari ssitus jejaring sosial Twitter dengan menambahkan proses deteksi bahasa. Untuk mendapatkan data sentimen dilakukan dengan menggunakan kata kunci berupa ikon emosi “:)” dan “:(“. Topik dibatasi hanya mengenai telepon selular sepertiandroid, apple, blackberrym ericson, ipad, iphon, nexian, nokia, samsung dan handphone.

 

Sementara itu dalam preprocessing penulis menggunakan 3 tahapan, yaitu :

1. Cleansing: membersihkan  dokumen dari kata yang tidak diperlukan untuk mengurangi noise seperti karakter HTML,, ikon emosi, hashtag, username, url dan email.

2. Case folding : penyeragaman bentuk huruf serta penghapusan angka dan tanda baca.

3. Parsing : proses memecah dokumen menjadi sebuah kata dengan fitur yang digunakan yaitu unigram.

 

Dalam tahap pemilihan dan ekstraksi fitur penulis menggunakan 2 cara untuk melakukan klasifikasi, yaitu :

1. Part of Speech Tagger : proses memberikan kelas pada kata(adjective, adverb, noun, verb), sesuai dengan penelitian Bing Liu yang menyatakan bahwa keempat jenis kata di atas merupakan jenis kata yang paling banyak mengandung sentimen dan penentuan kelas berdasarkan KBBI.

2.Stemming : megurangi variasi kata yang memiliki kata dasar yang sama

 

Dalam tahap pembobotan penulis menggunakan metode pembobotan unigram dimana tiap kata atau simbol dihitung sebagai satu fitur. Untuk mereduksi jumlah atribut digunakan minimal frekuensi kemunculan kata sebanyak tiga. Hal ini berdasarkan pada penelitian “Web Forum Sentiment Analysis based on Topics” , bahwa penggunaan minimal tiga kata tidak berpengaruh besar terhadap hasil klasifikasi.

 

Metode klasifikasi yang digunakan adalah metode pembelajaran supervised dengan algoritma SVM.

 

Proses validasi menggunakan k-fold cross-validation, dengan k=3, mengikuti penelitian Pang. Hal ini karena dataset yang digunakan cukup besar yaitu 6000 data. Sedangkan untuk menghitung tingkat kebenaran proses klasifikasi digunakan data confusion matrix.

 

Hasil Penelitian :

1. Pengumpulan data : dengan menggunakan aplikasi java sesuai dengan kata yang digunakan didapatkan data tweet sebanyak 34413.

2. Pemilihan dan Ekstraksi Fitur : tweet yang sudah terkumpul diekstraksi fitur masing-masing dataset.

3. Proses klasifikasi : dengan menggunakan tools Weka dan hasilnya  dari 6000 data yang digunakan masing-masing 3000 sentiment positif dan negatif.

4. Validasi dan Evaluasi : Proses klasifikasi dengan menggunakan 3-fold cross validation, dengan menghitung nilai rata -rata untuk tiap dataset dan pembobotan yang dilakukan.

 

 

Resume Jurnal Data Mining (1)

Berikut resume dari jurnal-jurnal untuk memenuhui salah satu tugas matakuliah Seminar

 

1. Judul : 10 CHALLENGING PROBLEMS IN DATA MINING RESEARCH

Pembuat : QIANG YANG dan XINDONG WU

 

Resume : 

Pada bulan Oktober 2005 penulis mengidentifikasi 10 masalah yang menantang, layak dan sedang hot di data mining kepada peneliti-peneliti, termasuk kepada mahasiswa PhD.

Masalah-masalah tersebut adalah :

1. Developing a Unifying Theory of Data Mining

Banyak teknik yang dirancang untuk masalah individu seperti klasifikasi atau klastering tetapi tidak ada Unifying Theory.  Bagaimanapun teori framework  yang menyatukan data mining yang berbeda termasuk klasifikasi, klastering, assosiation rule, dan sebagainya serta pendekatan yang berbeda dari data mining seperti statistika, machine learning, database system, dll akan membantu bidang dan memberikan dasar penelitian untuk masa depan.

2. Scaling Up for High Dimensional Data and High Speed Data Streams

Salah satu tantangan adalah bagaimana merancang pengklasifikasi untuk menangani ultra-high masalah klasifikasi dimensi. Satu masalah  penting adalah mining data streams dalam database yang sangat besar (misalnya 100 TB).  Namun data teknologi data mining saat ini masih terlalu lambat untuk menangani data dengan skala ini. Selain itu, data mining harus menjadi proses yang terus menerus secara online, bukan one-shot process. 

3. Mining Sequence Data and Time Series Data

Sequentials dan time series data mining tetap merupakan masalah penting.Meskipun kemajuan dalam bidang-bidang terkait  lainnya seperti bagaimana mengefisienkan klaster, klasifikasi, dan memprediksi trend data, topik ini masih menjadi topik yang penting. Sebuah masalah yang sangat menantang adalah noise di data time series. Ini adalah masalah yang penting untuk dapat diatasi. Time series banyak digunakan untuk memprediksi data yang terkontaminasi oleh noise, sehingga sulit untuk melakukan prediksi jangka pendek dan jangka panjang yang akurat

Beberapa isu penting yang perlu ditangani dalam desain penambang data yang praktis untuk time series noise meliputi:
• Informasi / search agen untuk mendapatkan informasi: Penggunaan yang salah, kriteria pencarian terlalu banyak, atau terlalu sedikit, mungkin informasi yang tidak konsisten dari berbagai sumber, semantis analisis informasi; asimilasi informasi menjadi masukan untuk agen prediktor.
• Learner / miner untuk memodifikasi kriteria informasi seleksi: aturan berkembang untuk Search Agen untuk mengumpulkan informasi, aturan berkembang untuk Information Agen  untuk mengasimilasi informasi.
• Predictor agen untuk memprediksi tren: Pendirian informasi kualitatif, multi-tujuan optimasi tidak dalam bentuk tertutup.

 4. Mining Complex Knowledge from Complex Data

Sebagian besar data organisasi yang paling adalah dalam bentuk tulisan, bukan database, dan dalam format data yang lebih kompleks termasuk Gambar, Multimedia, dan data Web. Dengan demikian, ada kebutuhan untuk mempelajari metode data mining yang melampaui klasifikasi dan clustering.

Beberapa pertanyaan yang menarik termasuk bagaimana melakukan summarization baik otomatis teks dan bagaimana mengenali pergerakan benda-benda dan orang-orang dari Web dan Wireless data log untuk menemukan pengetahuan spasial dan temporal yang berguna. Sekarang ada kebutuhan yang kuat untuk pertambangan integrasi data dan inferensi pengetahuan. Ini adalah topik penting masa depan.

5. Data Mining in a Network Setting

5.1. Community and social networks

Dewasa ini dunia saling berhubungan dengan berbagai jenis link. Link ini termasuk halaman Web, blog, dan email. Banyak responden menganggap community mining dan mining of social network sebagai topik penting.

Identifikasi masalah dalam dirinya sendiri adalah salah satu yang menantang. Pertama, sangat penting untuk memiliki karakterisasi yang tepat dari gagasan masyarakat yang akan terdeteksi. Kedua, entitas / node yang terlibat adalah terdistribusi dalam kehidupan nyata, dan sarana maka didistribusikan identifikasi akan diinginkan. Ketiga, dataset snapshot-based mungkin tidak dapat menangkap gambaran nyata, apa kebohongan yang paling penting dalam hubungan lokal antara entitas / node.

5.2 Mining in and for computer networks — high-speed mining of high-speed streams

Masalah jaringan pertambangan merupakan tantangan utama. Link jaringan meningkat dalam kecepatan, dan penyedia layanan saat ini mengerahkan 1 Gig Ethernet dan 10 Gig Ethernet kecepatan link. Untuk dapat mendeteksi anomali (lonjakan lalu lintas misalnya mendadak karena acara serangan DoS (Denial of Service) orcatastrophic), penyedia layanan akan perlu untuk dapat menangkap paket IP pada kecepatan tinggi link dan juga menganalisis sejumlah besar (beberapa ratus GB) data setiap hari. Satu akan membutuhkan solusi yang sangat scalable sini. Algoritma yang baik, oleh karena itu, diperlukan untuk mendeteksi apakah serangan DoS tidak ada.

6. Distributed Data Mining and Mining Multi-Agent Data

Masalah data mining didistribusikan sangat penting dalam masalah jaringan. Dalam lingkungan terdistribusi (seperti sensor atau jaringan IP), seseorang telah mendistribusikan probe ditempatkan di lokasi strategis dalam jaringan. Masalahnya di sini adalah untuk dapat mengkorelasikan data terlihat di berbagai probe, dan menemukan pola dalam data global terlihat di semua probe yang berbeda. Mungkin ada model yang berbeda dari data mining didistribusikan di sini, tapi satu bisa melibatkan NOC yang mengumpulkan data dari situs terdistribusi, dan satu lagi di mana semua situs yang diperlakukan sama. Tujuannya di sini jelas akan meminimalkan jumlah data yang dikirim antara berbagai situs – pada dasarnya, untuk mengurangi overhead komunikasi. Dalam pertambangan didistribusikan, satu masalah adalah bagaimana untuk menambang di beberapa sumber data heterogen: mining multi-database dan multi-relasional.

7. Data Mining for Biological and Environmental Problems

Peneliti data mining harus mempertimbangkan informatika ekologi dan lingkungan. Salah satu kekhawatiran terbesar saat ini, yang akan memerlukan upaya yang signifikan data mining adalah pertanyaan tentang bagaimana kita dapat memahami dan karenanya memanfaatkan lingkungan alam kita, pemerintah dan sumber. Data mining akan dapat membuat dampak yang tinggi di bidang fusi data terpadu dan pertambangan dalam aplikasi cological / lingkungan, terutama ketika melibatkan didistribusikan / desentralisasi sumber data, misalnya otonom sensor jaringan mobile untuk pemantauan dan iklim / atau perubahan vegetasi.

8. Data Mining Process-Related Problems

Topik-topik penting yang ada dalam meningkatkan data mining-alat dan proses melalui otomatisasi, seperti yang disarankan oleh beberapa peneliti. Jika kita mengotomatisasi operasi data mining proses yang berbeda, akan ada kemungkinan untuk mengurangi tenaga manusia sebanyak mungkin. Salah satu isu penting adalah bagaimana untuk mengotomatisasi pembersihan data. Kita bisa membangun model dan menemukan pola hari sangat cepat, namun 90 persen dari biaya pra-pengolahan (integrasi data, pembersihan data, dll) Mengurangi biaya ini akan memiliki hasil yang jauh lebih besar daripada lanjut mengurangi biaya model-building dan pola-temuan. Masalah lainnya adalah bagaimana melakukan dokumentasi sistematis pembersihan data. Masalah lainnya adalah bagaimana menggabungkan visual interaktif dan otomatis teknik data mining bersama-sama. Dia mengamati bahwa dalam banyak aplikasi, tujuan data mining dan tugas tidak dapat sepenuhnya ditentukan, terutama dalam eksplorasi analisis data. Visualisasi membantu untuk mempelajari lebih lanjut tentang data dan menentukan / memperbaiki tugas data mining tersebut.

9. Security, Privacy, and Data Integrity

Beberapa peneliti menganggap perlindungan privasi dalam data mining sebagai topik penting. Artinya, bagaimana memastikan privasi pengguna ‘sedangkan data mereka sedang ditambang. Terkait dengan topik ini adalah data mining untuk perlindungan keamanan dan privasi.

Terkait dengan masalah integritas pengetahuan penilaian, dua tantangan yang paling signifikan adalah: (1) mengembangkan algoritma efisien untuk membandingkan pengetahuan konten dari dua (sebelum dan sesudah) versi data, dan (2) mengembangkan algoritma untuk memperkirakan dampak yang modifikasi tertentu dari data terhadap pentingnya statis vertikal-pola individu dapat diperoleh dengan kelas yang luas dari algoritma data mining.

10. Dealing with Non-Static, Unbalanced and Cost-Sensitive Data

Suatu hal yang penting adalah bahwa model belajar harus memasukkan waktu karena data tidak statis dan terus berubah dalam banyak domain. Tindakan sejarah dalam sampling dan model bangunan yang tidak optimal, tetapi mereka tidak dipilih secara acak baik. Hal ini memberikan fenomena menantang berikut untuk proses pengumpulan data.

Hello world!

Welcome to Blog Civitas UPI. This is your first post. Edit or delete it, then start blogging!