Resume Jurnal Data Mining (4)

4. Judul : PERBANDINGAN PARTITION AROUND MEDOIDS (PAM) DAN K-MEANS CLUSTERING UNTUK TWEETS

Penulis : Yudi Wibisono

Resume :

Paper ini membahas perbandingan hasil clustering PAM dengan K-Means. Data yang digunakan adalah 1000 tweets berbahasa Indonesia yang mengandung kata “telkomsel” dan “indosat” yang dimulai dari tanggal 29-8-2010 sampai dengan tanggal 30-8-2010.

3 tahap yang dilakukan oleh penulis untuk melakukan eksperimen ini, yaitu :

1. Prepocessing

Prepocessing ini digunakan untuk menghilangkan noise dalam tweet karena dalam tweet-tweet tersebut banyak mengandung kata singkatan, bahasa slank, bahasa campuran dan makian.

Preprocessingyang digunakan dalam penelitian ini adalah sebagai berikut:
(1) Membuang tweet yang mengandung kata “4sq.com”. Tweet ini hanya memberikan
informasi lokasi seseorang, sehingga dianggap tidak penting. Contoh: “I’m at Kantor Pusat PT Indosat (Jl. Medan Merdeka Barat No. 21, Jakarta). http://4sq.com/bBKAQc“
(2) Membuang link URLyang terdapat dalam tweet.
(3) Casefolding dan membuang karakter selain [a..z] dan [0..9].
(4) Membuang tweet yang terlalu pendek ( < 20 karakter).
(5) Membuang kata yang termasuk di dalam stopwords(kata yang terlalu sering muncul
seperti “yang”, “di” dan seterusnya).
(6) Menyeragamkan kata yang memiliki arti sama. Misalnya untuk kata emng”,”emang”,” emg” dan “mmg” diganti dengan kata baku yaitu “memang”.

2. Clustering

Dalam penelitian ini penulis menggunakan 2 teknik clustering yaitu K-Means dan Partition Around Medoids (PAM).

3. Evaluasi

Untuk mengukur kualitas hasil clustering, digunakan nilai purity. Nilai purity adalah kesesuaian antara cluster dengan cluster ideal yang ditentukan secara manual sebelumnya. Persamaan 2 memperlihatkan formula untuk menghitung purity. Semakin besar nilai purity(semakin mendekati 1), semakin baik kualitas cluster.

Untuk setiap teknik, dilakukan 10 kali eskperimen karena baik K-Means maupun PAM
menggunakan fungsi random. K-Means menggunakan fungsi random saat inisialisasi cluster dan PAM menggunakannya saat inisiasi dan proses pemilihan medoids

Eksperimen ke K-Means PAM
1 0.61 0.62
2 0.62 0.64
3 0.62 0.62
4 0.60 0.63
5 0.60 0.65
6 0.58 0.63
7 0.60 0.61
8 0.58 0.63
9 0.66 0.64
10 0.61 0.63
Rata-Rata 0.61 0.63

Penelitian tersebut memperlihatkan bahwa PAM lebih baik dibandingkan K-Means, tetapi secara keseluruhan masih banyak hal yang harus dilakukan untuk meningkatkan kualitas dari cluster.

Leave a Reply to pozycjonowanie stron firmy Cancel reply

Your email address will not be published. Required fields are marked *