Resume Jurnal Data Mining (4)

4. Judul : PERBANDINGAN PARTITION AROUND MEDOIDS (PAM) DAN K-MEANS CLUSTERING UNTUK TWEETS

Penulis : Yudi Wibisono

Resume :

Paper ini membahas perbandingan hasil clustering PAM dengan K-Means. Data yang digunakan adalah 1000 tweets berbahasa Indonesia yang mengandung kata “telkomsel” dan “indosat” yang dimulai dari tanggal 29-8-2010 sampai dengan tanggal 30-8-2010.

3 tahap yang dilakukan oleh penulis untuk melakukan eksperimen ini, yaitu :

1. Prepocessing

Prepocessing ini digunakan untuk menghilangkan noise dalam tweet karena dalam tweet-tweet tersebut banyak mengandung kata singkatan, bahasa slank, bahasa campuran dan makian.

Preprocessingyang digunakan dalam penelitian ini adalah sebagai berikut:
(1) Membuang tweet yang mengandung kata “4sq.com”. Tweet ini hanya memberikan
informasi lokasi seseorang, sehingga dianggap tidak penting. Contoh: “I’m at Kantor Pusat PT Indosat (Jl. Medan Merdeka Barat No. 21, Jakarta). http://4sq.com/bBKAQc“
(2) Membuang link URLyang terdapat dalam tweet.
(3) Casefolding dan membuang karakter selain [a..z] dan [0..9].
(4) Membuang tweet yang terlalu pendek ( < 20 karakter).
(5) Membuang kata yang termasuk di dalam stopwords(kata yang terlalu sering muncul
seperti “yang”, “di” dan seterusnya).
(6) Menyeragamkan kata yang memiliki arti sama. Misalnya untuk kata emng”,”emang”,” emg” dan “mmg” diganti dengan kata baku yaitu “memang”.

2. Clustering

Dalam penelitian ini penulis menggunakan 2 teknik clustering yaitu K-Means dan Partition Around Medoids (PAM).

3. Evaluasi

Untuk mengukur kualitas hasil clustering, digunakan nilai purity. Nilai purity adalah kesesuaian antara cluster dengan cluster ideal yang ditentukan secara manual sebelumnya. Persamaan 2 memperlihatkan formula untuk menghitung purity. Semakin besar nilai purity(semakin mendekati 1), semakin baik kualitas cluster.

Untuk setiap teknik, dilakukan 10 kali eskperimen karena baik K-Means maupun PAM
menggunakan fungsi random. K-Means menggunakan fungsi random saat inisialisasi cluster dan PAM menggunakannya saat inisiasi dan proses pemilihan medoids

Eksperimen ke K-Means PAM
1 0.61 0.62
2 0.62 0.64
3 0.62 0.62
4 0.60 0.63
5 0.60 0.65
6 0.58 0.63
7 0.60 0.61
8 0.58 0.63
9 0.66 0.64
10 0.61 0.63
Rata-Rata 0.61 0.63

Penelitian tersebut memperlihatkan bahwa PAM lebih baik dibandingkan K-Means, tetapi secara keseluruhan masih banyak hal yang harus dilakukan untuk meningkatkan kualitas dari cluster.

Comments: 15

  1. Brain Fetrow March 18, 2013 at 5:11 am Reply

    Generally I don’t read article on blogs, but I would like to say that this write-up very compelled me to try and do it! Your writing style has been amazed me. Thank you, quite nice post.

  2. F.O.R.C.E-original bmw parts September 5, 2020 at 10:10 am Reply

    The direct match of original Volkswagen F.O.R.C.E-original bmw parts and accessories tends
    to make peace of mind quick.

  3. escorte transsexuelle belgique September 11, 2020 at 1:23 pm Reply

    salope nue sous sa soutane petite salope black
    expression rencontre tarif adopteunmec video femme cul nue chevelure
    longs porn.

    Here is my page; escorte transsexuelle belgique

  4. Escort Bruxelles Moi aussi, je de 27 ans au téléphone forme
    enchanteresse 95c.

    My site :: Trouvez des escortes en belgique qui portent un service d’escorte et un massage érotique

  5. APJ Solicitors September 24, 2020 at 2:41 am Reply

    You could definitely see your expertise in the article you write.
    The arena hopes for more passionate writers like you who are not afraid
    to say how they believe. All the time follow your heart.

    Look at my blog :: APJ Solicitors

  6. posizionamento seo google November 2, 2020 at 10:08 pm Reply

    Non appena posizionamento seo google
    indicizza la pagina, cerca di individuare l’argomento del suo
    contenuto.

  7. debtorverse09.webgarden.cz November 5, 2020 at 7:35 pm Reply

    le chiavi laterali, che pur non riguardando il servizio, sono comunque pertinenti con l’argomento
    e possono permettersi di intercettare un traffico successo utenti molto elevato.

    Take a look at my site ottimizzare seo (debtorverse09.webgarden.cz)

  8. Brussels Airport escorts February 16, 2021 at 3:26 am Reply

    Some reviews from the customers about their experiences with the Brussels Airport escorts
    from our directory.

  9. search engine marketing roi April 21, 2021 at 1:14 am Reply

    Organic search engine marketing roi engine
    marketing advertising аnd marketing iѕ a permanent job.

  10. types of search engine marketing May 2, 2021 at 5:17 pm Reply

    Creative writing сan be Optimized for types of search engine marketing Engines.

  11. Для этого нам нужен человек, который возьмет на себя написание материалов под нужные нам ключевые
    слова.

    Here is my blog post; продвижение сайтов англоязычных

  12. organic seo keyword research June 26, 2021 at 2:36 am Reply

    Google hates duplicate сontent and іt ϲan ɡet ʏou whacked with a penalty еver due to the fact Google’s Panda algorithm update.

    Feel free tо surf tօ my website: organic seo keyword research

  13. Также необходимо обкатать несколько
    методов продвижения на разных сайтах.

    Feel free t᧐ surf to my web blog; поисковое продвижение англоязычных сайтов

  14. organic seo for ecommerce June 29, 2021 at 12:52 pm Reply

    Aim organic seo for ecommerce at least 1500 words when seeking
    to rank for relevant keywords.

  15. pozycjonowanie stron firmy July 29, 2021 at 6:37 pm Reply

    W wyborze najlepszych słów dla Twojego sklepu pomoże Ci także Google Search
    Console.

    Look into my web-site: pozycjonowanie stron firmy

Leave a Reply to Brain Fetrow Cancel reply

Your email address will not be published. Required fields are marked *