Tuesday, October 6, 2015

Contoh Perhitungan Manual Penerapan Metode K Means Klastering Datamining


Apa itu metode clustering pada data mining ?
     Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan data-data kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut data.

Algoritma Metode K Means Clustering

Algoritma Metode K Means Clustering
Algoritma Flowchart Metode Klastering K Means
Langkah- Langkah perhitungannya adalah:
1. Menentukan Jumlah cluster data
2. Tentukan titik pusat cluster
3. menghitung jarak obyek dengan centroid
4. kelompokan obyek 
5. jika kelompok data hasil perhitungan baru sama dengan hasil perhitungan kelompok data baru maka selesailah perhitungannya.



            Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara manual:
Diketahui : Jumlah Cluster = 3,
jumlah data =12,
jumlah atribut= 2




NO
Kota /Kab
Luas Lahan
Produksi
1
Kab. Ponorogo
66,693.00
402,047.00
2
Kab. Trenggalek
31,136.00
182,848.00
3
Kab. Tulungagung
49,230.00
259,581.00
4
Kab. Blitar
50,577.00
289,494.00
5
Kab. Kediri
51,083.00
281,392.00
6
Kab. Malang
65,597.00
464,498.00
7
Kab. Lumajang
72,552.00
387,168.00
8
Kab. Jember
162,619.00
964,001.00
9
Kab. Banyuwangi
113,609.00
706,419.00
10
Kab. Bondowoso
61,330.00
329,557.00
11
Kab. Situbondo
48,902.00
290,954.00
12
Kab. Probolinggo
59,130.00
311,258.00
Tabel 2 : Tabel Sampel Dataset Padi tahun 2013 Provinsi Jawa Timur
Iterasi ke-1
1.      Penentuan pusat awal cluster
Di ambil data ke-8 sebagai pusat cluster ke-1  
162,619
964,001
Di ambil data ke-7 sebagai pusat cluster ke-2    
72,552
387,168
Di ambil data ke-2 sebagai pusat cluster ke-3    
31,136
182,848

2.      Perhitungan Jarak Pusat Cluster
Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:


Rumus Euclidian Distance: 

NO
Kota /Kab
Luas Lahan
Produksi
C1
C2
C3
Jarak Terpendek
1
Kab. Ponorogo
66,693
402,047
570,082534
15,99101
222,0642
15,99101379
2
Kab. Trenggalek
31,136
182,848
792,1412681
208,4753
0
0
3
Kab. Tulungagung
49,23
259,581
713,4876325
129,701
78,83747
78,83746651
4
Kab. Blitar
50,577
289,494
683,7492982
100,1155
108,4035
100,1154878
5
Kab. Kediri
51,083
281,392
691,6612799
107,9328
100,5425
100,542542
6
Kab. Malang
65,597
464,498
508,8383982
77,64213
283,7504
77,6421337
7
Kab. Lumajang
72,552
387,168
583,8222113
0
208,4753
0
8
Kab. Jember
162,619
964,001
0
583,8222
792,1413
0
9
Kab. Banyuwangi
113,609
706,419
262,2031022
321,8802
530,0268
262,2031022
10
Kab. Bondowoso
61,33
329,557
642,4785216
58,69379
149,7839
58,69378677
11
Kab. Situbondo
48,902
290,954
682,5861267
99,07803
109,5561
99,07803135
12
Kab. Probolinggo
59,13
311,258
660,8959049
77,08747
131,426
77,08747099

3.     Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut berada dalam group(kelompok data).


(Kelompok Data 1)
No.
C1
C2
C3
1

1

2


1
3


1
4

1

5


1
6

1

7

1

8
1


9
1


10

1

11

1

12

1



4.      Penentuan pusat cluster baru
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga didapatkan perhitungan sebagai berikut :
NO
Kota /Kab
Luas Lahan
Produksi
Cluster Baru
C1
C2
C3
1
Kab. Ponorogo
66,693
402,047
138,114
60,683
43,81633
2
Kab. Trenggalek
31,136
182,848
835,21
353,568
241,2737
3
Kab. Tulungagung
49,23
259,581



4
Kab. Blitar
50,577
289,494



5
Kab. Kediri
51,083
281,392



6
Kab. Malang
65,597
464,498



7
Kab. Lumajang
72,552
387,168



8
Kab. Jember
162,619
964,001



9
Kab. Banyuwangi
113,609
706,419



10
Kab. Bondowoso
61,33
329,557



11
Kab. Situbondo
48,902
290,954



12
Kab. Probolinggo
59,13
311,258




Iterasi ke-2
5.      Ulangi langkah ke 2 (kedua) hingga posisi data tidak mengalami perubahan.

Cluster baru yang ke-1
138,114
835,21

Cluster baru yang ke-2
60,683
353,568

Cluster baru yang ke-3
43,81633333
241,2736667

NO
Kota /Kab
Luas Lahan
Produksi
C1
C2
C3
Jarak Terpendek
1
Kab. Ponorogo
66,693
402,047
439,0116
48,85011
162,3928
48,85011301
2
Kab. Trenggalek
31,136
182,848
661,0752
173,258
59,78586
59,7858627
3
Kab. Tulungagung
49,23
259,581
582,451
94,68224
19,091
19,09099894
4
Kab. Blitar
50,577
289,494
552,6922
64,86608
48,69196
48,69196197
5
Kab. Kediri
51,083
281,392
560,6146
72,81164
40,77113
40,77113089
6
Kab. Malang
65,597
464,498
377,7381
111,0388
224,2844
111,0387873
7
Kab. Lumajang
72,552
387,168
452,8134
35,63472
148,6973
35,63471848
8
Kab. Jember
162,619
964,001
131,1016
618,8856
732,4267
131,1015511
9
Kab. Banyuwangi
113,609
706,419
131,1016
356,7982
470,3522
131,1015511
10
Kab. Bondowoso
61,33
329,557
511,4496
24,01972
90,00375
24,01971544
11
Kab. Situbondo
48,902
290,954
551,5192
63,71268
49,93996
49,93995921
12
Kab. Probolinggo
59,13
311,258
529,8718
42,33849
71,64018
42,33849205

Langkah selanjutnya sama dengan langkah pada nomor 3 jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.


Kelompok Data 2


No.
C1
C2
C3
1

1

2


1
3


1
4


1
5


1
6

1

7

1

8
1


9
1


10

1

11


1
12

1



Pada perhitungan ini Iterasi Berhenti pada iterasi ke-4 karena kelompok data 4 = kelompok data 3 dan hasil Clustering, telah mencapai stabil dan konvergen. Untuk perhitungan yang lebih rinci di lampirkan pada file Excel.
No.
C1
C2
C3
1

1

2

1

3

1

4

1

5

1

6

1

7

1

8
1


9


1
10

1

11

1

12

1

Tabel Kelompok data 3

No.
C1
C2
C3
1

1

2

1

3

1

4

1

5

1

6

1

7

1

8
1


9


1
10

1

11

1

12

1

 Tabel Kelompok Data 4

Untuk Lebih Jelasnya bisa di pelajari hitungan secara manual algoritma klastering k means untuk data mining pada file microsoft excel yang saya upload di link ini  
DOWNLOAD FILE

Link Lain nya 



Penjelasan Om Romi di video ini juga akan sangat membantu dalam memahami Data mining dan metode-metode nya, kapan di gunakan setiap metode nya dan lain-lain beserta contoh penerapan setiap metode nya. 


Disqus Comments