Apa itu metode clustering pada data mining ?
Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan data-data kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut data.
Algoritma Metode K Means Clustering
Algoritma Flowchart Metode Klastering K Means |
Langkah- Langkah perhitungannya adalah:
1. Menentukan Jumlah cluster data
2. Tentukan titik pusat cluster
3. menghitung jarak obyek dengan centroid
4. kelompokan obyek
5. jika kelompok data hasil perhitungan baru sama dengan hasil perhitungan kelompok data baru maka selesailah perhitungannya.
Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara manual:
Diketahui : Jumlah Cluster = 3, jumlah data =12, jumlah atribut= 2 | |||
NO | Kota /Kab | Luas Lahan | Produksi |
1 | Kab. Ponorogo | 66,693.00 | 402,047.00 |
2 | Kab. Trenggalek | 31,136.00 | 182,848.00 |
3 | Kab. Tulungagung | 49,230.00 | 259,581.00 |
4 | Kab. Blitar | 50,577.00 | 289,494.00 |
5 | Kab. Kediri | 51,083.00 | 281,392.00 |
6 | Kab. Malang | 65,597.00 | 464,498.00 |
7 | Kab. Lumajang | 72,552.00 | 387,168.00 |
8 | Kab. Jember | 162,619.00 | 964,001.00 |
9 | Kab. Banyuwangi | 113,609.00 | 706,419.00 |
10 | Kab. Bondowoso | 61,330.00 | 329,557.00 |
11 | Kab. Situbondo | 48,902.00 | 290,954.00 |
12 | Kab. Probolinggo | 59,130.00 | 311,258.00 |
Tabel 2 : Tabel Sampel Dataset Padi tahun 2013 Provinsi Jawa Timur
Iterasi ke-1
1. Penentuan pusat awal cluster
Di ambil data ke-8 sebagai pusat cluster ke-1 | 162,619 | 964,001 |
Di ambil data ke-7 sebagai pusat cluster ke-2 | 72,552 | 387,168 |
Di ambil data ke-2 sebagai pusat cluster ke-3 | 31,136 | 182,848 |
2. Perhitungan Jarak Pusat Cluster
Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:
Rumus Euclidian Distance:
NO | Kota /Kab | Luas Lahan | Produksi | C1 | C2 | C3 | Jarak Terpendek |
1 | Kab. Ponorogo | 66,693 | 402,047 | 570,082534 | 15,99101 | 222,0642 | 15,99101379 |
2 | Kab. Trenggalek | 31,136 | 182,848 | 792,1412681 | 208,4753 | 0 | 0 |
3 | Kab. Tulungagung | 49,23 | 259,581 | 713,4876325 | 129,701 | 78,83747 | 78,83746651 |
4 | Kab. Blitar | 50,577 | 289,494 | 683,7492982 | 100,1155 | 108,4035 | 100,1154878 |
5 | Kab. Kediri | 51,083 | 281,392 | 691,6612799 | 107,9328 | 100,5425 | 100,542542 |
6 | Kab. Malang | 65,597 | 464,498 | 508,8383982 | 77,64213 | 283,7504 | 77,6421337 |
7 | Kab. Lumajang | 72,552 | 387,168 | 583,8222113 | 0 | 208,4753 | 0 |
8 | Kab. Jember | 162,619 | 964,001 | 0 | 583,8222 | 792,1413 | 0 |
9 | Kab. Banyuwangi | 113,609 | 706,419 | 262,2031022 | 321,8802 | 530,0268 | 262,2031022 |
10 | Kab. Bondowoso | 61,33 | 329,557 | 642,4785216 | 58,69379 | 149,7839 | 58,69378677 |
11 | Kab. Situbondo | 48,902 | 290,954 | 682,5861267 | 99,07803 | 109,5561 | 99,07803135 |
12 | Kab. Probolinggo | 59,13 | 311,258 | 660,8959049 | 77,08747 | 131,426 | 77,08747099 |
3. Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut berada dalam group(kelompok data).
(Kelompok Data 1)
No. | C1 | C2 | C3 |
1 | 1 | ||
2 | 1 | ||
3 | 1 | ||
4 | 1 | ||
5 | 1 | ||
6 | 1 | ||
7 | 1 | ||
8 | 1 | ||
9 | 1 | ||
10 | 1 | ||
11 | 1 | ||
12 | 1 |
4. Penentuan pusat cluster baru
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga didapatkan perhitungan sebagai berikut :
NO | Kota /Kab | Luas Lahan | Produksi | Cluster Baru | ||
C1 | C2 | C3 | ||||
1 | Kab. Ponorogo | 66,693 | 402,047 | 138,114 | 60,683 | 43,81633 |
2 | Kab. Trenggalek | 31,136 | 182,848 | 835,21 | 353,568 | 241,2737 |
3 | Kab. Tulungagung | 49,23 | 259,581 | |||
4 | Kab. Blitar | 50,577 | 289,494 | |||
5 | Kab. Kediri | 51,083 | 281,392 | |||
6 | Kab. Malang | 65,597 | 464,498 | |||
7 | Kab. Lumajang | 72,552 | 387,168 | |||
8 | Kab. Jember | 162,619 | 964,001 | |||
9 | Kab. Banyuwangi | 113,609 | 706,419 | |||
10 | Kab. Bondowoso | 61,33 | 329,557 | |||
11 | Kab. Situbondo | 48,902 | 290,954 | |||
12 | Kab. Probolinggo | 59,13 | 311,258 |
Iterasi ke-2
5. Ulangi langkah ke 2 (kedua) hingga posisi data tidak mengalami perubahan.
Cluster baru yang ke-1 | 138,114 | 835,21 | |||||
Cluster baru yang ke-2 | 60,683 | 353,568 | |||||
Cluster baru yang ke-3 | 43,81633333 | 241,2736667 | |||||
NO | Kota /Kab | Luas Lahan | Produksi | C1 | C2 | C3 | Jarak Terpendek |
1 | Kab. Ponorogo | 66,693 | 402,047 | 439,0116 | 48,85011 | 162,3928 | 48,85011301 |
2 | Kab. Trenggalek | 31,136 | 182,848 | 661,0752 | 173,258 | 59,78586 | 59,7858627 |
3 | Kab. Tulungagung | 49,23 | 259,581 | 582,451 | 94,68224 | 19,091 | 19,09099894 |
4 | Kab. Blitar | 50,577 | 289,494 | 552,6922 | 64,86608 | 48,69196 | 48,69196197 |
5 | Kab. Kediri | 51,083 | 281,392 | 560,6146 | 72,81164 | 40,77113 | 40,77113089 |
6 | Kab. Malang | 65,597 | 464,498 | 377,7381 | 111,0388 | 224,2844 | 111,0387873 |
7 | Kab. Lumajang | 72,552 | 387,168 | 452,8134 | 35,63472 | 148,6973 | 35,63471848 |
8 | Kab. Jember | 162,619 | 964,001 | 131,1016 | 618,8856 | 732,4267 | 131,1015511 |
9 | Kab. Banyuwangi | 113,609 | 706,419 | 131,1016 | 356,7982 | 470,3522 | 131,1015511 |
10 | Kab. Bondowoso | 61,33 | 329,557 | 511,4496 | 24,01972 | 90,00375 | 24,01971544 |
11 | Kab. Situbondo | 48,902 | 290,954 | 551,5192 | 63,71268 | 49,93996 | 49,93995921 |
12 | Kab. Probolinggo | 59,13 | 311,258 | 529,8718 | 42,33849 | 71,64018 | 42,33849205 |
Langkah selanjutnya sama dengan langkah pada nomor 3 jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
Kelompok Data 2
No. | C1 | C2 | C3 |
1 | 1 | ||
2 | 1 | ||
3 | 1 | ||
4 | 1 | ||
5 | 1 | ||
6 | 1 | ||
7 | 1 | ||
8 | 1 | ||
9 | 1 | ||
10 | 1 | ||
11 | 1 | ||
12 | 1 |
Pada perhitungan ini Iterasi Berhenti pada iterasi ke-4 karena kelompok data 4 = kelompok data 3 dan hasil Clustering, telah mencapai stabil dan konvergen. Untuk perhitungan yang lebih rinci di lampirkan pada file Excel.
No. | C1 | C2 | C3 |
1 | 1 | ||
2 | 1 | ||
3 | 1 | ||
4 | 1 | ||
5 | 1 | ||
6 | 1 | ||
7 | 1 | ||
8 | 1 | ||
9 | 1 | ||
10 | 1 | ||
11 | 1 | ||
12 | 1 |
Tabel Kelompok data 3
No. | C1 | C2 | C3 |
1 | 1 | ||
2 | 1 | ||
3 | 1 | ||
4 | 1 | ||
5 | 1 | ||
6 | 1 | ||
7 | 1 | ||
8 | 1 | ||
9 | 1 | ||
10 | 1 | ||
11 | 1 | ||
12 | 1 |
Tabel Kelompok Data 4
Untuk Lebih Jelasnya bisa di pelajari hitungan secara manual algoritma klastering k means untuk data mining pada file microsoft excel yang saya upload di link ini
DOWNLOAD FILE
Link Lain nya
DOWNLOAD FILE