Bisectional Clustering, Variance Checking & Visualization

Kemarin telah dibuat task untuk melakukan bisectional clustering pemeriksaan within-class variance.

{Bisectional Clustering}

Berikut ini adalah kode untuk menyelesaikan task bisectional clustering. Adapun syarat yang harus dipenuhi oleh proses ini adalah:

  • Ukuran cluster atau jumlah instance pada cluster tidak boleh lebih dari jumlah instance pada class minoritas.
  • Nilai imbalance ratio (IR) antara masing-masing cluster yang dibuat dengan class minoritas tidak boleh lebih besar daripada 9. Karena 9 dianggap sebagai highly imbalanced class.

Kode di atas hanya akan mengcluster class mayoritas saja. Jumlah class yang akan dihasilkan dapat berbeda untuk setiap proses jika proses ini dilakukan untuk data yang sama. Sebagai contoh berikut adalah class yang dihasilkan:

  • BIG112
  • BIG2121
  • BIG21222
  • BIG121
  • BIG21112
  • BIG111
  • BIG122
  • BIG21111
  • BIG21221
  • BIG2112
  • BIG22
  • ME3

 

{Within-Class Variance}
Selanjutnya adalah memeriksa variance dari setiap class yang telah dihasilkan oleh dari proses clustering di atas.  Task ini bertujuan untuk melihat apakah setiap cluster yang dibuat menyakinkan bahwa setiap instance dalam cluster tersebut memang layak menjadi satu cluster.

 

{Visualization}
Task ini bertujuan untuk melihat penyebaran antara setiap class baru yang dihasilkan dari proses clustering dengan class minoritas.  Dari visualisasi ini dapat dilihat apakah masih terjadi overlapping atau kedua class terpisah.
Salah satu contoh yang dapat dilihat dari task ini adalah seperti yang dilihat pada gambar di bawah ini.  Data yang digunakan adalah data yeast dari UCI Repository.  Sebelum dilakukan proses clustering akan dapat dilihat penyebaran data seperti berikut ini. 
image

Jika dilakukan plot antara masing-masing class baru dengan class minoritas akan dapat dilihat gambar-gambar seperti berikut.

image

image

image

image

image

image

image

image

image

image

image

Dari gambar-gambar di atas dapat dilihat terlihat antara class minoritas dengan class-class baru hasil clustering terpisah, tidak terlalu overlapping lagi jika dibandingkan sebelum dilakukan clustering.

Selanjutnya adalah melakukan klasifikasi 2 class antara class minoritas dan class baru.

Leave a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *