Kenapa Klasifikasi Class Tidak Seimbang Penting Dipelajari?

Seorang teman bertanya…

Kenapa perlu ada riset tentang klasifikasi class yang tidak seimbang? Apa sih implementasinya pada dunia nyata?

Untuk menjawab pertanyaan di atas maka saya sediakan beberapa pertanyaan di bawah ini untuk dijawab:

  • Lebih banyak mana antara orang yang terkena kanker dan orang sehat?
  • Lebih banyak mana antara email spam dan email bukan spam?
  • Lebih banyak mana antara transaksi fraud di bank dan transaksi normal?
  • Lebih banyak mana antara data mahasiswa yang tidak lulus dengan data mahasiswa yang lulus? Atau lebih banyak mana antara data mahasiswa berprestasi dengan mahasiswa yang biasa saja?

Dari pertanyaan di atas, tentu jawabannya tidak mungkin sebagai berikut:

  • Perbandingan orang terkena kanker dan orang sehat adalah 50:50.
  • Perbandingan email spam dan email bukan spam adalah 50:50.
  • Perbandingan antara transaksi fraud dan transaksi normal di bank  adalah 50:50.
  • Perbandingan antara mahasiswa tidak lulus dan mahasiswa lulus adalah 50:50.
  • Perbandingan antara mahasiswa berprestasi dan mahasiswa biasa saja adalah 50:50.

Artinya tidak mungkin kasus data seimbang (perbandingan 50:50) terjadi pada kasus di atas.  Kemungkinan yang paling besar terjadi adalah sebagai berikut:

  • Kasus kanker yang tercatat tahun 2012 adalah 14 juta sedangkan jumlah penduduk di dunia sekitar 7 milyar maka perbandingannya menjadi 1:500.

Begitu juga untuk kasus lainnya, dipastikan akan terjadi ketidakseimbangan antara data positif (data yang penting yang ingin diketahui atau data yang menjadi fokus perhatian, dalam kasus di atas adalah data penderita kanker, data email spam, data transaksi fraud, data mahasiswa tidak lulus dan lain-lain) dan data negatif. Dimana biasanya data positif berjumlah lebih sedikit daripada data negatif.

Dan kasus-kasus di atas itu hanya sebagian kecil dari kasus yang ditemui di dunia nyata.  Ok..ok..ok, kasus class tidak seimbang memang banyak terjadi dengan pada dunia nyata. Lalu kenapa perlu dilakukan riset lagi? Bukankah sudah banyak teknik atau metode klasifikasi yang telah ada dan dapat digunakan? Nah ternyata teknik-teknik atau metode klasifikasi yang telah kita kenal sejak dulu itu biasanya dapat bekerja baik untuk kasus data class yang seimbang saja.

Oleh karena itu riset terkait dengan class tidak seimbang banyak dilakukan.  Dan kasus class tidak seimbang bukan hal yang baru. Menurut publikasi berjudul “Editorial: Special Issue on Learning from Imbalanced Data Sets  (2004)” disebutkan jika kasus ini telah mendapat perhatian khusus pada Association For The Advancement Of Artificial Intelligence (AAAI) Workshop tahun 2000.

Termasuk saya sendiri, sekarang ini terjebak dan bergelimang dengan kasus data tidak seimbang. Smile

1 Comment

  1. Indrajani

    Halo,

    Nama saya Indrajani, mahasiswa Binus. Saya tertarik dengan tulisan Bapak ttg ensemble.

    Bolehkan saya kontak Bapak ? No. HP Bapak berapa ya ?

    Terima kasih.

    Regards,
    Indrajani

    Reply

Leave a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *