Modifikasi Dataset & Cross Validation

Hari ini memulai melakukan riset yang telah direncanakan dihari sebelumnya http://staf.ulm.ac.id/rezafaisal/2016/10/03/rencana-riset-bulan-oktober/.  Saya melakukan 2 task dari total 7 task yang telah direncanakan.

 

{Modifikasi Dataset}
Task ini bertujuan untuk membuat dataset original yang multiclass menjadi 2 class saja.

Dataset Yeast

Pada proses ini akan dimodifikasi data yeast agar menjadi 2 class saja yang terdiri atas class label berikut ini, yaitu:

  • ME3 sebanyak 163
  • BIG sebanyak 1321

Maka didapat nilai IR = 8.

Berikut adalah kode yang digunakan untuk mendapatkan 2 class dari dataset yeast.

 

Dataset Abalone

Pada dataset juga dimodifikasi menjadi 2 class dengan membagi data yang abalone yang berumur lebih dari 18 menjadi satu class minoritas (dengan label MINOR) dan sisanya menjadi class mayoritas dengan label MAJOR. Berikut adalah komposisi 2 class tersebut:

  • MINOR sebanyak 94
  • MAJOR sebanyak 4083.

Maka didapat nilai IR = 43.

Berikut adalah kode yang digunakan untuk mendapatkan 2 class dari dataset abalone.

 

{Cross Validation}

Task ini bertujuan untuk membagi dataset di atas menjadi data training dan data testing. Pembagian akan dilakukan menjadi 10 kelompok (data training + data testing) dengan perbandingan jumlah data masing-masing kelompok sesuai dengan perbandingan class minoritas dan mayoritas seperti pada data data original.

Untuk menyelesaikan task ini digunakan code perl yang biasa digunakan.

Untuk dataset yeast digunakan perintah berikut:


perl cross-validation.pl -cross=10 -sep=, -classlabel=V9 yeast2class.csv

Sedangkan untuk dataset abalone digunakan perintah berikut.


perl cross-validation.pl -cross=10 -sep=, -classlabel=V8 abalone2class.csv

Setelah itu perlu ada perbaikan data yang telah diconvert, hal ini dikarenakan ada sedikit kesalahan dari output yang dihasilkan oleh ****** cross-validation.pl.

Leave a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *