Jumat, 30 Maret 2018

DATA MINING UNTUK MEMPREDIKSI PRESTASI SISWA BERDASARKAN SOSIAL EKONOMI, MOTIVASI, KEDISIPLINAN DAN PRESTASI MASA LALU


Lembaga pendidikan pada umumnya dan Sekolah Menengah Kejuruan khususnya adalah institusi yang memiliki data explosion yang belum dimanfaatkan dengan baik untuk sesuatu yang berguna. Data yang biasa dimiliki sekolah dalam jumlah besar dan akan selalu bertambah setiap tahunnya antara lain daftar hadir siswa, data nilai calon siswa pada saat penerimaan siswa baru dan data status sosial ekonomi orang tua yang biasa diinput pada saat penerimaan siswa baru juga atau bisa juga dari data yang dimiliki BP/BK di sekolah. Data - data tersebut belum termanfaatkan dengan baik sebagai bahan pertimbangan, kajian dan penelitian untuk membuat suatu informasi yang berguna bagi sekolah. Oleh karena itu, dengan adanya data mining bisa menjadi salah satu solusi untuk menambang tumpukan data-data tersebut untuk membuat nilai atau informasi yang lebih berguna. Berdasarkan uraian di atas, penelitian ini menggunakan metode data mining untuk membuat suatu prediksi tentang prestasi belajar siswa dengan memanfaatkan tumpukan data yang telah dimiliki sekolah tersebut.

METODE PENELITIAN 
Penelitian ini menggunakan pendekatan kuantitatif. Tempat Penelitian ini adalah SMK Negeri 4 Surakarta yang beralamat di Jalan LU Adi Sucipto No. 40 Surakarta. Waktu penelitian dan pengambilan data pada bulan Juni 2013 sampai Desember 2013. Target/subjek penelitian adalah siswa tingkat X SMK Negeri 4 Surakarta Tahun Pelajaran 2013/2014 sejumlah 416 siswa. Prosedur penelitian menggunakan tahapan-tahapan KDD (Knowledge Data Discovery). Tahapan-tahapannya adalah: (1) Data Selection, yaitu tahapan ini dilakukan untuk memilih data yang sesuai dengan variabel yang dibutuhkan dalam penelitian; (2) Pre-processing/Cleaning, sebelum proses data mining
dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi); (3) Transformation, coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining; (4) Analisis data; (5) Pattern Evaluation, merupakan tahapan evaluasi untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan sumber data yang ada.  Kerangka pikir yang digunakan dalam penelitian ini dapat dilihat pada gambar 1. Penelitian ini memperoleh data dari angket dan dokumentasi. Teknik dokumentasi digunakan untuk mengambil data status sosial ekonomi orang tua, kedisiplinan, dan prestasi masa lalu, sedangkan data motivasi siswa  diperoleh melalui angket. Teknik Analisis Data Penelitian ini mengunakan teknik Decision Tree, CHAID dan regresi ganda untuk melakukan prediksi prestasi belajar siswa SMK Negeri 4 Surakarta berdasarkan status ekonomi orang tua, motivasi, kedisiplinan dan prestasi masa lalu.

Decision Tree
Decision Tree akan memperlihatkan faktor-faktor kemungkinan (probabilitas) yang akan mempengaruhi alternatif-alternatif prestasi belajar siswa, disertai dengan prediksi hasil akhir yang akan didapat bila faktor-faktor dalam Decision Tree terpenuhi. Decision Tree akan mengubah data kedalam bentuk visual berupa diagram pohon dan aturan-aturan keputusan. Data dalam Decision Tree dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Salah satu atribut yang merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Alur proses analisis dalam decision tree adalah mengubah bentuk data (table) menjadi model tree, mengubah model tree menjadi rule dan menyederhanakan rule (pruning). Data yang diambil dalam penelitian ini adalah populasi sejumlah 416 siswa akan digunakan untuk membuat model prediksi Decision Tree. Model yang telah dibuat kemudian akan dihitung tingkat akurasi prediksinya. Ada banyak metodologi Data Mining, salah satu yang populer adalah Pohon Keputusan (Decision Tree). Pohon keputusan merupakan salah satu metode klasifikasi yang sangat menarik yang melibatkan konstruksi  pohon keputusan yang  terdiri dari node keputusan yang di hubungkan dengan cabang-cabang dari simpul akar sampai ke node daun (akhir). Pada node keputusan attribut akan diuji, dan setiap hasil akan menghasilkan cabang. Setiap cabang akan diarahkan ke node lain atau ke node akhir untuk menghasilkan suatu keputusan (Larose, 2005, p.107). Menurut Maimon (2005, p.8), pohon keputusan adalah salah satu metode klasifikasi yang dinyatakan sebagai partisi rekursif. Pohon keputusan terdiri dari node yang membentuk pohon yang berakar, semua node memiliki satu masukan. Node yang keluar disebut node tes. Node yang lain disebut node keputusan atau sering disebut node daun. Setiap simpul internal membagi dua atau lebih sub-ruang sesuai dengan kategori attribut  dan akan dipartisi sesuai dengan nilai kategori kasus. Kasus-kasus tersebut membentuk pohon keputusan yang menghasilkan problem solving. Klasifikasi data mining adalah penempatan objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Klasifiksi banyak digunakan untuk memprediksi kelas pada suatu label tertentu, yaitu dengan mengklasifikasi data (membangun model) berdasarkan training set dan nilai-nilai (label kelas) dalam mengklasifikasikan atribut tertentu dan menggunakannya dalam mengklasifikasikan data yang baru. Pohon keputusan biasanya digunakan untuk mendapatkan informasi untuk tujuan pengambilan sebuah keputusan. Pohon keputusan dimulai dengan sebuah root node (titik awal) yang digunakan oleh user untuk mengambil tindakan. Berdasarkan node root ini, user memecahkan leaf node sesuai dengan algoritma decision tree.
Hasil akhir dari penyusunan node root dan leaf node tersebut adalah sebuah pohon keputusan dengan setiap cabangnya menunjukkan kemungkinan skenario dari keputusan yang diambil serta hasilnya. Konsep pohon keputusan adalah mengubah data menjadi sebuah pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).


CHAID
Tujuan dari metode ini adalah untuk memisahkan data secara berurutan dengan pembagian biner
menjadi beberapa subgrup. Pada tiap tahap, pembagian sebuah grup menjadi dua bagian didefinisikan
oleh salah satu variabel prediktor, sebuah himpunan bagian dari kategori-kategorinya mendefinisikan salah satu bagian, dan sisa kategori lainnya mendefinisikan bagian yang lain. Pada AID, prediktornya memiliki dua tipe utama, yaitu monotonik dan bebas. (Kass, 1980, p.241).


Regression analysis is the method to discover the relationship between one or more response variables (also called dependent variables, explained variables, predicted variables, or regressands, usually denoted by y) and the predictors (also called independent variables, explanatory variables, control variables, or regressors, usually denoted by x1; x2; ¢ ¢ ¢ ; xp). Menurut Deny Kurniawan (2008, p.1) analisis regresi setidak-tidaknya memiliki 3 kegunaan, yaitu untuk tujuan deskripsi dari fenomena data atau kasus yang sedang diteliti, untuk tujuan kontrol, serta untuk tujuan prediksi. Regresi mampu mendeskripsikan fenomena data melalui terbentuknya suatu model hubungan yang bersifatnya numerik. Regresi juga dapat digunakan untuk melakukan pengendalian (kontrol) terhadap suatu kasus atau hal-hal yang sedang diamati melalui penggunaan model regresi yang diperoleh. Selain itu, model regresi juga dapat dimanfaatkan untuk melakukan prediksi untuk variabel terikat. Namun yang perlu diingat, prediksi di dalam konsep regresi hanya boleh dilakukan di dalam rentang data dari variabel-variabel bebas yang digunakan untuk membentuk model regresi tersebut. Alur proses dalam regresi ganda adalah menghitung mean, menghitung standard deviasi, menghitung kuadrat varian, menghitung korelasi product Moment, menghitung nilai beta, menghitung nilai b1, b2, dan a, membuat persamaan garis regresi, menghitung sumbangan relatif dari kedua prediktor (R2), menghitung nilai signifikansi (F) dan menghitung signifikansi tiap-tiap prediktor (t).

HASIL PENELITIAN DAN PEMBAHASAN
Hasil penelitian berdasarkan tahapantahapan proses dalam KDD (Knowledge Data Discovery) sebagai berikut: (1) Data Selection, tahapan ini dilakukan untuk memilih data yang sesuai dengan variabel yang dibutuhkan dalam penelitian. Caranya adalah dengan memilih atau menentukan atribut-atribut data mana yang akan digunakan dalam penelitian dari sekelompok data operasional yang ada. Salah satunya adalah menentukan atribut-atribut untuk variabel Sosial Ekonomi Orang Tua yang diambil dari data operasional yaitu Data Pribadi Siswa yang ada di BP/BK sekolah; (2) Preprocessing/Cleaning, proses cleaning tersebut dilakukan terhadap keseluruhan data yang diteliti yang berjumlah 416 siswa. Setelah dilakukan proses cleaning data sejumlah 416, dihasilkan data bersih sebanyak 346 record data yang digunakan untuk proses analisis berikutnya; (3) Transformation, tahap ini menghasilkan satu recordset data yang siap untuk analisis data; (4) Analisis data. Analisis data yang pertama adalah dengan menggunakan teknik decision tree algoritma J48. Software yang digunakan adalah WEKA 3.6.9. Hasil yang diperoleh adalah tingkat akurasi prediksi sebesar 95,7%, seperti tampak pada tabel 1. Analisis yang kedua menggunakan CHAID (Chi Squared Automatic Interaction Detection). Analisis ini menggunakan software SPSS 16.0. Hasil yang diperoleh adalah tingkat akurasi prediksi sebesar 82,1%, seperti tampak pada tabel 2.

Analisis yang ketiga menggunakan regresi ganda. Analisis ini menggunakan software SPSS 16.0. Hasil yang diperoleh adalah tingkat signifikansi seluruh variabel independen terhadap variabel dependen sebesar 90,6%. Perbandingan Hasil Akurasi Prediksi antara Metode J48, CHAID dan Regresi Ganda Perbandingan akurasi klasifikasi antara metode J48, CHAID dan regresi ganda untuk class nilai UTS sebagai target adalah sebagai berikut: Tingkat akurasi atau signifikansi variabel prediktor terhadap prestasi belajar siswa dengan menggunakan metode J48 sebesar 95,7%. Tingkat akurasi atau signifikansi variabel prediktor terhadap prestasi belajar siswa dengan menggunakan metode CHAID sebesar 82,1%. Tingkat akurasi atau signifikansi variabel prediktor terhadap prestasi belajar siswa dengan menggunakan regresi ganda sebesar 90,1%. Berdasarkan hasil tersebut terlihat bahwa penggunaan metode J48 lebih baik dari metode CHAID dan regresi ganda. Hal terlihat seperti pada tabel di bawah ini.


 Daftar Pustaka :

https://journal.uny.ac.id/index.php/jpv/article/view/2547

Tidak ada komentar:

Posting Komentar