Lembaga pendidikan pada umumnya dan Sekolah Menengah
Kejuruan khususnya adalah institusi yang memiliki data explosion yang belum
dimanfaatkan dengan baik untuk sesuatu yang berguna. Data yang biasa dimiliki
sekolah dalam jumlah besar dan akan selalu bertambah setiap tahunnya antara
lain daftar hadir siswa, data nilai calon siswa pada saat penerimaan siswa baru
dan data status sosial ekonomi orang tua yang biasa diinput pada saat
penerimaan siswa baru juga atau bisa juga dari data yang dimiliki BP/BK di
sekolah. Data - data tersebut belum termanfaatkan dengan baik sebagai bahan
pertimbangan, kajian dan penelitian untuk membuat suatu informasi yang berguna
bagi sekolah. Oleh karena itu, dengan adanya data mining bisa menjadi salah
satu solusi untuk menambang tumpukan data-data tersebut untuk membuat nilai
atau informasi yang lebih berguna. Berdasarkan uraian di atas, penelitian ini
menggunakan metode data mining untuk membuat suatu prediksi tentang prestasi
belajar siswa dengan memanfaatkan tumpukan data yang telah dimiliki sekolah
tersebut.
METODE PENELITIAN
Penelitian ini menggunakan pendekatan kuantitatif. Tempat Penelitian ini adalah SMK Negeri 4 Surakarta yang beralamat di Jalan LU Adi Sucipto No. 40 Surakarta. Waktu penelitian dan pengambilan data pada bulan Juni 2013 sampai Desember 2013. Target/subjek penelitian adalah siswa tingkat X SMK Negeri 4 Surakarta Tahun Pelajaran 2013/2014 sejumlah 416 siswa. Prosedur penelitian menggunakan tahapan-tahapan KDD (Knowledge Data Discovery). Tahapan-tahapannya adalah: (1) Data Selection, yaitu tahapan ini dilakukan untuk memilih data yang sesuai dengan variabel yang dibutuhkan dalam penelitian; (2) Pre-processing/Cleaning, sebelum proses data mining
Penelitian ini menggunakan pendekatan kuantitatif. Tempat Penelitian ini adalah SMK Negeri 4 Surakarta yang beralamat di Jalan LU Adi Sucipto No. 40 Surakarta. Waktu penelitian dan pengambilan data pada bulan Juni 2013 sampai Desember 2013. Target/subjek penelitian adalah siswa tingkat X SMK Negeri 4 Surakarta Tahun Pelajaran 2013/2014 sejumlah 416 siswa. Prosedur penelitian menggunakan tahapan-tahapan KDD (Knowledge Data Discovery). Tahapan-tahapannya adalah: (1) Data Selection, yaitu tahapan ini dilakukan untuk memilih data yang sesuai dengan variabel yang dibutuhkan dalam penelitian; (2) Pre-processing/Cleaning, sebelum proses data mining
dapat dilaksanakan, perlu dilakukan proses cleaning
pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang
duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada
data, seperti kesalahan cetak (tipografi); (3) Transformation, coding adalah
proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai
untuk proses data mining; (4) Analisis data; (5) Pattern Evaluation, merupakan
tahapan evaluasi untuk mengidentifikasi pola yang benar-benar menarik yang
mewakili pengetahuan berdasarkan sumber data yang ada. Kerangka pikir yang digunakan dalam
penelitian ini dapat dilihat pada gambar 1. Penelitian ini memperoleh data dari
angket dan dokumentasi. Teknik dokumentasi digunakan untuk mengambil data
status sosial ekonomi orang tua, kedisiplinan, dan prestasi masa lalu,
sedangkan data motivasi siswa diperoleh
melalui angket. Teknik Analisis Data Penelitian ini mengunakan teknik Decision
Tree, CHAID dan regresi ganda untuk melakukan prediksi prestasi belajar siswa
SMK Negeri 4 Surakarta berdasarkan status ekonomi orang tua, motivasi, kedisiplinan dan
prestasi masa lalu.
Decision Tree
Decision Tree akan memperlihatkan faktor-faktor
kemungkinan (probabilitas) yang akan mempengaruhi alternatif-alternatif
prestasi belajar siswa, disertai dengan prediksi hasil akhir yang akan didapat
bila faktor-faktor dalam Decision Tree terpenuhi. Decision Tree akan mengubah
data kedalam bentuk visual berupa diagram pohon dan aturan-aturan keputusan.
Data dalam Decision Tree dinyatakan dalam bentuk tabel dengan atribut dan
record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam
pembentukan tree. Salah satu atribut yang merupakan atribut yang menyatakan
data solusi per-item data yang disebut dengan target atribut. Atribut memiliki
nilai-nilai yang dinamakan dengan instance. Alur proses analisis dalam decision
tree adalah mengubah bentuk data (table) menjadi model tree, mengubah model
tree menjadi rule dan menyederhanakan rule (pruning). Data yang diambil dalam
penelitian ini adalah populasi sejumlah 416 siswa akan digunakan untuk membuat
model prediksi Decision Tree. Model yang telah dibuat kemudian akan dihitung
tingkat akurasi prediksinya. Ada banyak metodologi Data Mining, salah satu yang
populer adalah Pohon Keputusan (Decision Tree). Pohon keputusan merupakan salah
satu metode klasifikasi yang sangat menarik yang melibatkan konstruksi pohon keputusan yang terdiri dari node keputusan yang di hubungkan
dengan cabang-cabang dari simpul akar sampai ke node daun (akhir). Pada node
keputusan attribut akan diuji, dan setiap hasil akan menghasilkan cabang.
Setiap cabang akan diarahkan ke node lain atau ke node akhir untuk menghasilkan
suatu keputusan (Larose, 2005, p.107). Menurut Maimon (2005, p.8), pohon
keputusan adalah salah satu metode klasifikasi yang dinyatakan sebagai partisi
rekursif. Pohon keputusan terdiri dari node yang membentuk pohon yang berakar,
semua node memiliki satu masukan. Node yang keluar disebut node tes. Node yang
lain disebut node keputusan atau sering disebut node daun. Setiap simpul
internal membagi dua atau lebih sub-ruang sesuai dengan kategori attribut dan akan dipartisi sesuai dengan nilai
kategori kasus. Kasus-kasus tersebut membentuk pohon keputusan yang
menghasilkan problem solving. Klasifikasi data mining adalah penempatan
objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan
sebelumnya. Klasifiksi banyak digunakan untuk memprediksi kelas pada suatu
label tertentu, yaitu dengan mengklasifikasi data (membangun model) berdasarkan
training set dan nilai-nilai (label kelas) dalam mengklasifikasikan atribut
tertentu dan menggunakannya dalam mengklasifikasikan data yang baru. Pohon
keputusan biasanya digunakan untuk mendapatkan informasi untuk tujuan pengambilan
sebuah keputusan. Pohon keputusan dimulai dengan sebuah root node (titik awal)
yang digunakan oleh user untuk mengambil tindakan. Berdasarkan node root ini,
user memecahkan leaf node sesuai dengan algoritma decision tree.
Hasil akhir dari penyusunan node root dan leaf node
tersebut adalah sebuah pohon keputusan dengan setiap cabangnya menunjukkan
kemungkinan skenario dari keputusan yang diambil serta hasilnya. Konsep pohon
keputusan adalah mengubah data menjadi sebuah pohon keputusan (decision tree)
dan aturan-aturan keputusan (rule).
CHAID
Tujuan dari metode ini adalah untuk memisahkan
data secara berurutan dengan pembagian binermenjadi beberapa subgrup. Pada tiap tahap, pembagian sebuah grup menjadi dua bagian didefinisikan
oleh salah satu variabel prediktor, sebuah himpunan bagian dari kategori-kategorinya mendefinisikan salah satu bagian, dan sisa kategori lainnya mendefinisikan bagian yang lain. Pada AID, prediktornya memiliki dua tipe utama, yaitu monotonik dan bebas. (Kass, 1980, p.241).
Regression analysis is the method to discover the relationship between one or more response variables (also called dependent variables, explained variables, predicted variables, or regressands, usually denoted by y) and the predictors (also called independent variables, explanatory variables, control variables, or regressors, usually denoted by x1; x2; ¢ ¢ ¢ ; xp). Menurut Deny Kurniawan (2008, p.1) analisis regresi setidak-tidaknya memiliki 3 kegunaan, yaitu untuk tujuan deskripsi dari fenomena data atau kasus yang sedang diteliti, untuk tujuan kontrol, serta untuk tujuan prediksi. Regresi mampu mendeskripsikan fenomena data melalui terbentuknya suatu model hubungan yang bersifatnya numerik. Regresi juga dapat digunakan untuk melakukan pengendalian (kontrol) terhadap suatu kasus atau hal-hal yang sedang diamati melalui penggunaan model regresi yang diperoleh. Selain itu, model regresi juga dapat dimanfaatkan untuk melakukan prediksi untuk variabel terikat. Namun yang perlu diingat, prediksi di dalam konsep regresi hanya boleh dilakukan di dalam rentang data dari variabel-variabel bebas yang digunakan untuk membentuk model regresi tersebut. Alur proses dalam regresi ganda adalah menghitung mean, menghitung standard deviasi, menghitung kuadrat varian, menghitung korelasi product Moment, menghitung nilai beta, menghitung nilai b1, b2, dan a, membuat persamaan garis regresi, menghitung sumbangan relatif dari kedua prediktor (R2), menghitung nilai signifikansi (F) dan menghitung signifikansi tiap-tiap prediktor (t).
HASIL PENELITIAN
DAN PEMBAHASAN
Hasil penelitian berdasarkan tahapantahapan proses
dalam KDD (Knowledge Data Discovery) sebagai berikut: (1) Data Selection,
tahapan ini dilakukan untuk memilih data yang sesuai dengan variabel yang
dibutuhkan dalam penelitian. Caranya adalah dengan memilih atau menentukan
atribut-atribut data mana yang akan digunakan dalam penelitian dari sekelompok
data operasional yang ada. Salah satunya adalah menentukan atribut-atribut
untuk variabel Sosial Ekonomi Orang Tua yang diambil dari data operasional
yaitu Data Pribadi Siswa yang ada di BP/BK sekolah; (2) Preprocessing/Cleaning,
proses cleaning tersebut dilakukan terhadap keseluruhan data yang diteliti yang
berjumlah 416 siswa. Setelah dilakukan proses cleaning data sejumlah 416,
dihasilkan data bersih sebanyak 346 record data yang digunakan untuk proses
analisis berikutnya; (3) Transformation, tahap ini menghasilkan satu recordset
data yang siap untuk analisis data; (4) Analisis data. Analisis data yang
pertama adalah dengan menggunakan teknik decision tree algoritma J48. Software
yang digunakan adalah WEKA 3.6.9. Hasil yang diperoleh adalah tingkat akurasi
prediksi sebesar 95,7%, seperti tampak pada tabel 1. Analisis yang kedua
menggunakan CHAID (Chi Squared Automatic Interaction Detection). Analisis ini
menggunakan software SPSS 16.0. Hasil yang diperoleh adalah tingkat akurasi
prediksi sebesar 82,1%, seperti tampak pada tabel 2.
Analisis yang ketiga menggunakan regresi ganda.
Analisis ini menggunakan software SPSS 16.0. Hasil yang diperoleh adalah
tingkat signifikansi seluruh variabel independen terhadap variabel dependen
sebesar 90,6%. Perbandingan Hasil Akurasi Prediksi antara Metode J48, CHAID dan
Regresi Ganda Perbandingan akurasi klasifikasi antara metode J48, CHAID dan
regresi ganda untuk class nilai UTS sebagai target adalah sebagai berikut:
Tingkat akurasi atau signifikansi variabel prediktor terhadap prestasi belajar
siswa dengan menggunakan metode J48 sebesar 95,7%. Tingkat akurasi atau
signifikansi variabel prediktor terhadap prestasi belajar siswa dengan
menggunakan metode CHAID sebesar 82,1%. Tingkat akurasi atau signifikansi
variabel prediktor terhadap prestasi belajar siswa dengan menggunakan regresi
ganda sebesar 90,1%. Berdasarkan hasil tersebut terlihat bahwa penggunaan
metode J48 lebih baik dari metode CHAID dan regresi ganda. Hal terlihat seperti
pada tabel di bawah ini.
https://journal.uny.ac.id/index.php/jpv/article/view/2547