Transcription

View metadata, citation and similar papers at core.ac.ukbrought to you byCOREprovided by Jurnal terbitan UBD (Universitas Buddhi Dharma)JURNAL TECH-E - VOL. 1 NO. 1 (2017)Versi Online tersedia di : L TECH-E 2581-1916 (Online) ArtikelPerancangan Aplikasi Prediksi Kelulusan MahasiswaTepat Waktu Pada Universitas Buddhi DharmaMenggunakan Perbandingan Algoritma C4.5 dan KNNSuwitno11Universitas Buddhi Dharma, Sistem Informasi, Banten, IndonesiaJEJAK PENGIRIMANDiterima: 15 Agustus 2017Revisi Akhir: 20 Agustus 2017Tersedia Online: 15 September 2017KATA KUNCIC4.5, K-NN, Kelulusan Tepat Waktu, PrediksiKORESPONDENSITelepon: 081311190089E-mail: [email protected] B S T R A KKoleksi data pada database sistem informasi akademikPerguruan Tinggi sering tidak dimanfaatkan secara maksimal,padahal dari data tersebut dengan teknik data mining dapatmemberikan pengetahuan yang belum diketahui sebelumnya.Tujuan dalam penelitian ini yaitu mengetahui cara membentukmodel prediksi tingkat kelulusan mahasiswa tepat waktu padaUniversitas Buddhi Dharma Tangerang melalui data kelulusanmahasiswa. Evaluasi kinerja klasifikasi dilakukan untukmengetahui seberapa baik keakuratan dari suatu model yangterbentuk dengan perbandingan algoritma C4.5 dan K-NN.Pengujian dilakukan dengan Confusion Matrix dan kurvaROC. Hasil akurasi yang diperoleh membuktikan bahwaAlgoritma C4.5 menghasilkan persentase akurasi 90% dan KNN menghasilkan persentase akurasi 87%. Dengan demikianalgoritma C4.5 memiliki nilai akurasi lebih tinggi dibandingK-NN. Algoritma C4.5 ini dapat digunakan untuk pembuatanaplikasi prediksi kelulusan mahasiswa tepat waktu padaUniversitas Buddhi Dharma.PENGANTARPerkembangan teknologi informasi yangbegitu maju saat ini, menyebabkan tingkatakurasi suatu data sangat dibutuhkan dalamkehidupan sehari-hari. Setiap informasi yangada menjadi suatu hal penting untukmenentukan setiap keputusan dalam situasitertentu. Hal ini memyebabkan penyediaaninformasi menjadi sarana untuk dianalisa dandiringkas menjadi suatu pengetahuan daridata yang bermanfaat ketika pengambilansuatu keputusan dilakukan. Dalam sistempendidikan, mahasiswa adalah aset pentingbagi sebuah institusi pendidikan dan untuk ituperludiperhatikantingkatkelulusanmahasiswa tepat pada waktunya. Prosentasenaik turunnya kemampuan mahasiswa untukmenyelesaikan studi tepat waktu merupakansalah satu elemen penilaian akreditasiuniversitas. Untuk itu perlu adanyapemantauan maupun evaluasi terhadapkecenderungan mahasiswa lulus tepat waktuatau tidak.

SUWITNO / JURNAL TECH-E - VOL. 1. NO.1X (2017)I. METODEAlgoritma C4.5Algoritma C4.5 didesain oleh J. RossQuinlan, dinamakan C4.5 karena merupakanketurunan dari pendekatan ID3 untukmembangunpohonkeputusan.C4.5merupakan algoritma yang cocok digunakanuntuk masalah klasifikasi pada machinelearning dan data mining[1]. C4.5 memetakanatribut dari kelas sehingga dapat digunakanuntuk menemukan prediksi terhadap datayang belum muncul. Didalam pohonkeputusan node pusat merupakan attribut daridata yang diuji (tuple), cabang merupakanhasil dari pengujian atribut, dan daunmerupakan kelas yang terbentuk[2].Tahapan dalam algoritma C4.5, yakni:a. Perhatikan label pada data, jika sudah samasemua, maka akan dibentuk daun dengannilai label data keseluruhan.b. Menghitung nilai total informasi (Entropy)mEntropy pi log 2 (pi )i 1c. Menghitung nilai info setiap atribut (Info)v Dj InfoA (D) Info(Dj ) D j 1d. Menghitung nilai gain setiap atribut (Gain)Gain(A) Entropy InfoA (D)e. Setelah cabang pohon keputusan terbentuk,perhitungan dilakukan kembali sepertipada tahap a sampai d. Namun jika cabangtelah mencapai maksimal cabang yangdiperbolehkan, daun akan terbentukdengan nilai mayoritas dari nilai data.Algoritma K-Nearest Neighbor (K-NN)Algoritma K-Nearest Neighbor (K-NN)adalah sebuah metode untuk melakukanklasifikasi terhadap objek berdasarkan datapembelajaran yang jaraknya paling dekatdengan obyek tersebut[5]. Algoritma K-NNmenggunakanalgoritmasupervised.Perbedaan antara supervised learning denganunsupervised learning adalah pada supervisedlearning bertujuan untuk menemukan polabaru dalam data dengan menghubungkan pola30data yang sudah ada dengan data yang baru.Sedangkan pada unsupervised learning, databelum memiliki pola apapun, dan tujuanunsupervised learning untuk menemukan poladalam sebuah data. Nearest Neighbor adalahsuatu pendekatan untuk melakukan prosespenghitungan kedekatan antara kasus barudengan kasus lama, yaitu berdasarkan padapencocokan dari sejumlah fitur yang ada.Untuk mendefinisikan jarak antara dua titikyaitu titik pada data training (x) dan titik padadata testing (y) maka digunakan rumusEuclidean, dengan persamaan:𝑛𝐷 (π‘₯, 𝑦) (π‘₯𝑖 𝑦𝑗 )2𝑖 1Tahapan dalam algoritma K-NN yakni:a. Menentukan parameter k (jumlah tetanggapaling dekat).b. Menghitung kuadrat jarak Euclidean (queriinstance) masing-masing objek terhadapdata training yang telah diberikan.c.Kemudianmengurutkanobjek-objektersebut ke dalam kelompok yangmempunyai jarak Euclidean terkecil.d. Mengumpulkan kategori baru k (klasifikasiNearest Neighbor)e. Dengan menggunakan kategori NearestNeighbor yang paling mayoritas makadapat diprediksi nilai queri instance yangdihitung.Penelitian yang akurat akan diperoleh jikasuatupenelitianmemilikijumlahpengambilan sampel dalam jumlah yang besardidalam suatu populasi. Pada penelitian ini,pengujian aplikasi untuk prediksi ketepatanwaktu lulus mahasiswadan metodepengambilan sampel menggunakan metodesystematic sampling. Data kelulusan yangdigunakan sebagai sampel dalam penelitianini diperoleh dari database Sistem InformasiAkademik (SIA) Perguruan Tinggi. Datayang digunakan sejumlah 390 data mahasiswayang telah lulus dengan 300 data sebagai datatraining dan 90 data sebagai data testing.Tujuan dari algoritma klasifikasi adalah untukmenemukan relasi antara beberapa variabelyang tergolong dalam kelas yang sama. Relasitersebut akan digambarkan dengan aturan-

SUWITNO / JURNAL TECH-E - VOL. 1. NO.1X (2017)aturan agar dapat memprediksi kelas dari datayang attributnya sudah diketahui. KlasifikasiC4.5 dan K-Nearest Neighbor dipilih karenametode ini memiliki tingkat ketelitian dankecepatan yang tinggi saat diaplikasikanuntuk jumlah data yang besar dan dapatdigunakan untuk memprediksi probabilitaskeanggotaan suatu class.II. HASILLangkah penting dalam penelitian ini adalahpemakaian algoritma C4.5 dan K-NN untukmembentuk sebuah model. Model yangdihasilkan akan dilakukan komparasi untukmenemukan tingkat akurasi yang paling baikyang akan digunakan untuk mengetahui polakemampuan mahasiswa yang memilikikemampuan lulus tepat waktu atau tidaknya.Dalam penelitian ini dilakukan proses validasiuntuk menemukan, dan mengkonversi dataagar dapat digunakan dalam metode algoritmadata mining dan memperoleh akurasi sertaperformasi yang baik. Dalam dataset yangakan digunakan ini, validasi data yangdigunakan adalah dengan hapus data yangtidak lengkap atau kosong yang tidakmemiliki nilai (null). Setelah itu dilakukanseleksi atribut untuk memilih atribut manasaja yang dibutuhkan dari dataset yangdigunakan dalam proses menganalisiskelulusan mahasiswa tepat waktu padaUniversitas Buddhi Dharma.Tabel 1. Daftar Atribut dan KeterangannyaNoAtributKeterangan1Waktu KuliahWaktu Kuliah2JenisKelaminJenis Kelamin3ProdiProgram Studi4IPS1Ips Semester 15IPS2Ips Semester 26IPS3Ips Semester 37IPS4Ips Semester 48IPK 4Ipk Semester 49Total SKSLulus4Total SKS yang telahlulus hingga semester 41011Jur Asl SekolahStatus AsalSklhJurusan Asal SekolahStatus Asal Sekolah12Status PekOrtuStatus Pekerjaan OrangTua13CutiJumlah Cuti yangpernah diambilData kelulusan untuk data latih dan data ujiyang dikumpulkan memiliki 390 records dan13 atribut. Semua atribut tersebutdikumpulkan dan dianalisa untuk melihat poladata dan tipe data yang dominan untukmembantu dalam proses pemilihan metodedan algoritma data mining yang tepat.Tabel 2. Perbandingan tingkat akurasi dan AUCPrediksiSukses prediksiTepat WaktuSukses PrediksiTidakTepatWaktuTingkat ,87487.33%0,500Dengan melihat perbandingan tingkat akurasidan AUC, maka dapat diketahui bahwaalgoritma C4.5 memiliki akurasi danperformansi terbaik, sehingga rule yangdihasilkan oleh algoritma C4.5 dijadikansebagai rule untuk pembuatan prototipe yangdapat memudahkan dalam prediksi kelulusanmahasiswa tepat waktu yang di dapatmahasiswa.31

SUWITNO / JURNAL TECH-E - VOL. 1. NO.1X (2017)Gambar 1: Akurasi Algoritma C4.5Gambar 2: Tingkat AUC Algoritma C4.5Gambar 3: Akurasi Algoritma K-NNGambar 4: Tingkat AUC Algoritma K-NN32

SUWITNO / JURNAL TECH-E - VOL. 1. NO.1X (2017)Gambar 5: Pohon Keputusan Algoritma C4.5Rule yang dihailkan dari pohon keputusan(decision tree) berdasarkan data trainingadalah sebagao berikut:mengunakan metode confusion matrix, yaitutabel yang digunakan sebagai alat ukur yangberguna untuk melakukan analisis seberapabaik pengklasifikasian benar dan salah dariprediksi yang dilakukan. Accuracy yangdidapat dapat dihitung dengan rumus:π΄π‘π‘π‘’π‘Ÿπ‘Žπ‘π‘¦ π‘π‘œπ‘Ÿπ‘Ÿπ‘’π‘π‘‘ π‘π‘Ÿπ‘’π‘‘π‘–π‘π‘‘π‘–π‘œπ‘›π‘  π‘π‘œπ‘Ÿπ‘Ÿπ‘’π‘π‘‘ π‘Žπ‘›π‘‘ π‘–π‘›π‘π‘œπ‘Ÿπ‘’π‘π‘‘ kan untuk menghitung Error rate dapatdigitung dengan rumus:πΈπ‘Ÿπ‘Ÿπ‘œπ‘Ÿ π‘Ÿπ‘Žπ‘‘π‘’ π‘–π‘›π‘π‘œπ‘Ÿπ‘Ÿπ‘’π‘π‘‘ π‘π‘Ÿπ‘’π‘‘π‘–π‘π‘‘π‘–π‘œπ‘›π‘  π‘π‘œπ‘Ÿπ‘Ÿπ‘’π‘π‘‘ π‘Žπ‘›π‘‘ π‘–π‘›π‘π‘œπ‘Ÿπ‘’π‘π‘‘ π‘π‘Ÿπ‘’π‘‘π‘–π‘π‘‘π‘–π‘œπ‘›π‘ Tabel 3. Hasil PengujianIII. PEMBAHASANSalah satu hal yang paling penting hmelakukan pengujian. Pengujian dilakukansebanyak sembilan kali yang manamelibatkan 90 data selain data training danPengujian ke-accuracyerror -690%10%K-7100%0%K-890%10%K-980%20%33

SUWITNO / JURNAL TECH-E - VOL. 1. NO.1X (2017)Prototipe SI Prediksi Kelulusan Mhsw Tepat Waktuview datatraining**list datatesting***User* include * extend ****summarydata*login***impordatatestingprediksi databaru*Gambar 6: Use Case DiagramUserSistemform loginentry username& password[invalid]login[valid]view Menu tampilanlihat data trainingmenampilkan data traininglihat data testingmenampilkan data testingimport data testingsummary data testingentry datatesting baruprediksi data barulogoutkeluar dari sistemGambar 7: Activity Diagram34

SUWITNO / JURNAL TECH-E - VOL. 1. NO.1X (2017)Dari sembilan percobaan yang telahdilakukan, maka didapat summary yaitu:untuk tingkat accuracy sebesar:80 90 100 90 100 90 100 90 80π‘₯ 100%9820 π‘₯ 100%9 πŸ—πŸ, 𝟏𝟏%dan untuk tingkat error rate sebesar:20 10 0 10 0 10 0 10 20π‘₯ 100%980 π‘₯ 100%9 πŸ–, πŸ–πŸ—%IV. KESIMPULANDari pengukuran kinerja dan performasi yangtelah dilakukan terhadap dua metodealgoritma klasifikasi, maka hasil daripenelitian ini dapat disimpulkan bahwa:1. Metode klasifikasi data mining tepat untukdiimplementasikan kedalam prototipesistem informasi prediksi kelulusanmahasiswa tepat waktu.2. Algoritma C4.5 memiliki tingkat akurasipaling baik diantara kedua algoritmaklasifikasi tersebut. Sehingga algoritmainilah yang akan di implementasikankedalam prototipe prediksi kelulusanmahasiswa tepat waktu. Hal ini dapatdilihat bahwa algoritma C4.5 memilikinilai akurasi sebesar 90% dan nilai AUC0,874 yang termasuk kategori goodclassification.3. Dengan adanya penelitian ini membantumanajemen perguruan tinggi dalammelakukan evaluasi dan pemantauanterhadap mahasiswa yang lulus tepatwaktu atau tidak.35

SUWITNO / JURNAL TECH-E - VOL. 1. NO.1X (2017)REFERENSIAlpaydΔ±n, E., Introduction to Machine Learning. Second., London: The MIT Press, 2012.Chapman, P., CRISP-DM 1.0, Step-by-step data mining guide, 2000.Gorunescu, F., Data Mining Concepts, Models and Techniques, Springer, 2011.Hall, T., A Systematic Literature Review on Fault Prediction Performance in SoftwareEngineering, 2011.Vercellis, C., Business Intelligence : Data Mining and Optimization for Decision Making, JohnWiley & Sons, Inc, 2009.Witten et al., Data Mining Practical Machine Learning Tools and Techniques 3rd, Burlington:Elsevier Inc, 2011.Wu, X. et al., Top 10 algorithms in data mining, A Chapman & Hall Book, 2008.RIWAYAT HIDUPSuwitno Lulus pada Program Studi Sistem Informasi (S1) di bidang Perusahaan, 2015, ProgramStudi Ilmu Komputer (S2) di bidang Rekayasa Komputasi Terapan, 2017. Saat ini Sebagai DosenTetap pada Program Studi Sistem Informasi, Universitas Buddhi Dharma.36

Universitas Buddhi Dharma. KATA KUNCI C4.5, K-NN, Kelulusan Tepat Waktu, Prediksi KORESPONDENSI Telepon: 081311190089 E-mail: [email protected] PENGANTAR Perkembangan teknologi informasi yang begitu maju saat ini, menyebabkan tingkat akurasi suatu data sangat dibutuhkan dalam kehidupan sehari-hari. Setiap informasi yang