Penanganan Outlier Pada Metode Algoritma K- Nearest Neighbors (KNN) Dengan Metode Kernel Density Estimation Pada Kasus Penyakit Diabetes

Adam Razaki; Yulison Herry Chrisnanto; Melina Melina

doi:10.31539/intecoms.v7i4.10866

Authors

Adam Razaki universitas jenderal achmad yani
Yulison Herry Chrisnanto
Melina Melina

DOI:

https://doi.org/10.31539/intecoms.v7i4.10866

Abstract

Penyakit diabetes merupakan tantangan kesehatan global yang memerlukan penanganan serius. Deteksi dini dan prediksi diabetes sangat penting untuk mencegah komplikasi serius. Penelitian ini bertujuan untuk meningkatkan akurasi klasifikasi penyakit diabetes dengan menangani outlier yang dapat memengaruhi akurasi model klasifikasi dan meminimalkan kesalahan prediksi. Pada penelitian ini, algoritma K-Nearest Neighbors (KNN) yang efektif untuk klasifikasi data digabungkan dengan Kernel Density Estimation (KDE) untuk identifikasi outlier. Dataset yang digunakan pada penelitian ini terdiri dari 2.000 data sample diabetes yang telah melalui proses preprocessing, transformasi, normalisasi, deteksi outlier dengan KDE, imputasi outlier dengan median, klasifikasi dengan KNN, dan evaluasi dengan confusion matrix. Hasil penelitian ini menunjukkan bahwa penggunaan KDE dan imputasi outlier berhasil meningkatkan performa model pada semua metrik evaluasi. Hasil terbaik diperoleh pada model KNN dengan nilai , rasio dataset 90%:10%, yang menunjukkan peningkatan akurasi dari 90% menjadi 92%. Diharapkan hasil penelitian ini dapat memberikan kontribusi dalam deteksi dini penyakit diabetes.

References

Covariance Determinant (MMCD). In IJM: Indonesian Journal of Multidisciplinary (Vol. 1). Retrieved from https://journal.csspublishing/index.php/ijm
Melina Universitas Jenderal Achmad Yani, M., Napitupulu, H., Sambas, A., Murniati, A., & Adimurti Kusumaningtyas, V. (n.d.). Artificial Neural Network-Based Machine Learning Approach to Stock Market Prediction Model on the Indonesia Stock Exchange During the COVID-19. Retrieved from https://www.researchgate.net/publication/362983602
Muhaimin, A., Hariyadi, M. A., & Imamudin, M. (2024). Klasifikasi Prestasi Akademik Siswa Berdasarkan Nilai Rapor dan Kedisiplinan dengan Metode K-Nearest Neighbor. Jurnal Ilmu Komputer Dan Sistem Informasi (JIKOMSI, 7(1), 193–202.
Mustafa, M. S., & Simpen, W. (n.d.). Perancangan Aplikasi Prediksi Kelulusan Tepat Waktu Bagi Mahasiswa Baru Dengan Teknik Data Mining (Studi Kasus: Data Akademik Mahasiswa STMIK Dipanegara Makassar).
Nnamoko, N., & Korkontzelos, I. (2020). Efficient treatment of outliers and class imbalance for diabetes prediction. Artificial Intelligence in Medicine, 104. https://doi.org/10.1016/j.artmed.2020.101815
Nur Ikhromr, F., Sugiyarto, I., Faddillah, U., & Sudarsono, B. (2023). IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI PENYAKIT DIABETES MENGGUNAKAN ALGORITMA NAIVES BAYES DAN K-NEAREST NEIGHBOR IMPLEMENTATION OF DATA MINING TO PREDICT DIABETES DISEASE USING NAIVES BAYES AND K-NEAREST NEIGHBOR ALGORITHMS. Journal of Information Technology and Computer Science (INTECOMS), 6(1).
Nur kharisa umami. (2021). Kaggle. Retrieved June 27, 2024, from Kaggle website: https://www.kaggle.com/code/nurkharisaumami/klasifikasi-penyakit-diabetes/input
Rabie, A. H., & Saleh, A. I. (2024). Diseases diagnosis based on artificial intelligence and ensemble classification. Artificial Intelligence in Medicine, 148, 102753. https://doi.org/10.1016/J.ARTMED.2023.102753
Sihombing, P. R., Suryadiningrat, S., Sunarjo, D. A., & Yuda, Y. P. A. C. (2023). Identifikasi Data Outlier (Pencilan) dan Kenormalan Data Pada Data Univariat serta Alternatif Penyelesaiannya. Jurnal Ekonomi Dan Statistik Indonesia, 2(3), 307–316. https://doi.org/10.11594/jesi.02.03.07
Sistem Komputer dan Sistem Informasi, J., Studi Teknologi Komputasi dan Informatika Stmik Bina Bangsa Kendari, P., Aris, F., Program Studi Sistem Komputer, D., Studi Sistem Komputer, P., & Bina Bangsa Kendari, S. (2019). Router Research Penerapan Data Mining untuk Identifikasi Penyakit Diabetes Melitus dengan Menggunakan Metode Klasifikasi (Vol. 1). Retrieved from http://ejournal.stipwunaraha.ac.id/index.php/router
Thompson, A. E., Walden, J. P., Chase, A. S. Z., Hutson, S. R., Marken, D. B., Cap, B., … Chase, D. Z. (2022). Ancient Lowland Maya neighborhoods: Average Nearest Neighbor analysis and kernel density models, environments, and urban scale. PLoS ONE, 17(11 November). https://doi.org/10.1371/journal.pone.0275916
Vestal, B. E., Carlson, N. E., & Ghosh, D. (2021). Filtering spatial point patterns using kernel densities. Spatial Statistics, 41. https://doi.org/10.1016/j.spasta.2020.100487
Widaningsih, S., & Yusuf, S. (2022). Penerapan Data Mining Untuk Memprediksi Siswa Berprestasi Dengan Menggunakan Algoritma K Nearest Neighbor. Jurnal Teknik Informatika Dan Sistem Informasi, 9(3). Retrieved from http://jurnal.mdp.ac.id
Zai, C., & Komputer, T. (n.d.). IMPLEMENTASI DATA MINING SEBAGAI PENGOLAHAN DATA. In Portaldata.org (Vol. 2).