Membangun Model Prediksi Risiko Diabetes Menggunakan Random Forest pada Dataset Kaggle

1. Pendahuluan

Diabetes merupakan salah satu kondisi kesehatan yang perlu mendapat perhatian karena dapat berdampak pada kualitas hidup seseorang apabila tidak dipantau sejak awal. Risiko diabetes dapat dipengaruhi oleh berbagai faktor, seperti kadar glukosa, indeks massa tubuh, usia, tekanan darah, insulin, riwayat keluarga, dan beberapa indikator kesehatan lainnya.

Melalui proyek ini, saya mencoba membangun model Machine Learning untuk memprediksi risiko diabetes menggunakan algoritma Random Forest. Dataset yang digunakan adalah dataset diabetes dari Kaggle, yang terdiri dari 768 data dan 9 kolom. Target prediksi pada dataset ini adalah Outcome, yaitu 0 untuk tidak diabetes dan 1 untuk diabetes.

Tujuan dari proyek ini bukan untuk menggantikan diagnosis medis, melainkan sebagai simulasi sistem pendukung analisis awal berbasis data. Dengan memanfaatkan model prediksi, kita dapat melihat pola dari beberapa variabel kesehatan yang berpotensi berkaitan dengan risiko diabetes.

Melalui pendekatan ini, Machine Learning dapat membantu memberikan gambaran awal mengenai faktor-faktor yang paling berpengaruh terhadap risiko diabetes, sehingga hasil analisis dapat digunakan sebagai bahan pembelajaran dalam memahami penerapan data science di bidang kesehatan.

2. Mengapa Random Forest?

Pada proyek ini, saya menggunakan algoritma Random Forest karena metode ini cukup cocok untuk masalah klasifikasi, termasuk prediksi risiko diabetes. Random Forest bekerja dengan membangun beberapa decision tree, kemudian menggabungkan hasil prediksi dari setiap tree untuk menghasilkan keputusan akhir yang lebih stabil.

Dalam dataset diabetes ini, terdapat beberapa variabel kesehatan seperti Glucose, BMI, Age, Insulin, BloodPressure, SkinThickness, Pregnancies, dan DiabetesPedigreeFunction. Setiap variabel dapat memiliki hubungan yang berbeda terhadap risiko diabetes. Random Forest dapat membantu mempelajari pola dari kombinasi variabel tersebut tanpa hanya bergantung pada satu faktor saja.

Salah satu keunggulan Random Forest adalah kemampuannya menampilkan feature importance. Dengan feature importance, kita dapat melihat variabel mana yang paling berpengaruh terhadap hasil prediksi model. Hal ini penting karena dalam proyek kesehatan berbasis data, hasil model sebaiknya tidak hanya menampilkan prediksi, tetapi juga memberikan gambaran faktor apa saja yang paling berkontribusi terhadap risiko yang diprediksi.

Selain itu, Random Forest relatif mudah digunakan sebagai model awal karena mampu menangani data numerik dengan baik dan tidak terlalu sensitif terhadap hubungan non-linear antarfitur. Oleh karena itu, algoritma ini dipilih sebagai pendekatan utama untuk membangun model prediksi risiko diabetes pada

3. Metodologi

Proyek ini dimulai dengan memahami struktur dataset yang digunakan. Dataset diabetes dari Kaggle ini terdiri dari 768 data dan 9 kolom, dengan Outcome sebagai target prediksi. Nilai 0 menunjukkan tidak diabetes, sedangkan nilai 1 menunjukkan diabetes.

Tahap pertama adalah data understanding. Pada tahap ini, saya melihat jumlah data, nama kolom, tipe data, distribusi target, serta kondisi awal setiap variabel. Dataset ini berisi beberapa indikator kesehatan seperti Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, dan Age.

Setelah memahami data, tahap berikutnya adalah preprocessing. Beberapa kolom seperti Glucose, BloodPressure, SkinThickness, Insulin, dan BMI memiliki nilai 0 yang kurang masuk akal secara medis jika dianggap sebagai hasil pengukuran asli. Oleh karena itu, nilai 0 pada kolom-kolom tersebut diperlakukan sebagai nilai yang perlu diperbaiki, lalu diganti menggunakan nilai median dari masing-masing kolom.

Setelah data siap digunakan, dataset dibagi menjadi data training dan data testing dengan rasio 80:20. Data training digunakan untuk melatih model, sedangkan data testing digunakan untuk menguji kemampuan model dalam memprediksi data baru yang belum pernah dilihat sebelumnya.

Model yang digunakan adalah Random Forest Classifier dengan pendekatan class_weight="balanced". Pendekatan ini digunakan agar model tetap memperhatikan kedua kelas target, baik data tidak diabetes maupun diabetes.

Evaluasi model dilakukan menggunakan beberapa metrik, yaitu accuracy, precision, recall, F1-score, ROC-AUC, dan confusion matrix. Selain itu, feature importance digunakan untuk melihat variabel mana yang paling berpengaruh terhadap hasil prediksi risiko diabetes.

4. Hasil & Pembahasan

Setelah data melalui tahap preprocessing, model Random Forest Classifier dilatih menggunakan data training dan diuji menggunakan data testing. Evaluasi dilakukan untuk melihat seberapa baik model dalam membedakan data dengan risiko diabetes dan tidak diabetes berdasarkan variabel kesehatan yang tersedia.

Berdasarkan hasil pengujian, model memperoleh akurasi sebesar 74,68%. Untuk kelas diabetes, model menghasilkan precision sebesar 61,90%, recall sebesar 72,22%, F1-score sebesar 66,67%, dan ROC-AUC sebesar 82,06%. Hasil ini menunjukkan bahwa model memiliki kemampuan yang cukup baik dalam mengenali pola risiko diabetes, meskipun masih terdapat beberapa data yang belum berhasil diklasifikasikan dengan tepat.

Gambar 1. Confusion Matrix Model Random Forest

Berdasarkan confusion matrix, dari data testing yang digunakan, model berhasil memprediksi 76 data tidak diabetes dengan benar dan 39 data diabetes dengan benar. Namun, terdapat 24 data tidak diabetes yang diprediksi sebagai diabetes, serta 15 data diabetes yang belum berhasil terdeteksi oleh model.

Dalam konteks prediksi risiko kesehatan, recall menjadi salah satu metrik penting untuk diperhatikan. Hal ini karena data diabetes yang tidak terdeteksi dapat membuat sistem gagal memberikan peringatan awal terhadap individu yang sebenarnya memiliki risiko. Oleh karena itu, evaluasi model tidak cukup hanya melihat akurasi, tetapi juga perlu mempertimbangkan precision, recall, F1-score, dan ROC-AUC.

Selain evaluasi performa, feature importance digunakan untuk mengetahui variabel yang paling berpengaruh terhadap hasil prediksi.

Gambar 2. Feature Importance Model Random Forest

Berdasarkan hasil feature importance, variabel yang paling berpengaruh terhadap prediksi risiko diabetes adalah Glucose, BMI, Age, Insulin, DiabetesPedigreeFunction, SkinThickness, Pregnancies, dan BloodPressure.

Glucose menjadi faktor paling dominan dalam model, diikuti oleh BMI dan Age. Hal ini menunjukkan bahwa kadar glukosa, indeks massa tubuh, dan usia memiliki kontribusi besar dalam membantu model mengenali pola risiko diabetes pada dataset ini. Selain itu, variabel seperti Insulin dan DiabetesPedigreeFunction juga memberikan informasi tambahan yang membantu model dalam proses klasifikasi.

Hasil ini menunjukkan bahwa Machine Learning dapat digunakan untuk melihat pola awal dari data kesehatan. Namun, model ini tetap tidak dapat digunakan sebagai alat diagnosis medis. Hasil prediksi hanya bersifat sebagai simulasi analisis berbasis data dan perlu dikombinasikan dengan pemeriksaan serta pertimbangan tenaga kesehatan apabila digunakan dalam konteks nyata.

5. Rekomendasi

Berdasarkan hasil model, prediksi risiko diabetes dapat digunakan sebagai gambaran awal untuk membantu memahami pola dari data kesehatan. Model ini tidak ditujukan untuk menggantikan pemeriksaan medis, tetapi dapat menjadi contoh bagaimana Machine Learning digunakan sebagai alat bantu analisis berbasis data.

Dari hasil feature importance, variabel Glucose, BMI, Age, Insulin, dan DiabetesPedigreeFunction menjadi faktor yang cukup berpengaruh terhadap hasil prediksi. Oleh karena itu, dalam konteks pencegahan, indikator-indikator tersebut dapat menjadi perhatian awal ketika ingin memahami risiko diabetes secara umum.

Salah satu rekomendasi yang dapat diberikan adalah pentingnya pemantauan kadar glukosa dan indeks massa tubuh secara berkala. Kedua variabel ini muncul sebagai faktor dominan dalam model, sehingga dapat menjadi sinyal awal untuk meningkatkan kesadaran terhadap pola hidup sehat.

Selain itu, hasil model juga menunjukkan bahwa usia, insulin, dan riwayat keluarga memiliki kontribusi dalam proses prediksi. Hal ini menunjukkan bahwa risiko diabetes tidak hanya dipengaruhi oleh satu faktor, tetapi dapat berkaitan dengan kombinasi beberapa kondisi kesehatan.

Dalam penerapan nyata, model seperti ini dapat dikembangkan menjadi sistem pendukung analisis awal yang membantu pengguna memahami potensi risiko berdasarkan data. Namun, keputusan terkait kesehatan tetap harus dilakukan melalui konsultasi dan pemeriksaan langsung dengan tenaga medis.

6. Kesimpulan & Saran

Berdasarkan hasil pengujian, model Random Forest dapat digunakan untuk memprediksi risiko diabetes berdasarkan beberapa indikator kesehatan yang tersedia pada dataset. Model memperoleh akurasi sebesar 74,68%, recall untuk kelas diabetes sebesar 72,22%, dan ROC-AUC sebesar 82,06%. Hasil ini menunjukkan bahwa model memiliki kemampuan yang cukup baik dalam mengenali pola risiko diabetes pada data testing.

Dari hasil feature importance, variabel Glucose menjadi faktor yang paling berpengaruh dalam prediksi, diikuti oleh BMI, Age, Insulin, dan DiabetesPedigreeFunction. Temuan ini menunjukkan bahwa prediksi risiko diabetes tidak hanya dipengaruhi oleh satu variabel, tetapi berasal dari kombinasi beberapa faktor kesehatan.

Namun, model ini tetap memiliki keterbatasan. Masih terdapat data diabetes yang belum berhasil terdeteksi, sehingga hasil prediksi tidak dapat dijadikan dasar tunggal untuk mengambil keputusan medis. Model ini lebih tepat digunakan sebagai simulasi sistem pendukung analisis awal berbasis data, bukan sebagai alat diagnosis.

Untuk pengembangan selanjutnya, model dapat ditingkatkan dengan teknik cross-validation dan hyperparameter optimization seperti GridSearchCV agar performa model menjadi lebih optimal. Selain itu, algoritma lain seperti XGBoost, LightGBM, atau Logistic Regression juga dapat digunakan sebagai pembanding. Pendekatan explainable AI seperti SHAP atau LIME juga dapat diterapkan agar hasil prediksi lebih mudah dipahami dan lebih transparan.

7. Opini Pribadi: Machine Learning sebagai Alat Bantu Analisis Risiko Kesehatan

Melalui proyek ini, saya melihat bahwa Machine Learning dapat digunakan untuk membantu memahami pola dari data kesehatan. Model seperti Random Forest tidak hanya memberikan hasil prediksi, tetapi juga dapat menunjukkan variabel mana yang paling berpengaruh terhadap risiko yang sedang dianalisis.

Dalam kasus prediksi risiko diabetes, hasil model menunjukkan bahwa beberapa faktor seperti Glucose, BMI, Age, Insulin, dan DiabetesPedigreeFunction memiliki peran penting dalam proses prediksi. Hal ini membuat saya memahami bahwa data kesehatan dapat memberikan gambaran awal yang berguna apabila diolah dengan pendekatan yang tepat.

Namun, menurut saya, penerapan Machine Learning di bidang kesehatan tetap harus dilakukan secara hati-hati. Model prediksi tidak boleh diposisikan sebagai pengganti tenaga medis, karena keputusan kesehatan membutuhkan pemeriksaan langsung, riwayat pasien, dan pertimbangan profesional.

Dari proyek ini, saya belajar bahwa nilai utama Machine Learning bukan hanya pada angka akurasi, tetapi juga pada kemampuannya membantu manusia melihat pola yang mungkin sulit terlihat secara manual. Dengan penggunaan yang tepat, model seperti ini dapat menjadi alat bantu analisis awal yang mendukung pengambilan keputusan berbasis data.

Referensi

Kaggle. Pima Indians Diabetes Database.

Breiman, L. (2001). Random Forests. Machine Learning, 45, 5–32.

Alzboon, M. S., Al-Batah, M., Alqaraleh, M., Abuashour, A., & Bader, A. F. (2025). A Comparative Study of Machine Learning Techniques for Early Prediction of Diabetes.

Soliman, O. S., & AboElhamd, E. (2014). Classification of Diabetes Mellitus using Modified Particle Swarm Optimization and Least Squares Support Vector Machine.

Cari Blog Ini

Belajar data mining

Membangun Model Prediksi Risiko Diabetes Menggunakan Random Forest pada Dataset Kaggle

Komentar

Posting Komentar