Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes

RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por part...

Full description

Autores:: Henao Restrepo, Ana Estefanía
Gil Hoyos, Juan José

Tipo de recurso:: Tesis

Fecha de publicación:: 2023

Institución:: Universidad de Antioquia

Repositorio:: Repositorio UdeA

Idioma:: spa

Description
Summary:	RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) \| Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por parte de médicos tratantes. El dataset consta de 17 variables asociadas con el estado de salud general del paciente y una variable de respuesta de dos clases: paciente con diabetes (1) y sin diabetes (0). La cantidad de registros corresponde a la información de 80.692 pacientes. Se evaluaron nueve modelos de aprendizaje supervisado, los cuales fueron: Regresión Logística, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, una red neuronal MLP Classifier y otra desarrollada directamente usando la librería Keras. Se enfrentaron desafíos como el alto costo computacional del MLP Classifier, con una ejecución de más de ocho horas, un tiempo de ejecución del algoritmo de validación cruzada de más de siete horas y la “maldición” de la dimensionalidad para el modelo KNN cuando se utilizaba la métrica de distancia cosine. Entre los resultados más notables, se determinó que la presencia de datos atípicos no influyó significativamente en el rendimiento de los modelos. Finalmente, el modelo óptimo fue la red neuronal artificial desarrollada con Keras con un arreglo de capa inicial, cinco capas ocultas, seis capas de dropout y una capa final, 64 neuronas por cada capa oculta, función de activación tangente hiperbólica, optimizador Adam y tasa de dropout de 0.2.

Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes

Publicaciones similares