Predicción de ocurrencia de accidentes cerebrovasculares
RESUMEN : La idea principal de este proyecto es construir un modelo capaz de predecir los accidentes cerebro vasculares, siendo éstos la segunda causa de muertes a nivel mundial, razón por la cual despierta el interés de esta investigación. Además, cuenta con su variable objetivo desbalanceada en su...
- Autores:
-
Espinal Benjumea, Andrés Julián
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2023
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/37559
- Acceso en línea:
- https://hdl.handle.net/10495/37559
- Palabra clave:
- Accidente cerebrovascular
Stroke
Técnicas de predicción
Forecasting techniques
Clasificación
Desbalanceo de clases
Matriz de confusión
- Rights
- openAccess
- License
- https://creativecommons.org/licenses/by-nc-sa/4.0/
| Summary: | RESUMEN : La idea principal de este proyecto es construir un modelo capaz de predecir los accidentes cerebro vasculares, siendo éstos la segunda causa de muertes a nivel mundial, razón por la cual despierta el interés de esta investigación. Además, cuenta con su variable objetivo desbalanceada en sus clases en un porcentaje de 95.13 % para la clase mayoritaria y 4.87 % en la clase minoritaria. Los modelos usados fueron la regresión logística, random forest, máquinas de soporte vectoriales, k nearest neighbor y árboles de decisiones. Las métricas principales fueron el f1-score, recall y AUC porque clasifican mejor los casos positivos que son la clase minoritaria. La base de datos fue encontrada en kaggle y posee 5110 registros con 12 variables. Se realizaron cuatro iteraciones; la primera se usó el parámetro class_weight = balanced sin balancear la variable objetivo. La segunda iteración se balanceó dicha variable con la técnica SMOTE y se usaron modelos con parámetros por default. La tercera iteración se usó la técnica de GridSearchCV basado en la métrica f1-score y la última iteración se redujo la dimensionalidad en dos clases más. Los principales obstáculos en este proyecto consistían en lograr mantener la clase minoritaria con la menor pérdida de información posible al aplicar el preprocesamiento y medir la capacidad de generalizar el modelo sin que haya sobreajuste. Se trazó un objetivo de lograr un f1-score del 85 % pero al final el modelo de regresión logística logró llegar hasta 80 % siendo el mejor modelo de entre los evaluados. |
|---|
