Evaluación de Métodos de Imputación de Datos: Caso de Estudio en Modelo de Predicción de Readmisión Hospitalaria. Trabajo de grado

En el ámbito de la salud, la predicción de readmisiones hospitalarias es un desafío clave para mejorar la calidad del cuidado y optimizar el uso de recursos médicos. Sin embargo, uno de los principales obstáculos en el desarrollo de modelos de aprendizaje automático con alta precisión predictiva es...

Full description

Autores:
Julio Mejía, Cristian Camilo
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2025
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/46746
Acceso en línea:
https://hdl.handle.net/10495/46746
Palabra clave:
Readmisión del Paciente
Patient Readmission
Observaciones desaparecidas (estadisticas)
Missing observations (Statistics)
Aprendizaje automático
Machine learning
http://aims.fao.org/aos/agrovoc/c_49834
https://id.nlm.nih.gov/mesh/D010359
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/4.0/
Description
Summary:En el ámbito de la salud, la predicción de readmisiones hospitalarias es un desafío clave para mejorar la calidad del cuidado y optimizar el uso de recursos médicos. Sin embargo, uno de los principales obstáculos en el desarrollo de modelos de aprendizaje automático con alta precisión predictiva es la presencia de datos faltantes en las bases clínicas. La ausencia de información en variables críticas puede introducir sesgos, afectar la validez de los modelos y limitar su capacidad de generalización. Algunas técnicas de imputación superan a otras cuando se aplican a información clínica, particularmente en escenarios con alta proporción de datos faltantes. Se ha evidenciado que los métodos de aprendizaje automático, en especial los algoritmos de ensamble y las redes neuronales (Wang et al., 2022), ofrecen mejores resultados en comparación con métodos tradicionales, destacándose un mejor desempeño. Además, en el análisis de registros electrónicos de salud, la combinación de traducción y codificación de variables ha demostrado ser altamente efectiva en la predicción de mortalidad (Pablo Ferri et al., 2023). En particular, del conjunto de técnicas más relevantes en el ejercicio de imputación se encuentran las máquinas de vectores de soporte, las redes neuronales artificiales y los árboles de decisión emergen como estrategias robustas para la imputación de datos en variables dicotómicas (Zhang et al., 2023), aunque se subraya la necesidad de analizar previamente la distribución y correlación de las variables antes de seleccionar un método de imputación. Por ello, la selección de técnicas de imputación resulta fundamental como estrategia de mitigación de estos efectos y garantizar la solidez de las predicciones. Este trabajo se centra en evaluar y comparar el rendimiento de diversos métodos de imputación de datos.