Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las h...

Full description

Autores:
Bastidas Rodríguez, Angie Lorena
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Universidad El Bosque
Repositorio:
Repositorio U. El Bosque
Idioma:
spa
OAI Identifier:
oai:repositorio.unbosque.edu.co:20.500.12495/11792
Acceso en línea:
http://hdl.handle.net/20.500.12495/11792
Palabra clave:
Minería de texto
Clustering de texto
Clustering Jerárquico
Clustering K-Means
Clustering DBSCAN
Machine Learning
Enfermedades coronarias
Diagnostico
519.5
Text mining
Text clustering
Hierarchical clustering
K-Means clustering
DBSCAN clustering
Machine Learning
Coronary heart diseases
Diagnosis
Rights
openAccess
License
Atribución-NoComercial-CompartirIgual 4.0 Internacional
Description
Summary:En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo.