Análisis comparativo de métodos de machine learning para la detección de patrones sugestivos de cáncer de mama a partir de Imágenes de Mamografía
En este trabajo se ha realizado un estudio comparativo de diferentes técnicas de aprendizaje automático aplicadas a la detección de hallazgos de cáncer de mama a partir de imágenes de mamografía. La herramienta actúa como un sistema sugestivo de posibles hallazgos patológicos, no debe ser considerad...
- Autores:
-
Polo Villalobos, Leisson Duwer
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2022
- Institución:
- Universidad de Ibagué
- Repositorio:
- Repositorio Universidad de Ibagué
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unibague.edu.co:20.500.12313/4907
- Acceso en línea:
- https://hdl.handle.net/20.500.12313/4907
- Palabra clave:
- Cáncer de mama - Imágenes - Patrones sugestivos
Métodos de Machine Learning - Cancer de mama
Cáncer de mama - Imágenes
Cáncer de mama
IA
Aprendizaje automático
Mamografía
Arquitecturas
Breast cancer
AI
Machine learning
Mammography
Architectures
- Rights
- openAccess
- License
- http://purl.org/coar/access_right/c_abf2
| Summary: | En este trabajo se ha realizado un estudio comparativo de diferentes técnicas de aprendizaje automático aplicadas a la detección de hallazgos de cáncer de mama a partir de imágenes de mamografía. La herramienta actúa como un sistema sugestivo de posibles hallazgos patológicos, no debe ser considerada una herramienta diagnóstica. Esto permitirá el desarrollo de una herramienta de apoyo al personal médico al momento de realizar un diagnóstico. Para este estudio se utilizó la base de datos pública de Kaggle, concretamente, el conjunto de datos "MIAS Mammography", datos que ya cuentan con sus respectivas anotaciones. En este trabajo se evaluaron dos tipos de clasificación, clasificación binaria a partir de las calcificaciones (presencia de cáncer benigno o maligno) y clasificación multiclase para los casos malignos clasificar los distintos niveles de malignidad (CALC – Calcificación, CIRC – Masas definidas/circunscritas, SPIC - Masas espiculadas, MISC - Otras masas mal definidas, ARCH - Distorsión arquitectónica, ASYM – Asimetría, NORM - Normales). Los datos debieron ser pasados por un proceso de estructuración manual, con el fin de construir los datos de entrenamiento y validación por cada modelo. Finalmente, se evaluaron ocho (8) modelos en total, cuatro (4) de ellos para la clasificación binaria y cuatro (4) para laclasificación multiclase. Los modelos de clasificación binaria evaluados fueron las arquitecturas VGG-16, VGG-19, MobileNet-V2 y DenseNet-121. Los modelos de clasificación multiclase evaluados fueron: "K-Nearest Neighbors", "Random Forest", "Gradient Boosting" y "autoML". El análisis comparativo se realizó estandarizando el entorno de prueba con el mismo número de épocas y analizando los valores obtenidos en cuanto a precisión, tiempo de entrenamiento y F1.Se concluyó que la arquitectura DenseNet-121 obtuvo un mejor rendimiento como clasificador binario sobre los otros modelos, con una precisión de 0.9952, F1 de 0.96 y un tiempo de entrenamiento de 16.65 min. Entre los modelos de clasificación multiclase para la clasificación del grado de la lesión resultó mejor el de Random Forest con una precisión de 65.15, F1 de 0.53. El modelo VGG-16 logró una precisión de 0.7404 en 46.58 min y F1 de 0.60. El modelo VGG-19 obtuvo una precisión de 0.8365 en 60.60 min y F1 de 0.79. MobileNet-V2 logró una precisión de 0.9856 en 4.85 min y F1 de 0.96. Gradient boosting obtuvo un 62,63 de precisión, F1 de 0.52. K-neighbors con valor K = 8 obtuvo un 62,63% de precisión, F1 de 0.47 y el modelo autoML obtuvo un 64,65% de precisión, F1 de 0.47. |
|---|
