Análisis de tiempos de ejecución para modelos de machine learning entrenados localmente y en clusters de Spark

RESUMEN : El entrenamiento de modelos de machine learning es un proceso iterativo que consume altos recursos computacionales y tiempo de ejecución, dependiendo del hardware disponible, estos entrenamientos pueden ser más o menos eficientes respecto al tiempo de ejecución, lo que puede llevar a un gr...

Full description

Autores:
Jaramillo Tobon, Juan Pablo
Higuita Usuga, Daniel Alejandro
Tipo de recurso:
Tesis
Fecha de publicación:
2024
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/44350
Acceso en línea:
https://hdl.handle.net/10495/44350
Palabra clave:
Neumonía
Pneumonia
Aprendizaje automático (inteligencia artificial)
Machine learning
Teoría del aprendizaje computacional
Computational learning theory
Análisis cluster
Cluster analysis
https://id.nlm.nih.gov/mesh/D011014
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-sa/4.0/
Description
Summary:RESUMEN : El entrenamiento de modelos de machine learning es un proceso iterativo que consume altos recursos computacionales y tiempo de ejecución, dependiendo del hardware disponible, estos entrenamientos pueden ser más o menos eficientes respecto al tiempo de ejecución, lo que puede llevar a un gran costo energético e inversiones de tiempo, cuyo resultados pueden ser un modelo que no sea óptimo para el objetivo propuesto. Debido a las alternativas que existen para el entrenamiento de modelos, se necesita hacer un análisis sobre los tiempos de ejecución que lleva entrenar modelos que retornen una buena hipótesis, capaz de predecir con accuracy mayor al 70% y comparar la ejecución clásica en un pc vs clustering aplicando distintas configuraciones. Este proyecto utilizará modelos de aprendizaje automático para distinguir un pulmón sano de uno con neumonía, estos modelos serán entrenados en: CPU, GPU y ejecución distribuida en cluster, y se calculará cual recurso que en promedio sea más eficiente respecto al porcentaje de mejora en tiempos de ejecución en el entrenamiento de los modelos.