Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)

RESUMEN : El presente trabajo, también llamado PredictLab, desarrolla un programa interactivo basado en una interfaz web que permite a los usuarios realizar análisis predictivo supervisado de manera eficiente. Facilita la carga del conjunto de datos, el preprocesamiento personalizado y la selección...

Full description

Autores:
Gómez Vahos, Jhonatan Stick
Saldarriaga Arias, Sebastián
Tipo de recurso:
Tesis
Fecha de publicación:
2024
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/44466
Acceso en línea:
https://hdl.handle.net/10495/44466
Palabra clave:
Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión
Regression analysis
Clasificación (computadores electrónicos)
Sorting (electronic computers)
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-sa/4.0/
id UDEA2_613d49ba070e4179e55c91c9df8b3e85
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/44466
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)
dc.title.translated.spa.fl_str_mv Web application to train and predict financial data, based on algorithms Supervised Classification and Regression (PredictLab)
title Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)
spellingShingle Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)
Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión
Regression analysis
Clasificación (computadores electrónicos)
Sorting (electronic computers)
title_short Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)
title_full Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)
title_fullStr Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)
title_full_unstemmed Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)
title_sort Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)
dc.creator.fl_str_mv Gómez Vahos, Jhonatan Stick
Saldarriaga Arias, Sebastián
dc.contributor.advisor.none.fl_str_mv Botía Valderrama, Javier Fernando
dc.contributor.author.none.fl_str_mv Gómez Vahos, Jhonatan Stick
Saldarriaga Arias, Sebastián
dc.subject.lemb.none.fl_str_mv Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión
Regression analysis
Clasificación (computadores electrónicos)
Sorting (electronic computers)
topic Aprendizaje automático (inteligencia artificial)
Machine learning
Análisis de regresión
Regression analysis
Clasificación (computadores electrónicos)
Sorting (electronic computers)
description RESUMEN : El presente trabajo, también llamado PredictLab, desarrolla un programa interactivo basado en una interfaz web que permite a los usuarios realizar análisis predictivo supervisado de manera eficiente. Facilita la carga del conjunto de datos, el preprocesamiento personalizado y la selección del modelo de predicción que mejor se ajusta a los datos en función de métricas específicas. El enfoque se centra exclusivamente en modelos supervisados de clasificación binaria y regresión. Para la clasificación, se consideran algoritmos como regresión logística, random forest, máquinas de soporte vectorial (SVM), KNN y clasificadores de Bayes ingenuo como GaussianNB y BernoulliNB. En el caso de regresión, se evalúan regresión lineal, ridge, random forest, AdaBoost y gradient boosting. Los parámetros de estos modelos son personalizables y se optimizan mediante un proceso de búsqueda de rejillas (grid search) (Scikit-learn Developers, 2023). La selección del modelo óptimo se basa en el puntaje F1 para tareas de clasificación y el error absoluto medio (MAE) para regresión. Algunos de los resultados más representativos se obtuvieron al entrenar los conjuntos de datos, “Bank Marketing” obtenido desde UCI Machine Learning Repository (2014) para clasificación y “Credit Card Limit Prediction” disponible en Kaggle (s.f.) para regresión. En el caso de clasificación se obtuvo el mejor puntaje F1 de 0.92 para máquinas de soporte vectorial (SVM).En el caso de la regresión, se obtuvo el mejor valor en el error absoluto medio (MAE) de -0.006 para regresión logística y ridge, -0.02. Estos resultados fueron alcanzados sin configuraciones avanzadas ni depuración previa de los datos, teniendo en cuenta que dichos resultados se obtuvieron cargando los datos tal y como están en los repositorios y con la configuración por defecto de PredictLab. Palabras clave: Clasificación, regresión, búsqueda de rejillas, puntaje F1, error absoluto medio (MAE).
publishDate 2024
dc.date.issued.none.fl_str_mv 2024
dc.date.accessioned.none.fl_str_mv 2025-01-28T17:52:28Z
dc.date.available.none.fl_str_mv 2025-01-28T17:52:28Z
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/10495/44466
url https://hdl.handle.net/10495/44466
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.issupplementedby.spa.fl_str_mv https://github.com/jhonatanvahos/AutoML
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 48 páginas
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín, Colombia
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/b3744dfc-70b5-4232-9a3b-d78000b8edc8/download
https://bibliotecadigital.udea.edu.co/bitstreams/2e0ec81f-36a7-4ee6-8c6e-b7efba2ce54a/download
https://bibliotecadigital.udea.edu.co/bitstreams/e2754296-6b8b-4000-8acc-3f147a886d43/download
https://bibliotecadigital.udea.edu.co/bitstreams/cf5c8925-6d24-44cb-b06a-e5085b740a81/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
0b2704c12990bd2e865b217567c8a787
225ac0c79d3e40facbda49d5b36ae38b
547f24fceeb4b15e44c0091912bd8d4f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052438373531648
spelling Botía Valderrama, Javier FernandoGómez Vahos, Jhonatan StickSaldarriaga Arias, Sebastián2025-01-28T17:52:28Z2025-01-28T17:52:28Z2024https://hdl.handle.net/10495/44466RESUMEN : El presente trabajo, también llamado PredictLab, desarrolla un programa interactivo basado en una interfaz web que permite a los usuarios realizar análisis predictivo supervisado de manera eficiente. Facilita la carga del conjunto de datos, el preprocesamiento personalizado y la selección del modelo de predicción que mejor se ajusta a los datos en función de métricas específicas. El enfoque se centra exclusivamente en modelos supervisados de clasificación binaria y regresión. Para la clasificación, se consideran algoritmos como regresión logística, random forest, máquinas de soporte vectorial (SVM), KNN y clasificadores de Bayes ingenuo como GaussianNB y BernoulliNB. En el caso de regresión, se evalúan regresión lineal, ridge, random forest, AdaBoost y gradient boosting. Los parámetros de estos modelos son personalizables y se optimizan mediante un proceso de búsqueda de rejillas (grid search) (Scikit-learn Developers, 2023). La selección del modelo óptimo se basa en el puntaje F1 para tareas de clasificación y el error absoluto medio (MAE) para regresión. Algunos de los resultados más representativos se obtuvieron al entrenar los conjuntos de datos, “Bank Marketing” obtenido desde UCI Machine Learning Repository (2014) para clasificación y “Credit Card Limit Prediction” disponible en Kaggle (s.f.) para regresión. En el caso de clasificación se obtuvo el mejor puntaje F1 de 0.92 para máquinas de soporte vectorial (SVM).En el caso de la regresión, se obtuvo el mejor valor en el error absoluto medio (MAE) de -0.006 para regresión logística y ridge, -0.02. Estos resultados fueron alcanzados sin configuraciones avanzadas ni depuración previa de los datos, teniendo en cuenta que dichos resultados se obtuvieron cargando los datos tal y como están en los repositorios y con la configuración por defecto de PredictLab. Palabras clave: Clasificación, regresión, búsqueda de rejillas, puntaje F1, error absoluto medio (MAE).ABSTRACT : This project, named PredictLab, develops an interactive program with a web-based interface that enables users to perform supervised predictive analysis efficiently. It facilitates dataset uploading, custom preprocessing, and selecting the prediction model that best fits the data based on specific metrics. The approach focuses exclusively on supervised binary classification and regression models. For classification, algorithms such as logistic regression, random forest, support vector machines (SVM), KNN, and naive Bayes classifiers such as GaussianNB and BernoulliNB are considered. In the case of regression, linear regression, ridge, random forest, AdaBoost, and gradient boosting are evaluated. The parameters of these models are customizable and are optimized using a grid search process (Scikit-learn Developers, 2023). The selection of the optimal model is based on the F1 score for classification tasks and the mean absolute error (MAE) for regression. Some of the most representative results were obtained by training the data sets, “Bank Marketing” obtained from UCI Machine Learning Repository (2014) for classification and “Credit Card Limit Prediction” available in Kaggle (n.d.) for regression. In the case of classification, the best F1 score of 0.92 was obtained for support vector machines (SVM). In the case of regression, the best value was obtained in the mean absolute error (MAE) of -0.006 for logistic regression and ridge, -0.02. These results were achieved without advanced configurations or prior data cleaning, taking into account that these results were obtained by loading the data as it is in the repositories and with the default configuration of PredictLab. Keywords: Classification, regression, grid search, F1 score, mean absolute error (MAE).EspecializaciónEspecialista en Analítica y Ciencia de Datos48 páginasapplication/pdfspaUniversidad de AntioquiaMedellín, ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttps://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Aplicación web para entrenar y predecir datos financieros, basado en algoritmos supervisados de clasificación y regresión (PredictLab)Web application to train and predict financial data, based on algorithms Supervised Classification and Regression (PredictLab)Tesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftAprendizaje automático (inteligencia artificial)Machine learningAnálisis de regresiónRegression analysisClasificación (computadores electrónicos)Sorting (electronic computers)https://github.com/jhonatanvahos/AutoMLPublicationLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/b3744dfc-70b5-4232-9a3b-d78000b8edc8/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADORIGINALGomezJhonatan_2024_WebClasificacionRegresion.pdfGomezJhonatan_2024_WebClasificacionRegresion.pdfTrabajo de grado especializaciónapplication/pdf1066182https://bibliotecadigital.udea.edu.co/bitstreams/2e0ec81f-36a7-4ee6-8c6e-b7efba2ce54a/download0b2704c12990bd2e865b217567c8a787MD51trueAnonymousREADTEXTGomezJhonatan_2024_WebClasificacionRegresion.pdf.txtGomezJhonatan_2024_WebClasificacionRegresion.pdf.txtExtracted texttext/plain58301https://bibliotecadigital.udea.edu.co/bitstreams/e2754296-6b8b-4000-8acc-3f147a886d43/download225ac0c79d3e40facbda49d5b36ae38bMD55falseAnonymousREADTHUMBNAILGomezJhonatan_2024_WebClasificacionRegresion.pdf.jpgGomezJhonatan_2024_WebClasificacionRegresion.pdf.jpgGenerated Thumbnailimage/jpeg6572https://bibliotecadigital.udea.edu.co/bitstreams/cf5c8925-6d24-44cb-b06a-e5085b740a81/download547f24fceeb4b15e44c0091912bd8d4fMD56falseAnonymousREAD10495/44466oai:bibliotecadigital.udea.edu.co:10495/444662025-03-26 22:20:46.986https://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=