Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2

El presente trabajo aborda la problemática del diagnóstico tardío de la diabetes tipo 2, una enfermedad crónica con alta prevalencia mundial. El objetivo fue diseñar e implementar un modelo predictivo de Machine Learning que, utilizando datos clínicos no invasivos y fácilmente obtenibles del BRFSS 2...

Full description

Autores:
Marín Ortega, Luis Fernando
Parra Faria, Luisangel Alexander
Tipo de recurso:
Fecha de publicación:
2025
Institución:
Universidad del Norte
Repositorio:
Repositorio Uninorte
Idioma:
spa
OAI Identifier:
oai:manglar.uninorte.edu.co:10584/13386
Acceso en línea:
http://hdl.handle.net/10584/13386
Palabra clave:
Diabetes tipo 2
diagnóstico temprano
BRFSS
machine learning
balanceo de clases
XGBoost
early diagnosis
machine learning
BRFSS
feature selection
class balancing
XGBoost
Type 2 diabetes
Rights
License
Universidad del Norte
id REPOUNORT2_d13ae9479da6c519ae0bc77f621d19a2
oai_identifier_str oai:manglar.uninorte.edu.co:10584/13386
network_acronym_str REPOUNORT2
network_name_str Repositorio Uninorte
repository_id_str
dc.title.es_ES.fl_str_mv Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
dc.title.en_US.fl_str_mv Implementation of a machine learning model for the early diagnosis of type 2 diabetes
title Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
spellingShingle Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
Diabetes tipo 2
diagnóstico temprano
BRFSS
machine learning
balanceo de clases
XGBoost
early diagnosis
machine learning
BRFSS
feature selection
class balancing
XGBoost
Type 2 diabetes
title_short Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
title_full Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
title_fullStr Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
title_full_unstemmed Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
title_sort Implementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2
dc.creator.fl_str_mv Marín Ortega, Luis Fernando
Parra Faria, Luisangel Alexander
dc.contributor.advisor.none.fl_str_mv Gamarra Acosta, Margarita Rosa
dc.contributor.author.none.fl_str_mv Marín Ortega, Luis Fernando
Parra Faria, Luisangel Alexander
dc.subject.es_ES.fl_str_mv Diabetes tipo 2
diagnóstico temprano
BRFSS
machine learning
balanceo de clases
XGBoost
early diagnosis
machine learning
BRFSS
feature selection
class balancing
XGBoost
topic Diabetes tipo 2
diagnóstico temprano
BRFSS
machine learning
balanceo de clases
XGBoost
early diagnosis
machine learning
BRFSS
feature selection
class balancing
XGBoost
Type 2 diabetes
dc.subject.en_US.fl_str_mv Type 2 diabetes
description El presente trabajo aborda la problemática del diagnóstico tardío de la diabetes tipo 2, una enfermedad crónica con alta prevalencia mundial. El objetivo fue diseñar e implementar un modelo predictivo de Machine Learning que, utilizando datos clínicos no invasivos y fácilmente obtenibles del BRFSS 2023, permita identificar individuos en riesgo de diabetes de forma temprana. Se realizó una rigurosa limpieza y selección de variables relevantes mediante análisis estadísticos (correlación de Pearson, chi-cuadrado, ANOVA e información mutua), priorizando aquellas con mayor impacto clínico. Se enfrentó el fuerte desequilibrio de clases mediante técnicas como SMOTE y NearMiss, logrando mejorar la sensibilidad de los modelos. La herramienta PyCaret facilitó el procesamiento, comparación y optimización automática de diferentes algoritmos. Los mejores resultados se obtuvieron con el modelo XGBoost, alcanzando altos valores de precisión y sensibilidad tras el balanceo de datos. El modelo final se integró en un prototipo funcional listo para ser desplegado vía API, demostrando así su potencial como herramienta accesible, eficiente y reproducible para apoyar el diagnóstico temprano de la diabetes tipo 2 en distintos contextos clínicos y comunitarios.
publishDate 2025
dc.date.accessioned.none.fl_str_mv 2025-06-04T20:20:27Z
dc.date.available.none.fl_str_mv 2025-06-04T20:20:27Z
dc.date.issued.none.fl_str_mv 2025-05-30
dc.type.es_ES.fl_str_mv article
dc.type.coar.fl_str_mv http://purl.org/coar/resource_type/c_6501
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10584/13386
url http://hdl.handle.net/10584/13386
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv Universidad del Norte
dc.rights.coar.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv Universidad del Norte
http://purl.org/coar/access_right/c_abf2
dc.publisher.es_ES.fl_str_mv Barranquilla, Universidad del Norte, 2025
institution Universidad del Norte
bitstream.url.fl_str_mv https://manglar.uninorte.edu.co/bitstream/10584/13386/4/license.txt
https://manglar.uninorte.edu.co/bitstream/10584/13386/1/INFORME_FINAL_PF.pdf
https://manglar.uninorte.edu.co/bitstream/10584/13386/2/POSTER.pdf
https://manglar.uninorte.edu.co/bitstream/10584/13386/3/POSTER.png
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
2326737b1e304c1408bd5638ef9a1cbe
0d0e45c292b0fc622ada6940e511d878
634854d7a8ad7ed04519cf69ddd802be
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Digital de la Universidad del Norte
repository.mail.fl_str_mv mauribe@uninorte.edu.co
_version_ 1836754004188594176
spelling Gamarra Acosta, Margarita RosaMarín Ortega, Luis FernandoParra Faria, Luisangel Alexander2025-06-04T20:20:27Z2025-06-04T20:20:27Z2025-05-30http://hdl.handle.net/10584/13386El presente trabajo aborda la problemática del diagnóstico tardío de la diabetes tipo 2, una enfermedad crónica con alta prevalencia mundial. El objetivo fue diseñar e implementar un modelo predictivo de Machine Learning que, utilizando datos clínicos no invasivos y fácilmente obtenibles del BRFSS 2023, permita identificar individuos en riesgo de diabetes de forma temprana. Se realizó una rigurosa limpieza y selección de variables relevantes mediante análisis estadísticos (correlación de Pearson, chi-cuadrado, ANOVA e información mutua), priorizando aquellas con mayor impacto clínico. Se enfrentó el fuerte desequilibrio de clases mediante técnicas como SMOTE y NearMiss, logrando mejorar la sensibilidad de los modelos. La herramienta PyCaret facilitó el procesamiento, comparación y optimización automática de diferentes algoritmos. Los mejores resultados se obtuvieron con el modelo XGBoost, alcanzando altos valores de precisión y sensibilidad tras el balanceo de datos. El modelo final se integró en un prototipo funcional listo para ser desplegado vía API, demostrando así su potencial como herramienta accesible, eficiente y reproducible para apoyar el diagnóstico temprano de la diabetes tipo 2 en distintos contextos clínicos y comunitarios.This project addresses the challenge of late diagnosis of type 2 diabetes, a chronic disease with high global prevalence. The main objective was to design and implement a Machine Learning predictive model using non-invasive, easily obtainable clinical data from BRFSS 2023 to enable early identification of individuals at risk for diabetes. A rigorous data cleaning and variable selection process was conducted through statistical analyses (Pearson correlation, chi-square, ANOVA, and mutual information), prioritizing features with the greatest clinical relevance. Class imbalance was managed with techniques such as SMOTE and NearMiss, significantly improving model sensitivity. The PyCaret tool streamlined preprocessing, comparison, and automatic optimization of various algorithms. The best results were achieved with the model XGBoost, reaching high accuracy and sensitivity after balancing the dataset. The final model was integrated into a functional prototype ready for API deployment, demonstrating its potential as an accessible, efficient, and reproducible tool to support early diagnosis of type 2 diabetes in diverse clinical and community settings.spaBarranquilla, Universidad del Norte, 2025Universidad del Nortehttp://purl.org/coar/access_right/c_abf2Diabetes tipo 2diagnóstico tempranoBRFSSmachine learningbalanceo de clasesXGBoostearly diagnosismachine learningBRFSSfeature selectionclass balancingXGBoostType 2 diabetesImplementación de un modelo de machine learning para el diagnóstico temprano de diabetes tipo 2Implementation of a machine learning model for the early diagnosis of type 2 diabetesarticlehttp://purl.org/coar/resource_type/c_6501Nieto Bernal, WilsonLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://manglar.uninorte.edu.co/bitstream/10584/13386/4/license.txt8a4605be74aa9ea9d79846c1fba20a33MD54ORIGINALINFORME_FINAL_PF.pdfINFORME_FINAL_PF.pdfArtículo principalapplication/pdf3155815https://manglar.uninorte.edu.co/bitstream/10584/13386/1/INFORME_FINAL_PF.pdf2326737b1e304c1408bd5638ef9a1cbeMD51POSTER.pdfPOSTER.pdfPoster presentaciónapplication/pdf3225504https://manglar.uninorte.edu.co/bitstream/10584/13386/2/POSTER.pdf0d0e45c292b0fc622ada6940e511d878MD52POSTER.pngPOSTER.pngPoster presentación en formato PNGimage/png2904837https://manglar.uninorte.edu.co/bitstream/10584/13386/3/POSTER.png634854d7a8ad7ed04519cf69ddd802beMD5310584/13386oai:manglar.uninorte.edu.co:10584/133862025-06-04 15:20:27.556Repositorio Digital de la Universidad del Nortemauribe@uninorte.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=