Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes

RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por part...

Full description

Autores:
Henao Restrepo, Ana Estefanía
Gil Hoyos, Juan José
Tipo de recurso:
Tesis
Fecha de publicación:
2023
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/37554
Acceso en línea:
https://hdl.handle.net/10495/37554
Palabra clave:
Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (Aprendizaje automático)
Supervised learning (Machine learning)
Diabetes - diagnostico
Diabetes - Diagnosis
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
id UDEA2_6edadd2abe20d9ba480fbab4390a4266
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/37554
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
title Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
spellingShingle Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (Aprendizaje automático)
Supervised learning (Machine learning)
Diabetes - diagnostico
Diabetes - Diagnosis
title_short Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
title_full Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
title_fullStr Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
title_full_unstemmed Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
title_sort Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
dc.creator.fl_str_mv Henao Restrepo, Ana Estefanía
Gil Hoyos, Juan José
dc.contributor.advisor.none.fl_str_mv Santana Velásquez, Angelower
dc.contributor.author.none.fl_str_mv Henao Restrepo, Ana Estefanía
Gil Hoyos, Juan José
dc.subject.lemb.none.fl_str_mv Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (Aprendizaje automático)
Supervised learning (Machine learning)
Diabetes - diagnostico
Diabetes - Diagnosis
topic Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (Aprendizaje automático)
Supervised learning (Machine learning)
Diabetes - diagnostico
Diabetes - Diagnosis
description RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por parte de médicos tratantes. El dataset consta de 17 variables asociadas con el estado de salud general del paciente y una variable de respuesta de dos clases: paciente con diabetes (1) y sin diabetes (0). La cantidad de registros corresponde a la información de 80.692 pacientes. Se evaluaron nueve modelos de aprendizaje supervisado, los cuales fueron: Regresión Logística, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, una red neuronal MLP Classifier y otra desarrollada directamente usando la librería Keras. Se enfrentaron desafíos como el alto costo computacional del MLP Classifier, con una ejecución de más de ocho horas, un tiempo de ejecución del algoritmo de validación cruzada de más de siete horas y la “maldición” de la dimensionalidad para el modelo KNN cuando se utilizaba la métrica de distancia cosine. Entre los resultados más notables, se determinó que la presencia de datos atípicos no influyó significativamente en el rendimiento de los modelos. Finalmente, el modelo óptimo fue la red neuronal artificial desarrollada con Keras con un arreglo de capa inicial, cinco capas ocultas, seis capas de dropout y una capa final, 64 neuronas por cada capa oculta, función de activación tangente hiperbólica, optimizador Adam y tasa de dropout de 0.2.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-12-12T19:14:21Z
dc.date.available.none.fl_str_mv 2023-12-12T19:14:21Z
dc.date.issued.none.fl_str_mv 2023
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/10495/37554
url https://hdl.handle.net/10495/37554
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
https://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 62
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín, Colombia
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/f4053c49-e5ca-49c5-94c4-aaa03654f36f/download
https://bibliotecadigital.udea.edu.co/bitstreams/537a6278-1dec-4285-9fe2-32fb772512c3/download
https://bibliotecadigital.udea.edu.co/bitstreams/b438aea3-5442-4c39-82c8-a00639cf5019/download
https://bibliotecadigital.udea.edu.co/bitstreams/4ccbb0f6-0053-4683-bee3-340ad68e48fc/download
https://bibliotecadigital.udea.edu.co/bitstreams/98d672cd-2672-4de1-a53f-fc294e021b78/download
bitstream.checksum.fl_str_mv 29e4dcdb227da43d5307e3a016b8b29a
e2060682c9c70d4d30c83c51448f4eed
8a4605be74aa9ea9d79846c1fba20a33
d27106279060fa313ef392d8195c4992
d2d8572ee321da1e755b166332fc9d34
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052601426051072
spelling Santana Velásquez, AngelowerHenao Restrepo, Ana EstefaníaGil Hoyos, Juan José2023-12-12T19:14:21Z2023-12-12T19:14:21Z2023https://hdl.handle.net/10495/37554RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por parte de médicos tratantes. El dataset consta de 17 variables asociadas con el estado de salud general del paciente y una variable de respuesta de dos clases: paciente con diabetes (1) y sin diabetes (0). La cantidad de registros corresponde a la información de 80.692 pacientes. Se evaluaron nueve modelos de aprendizaje supervisado, los cuales fueron: Regresión Logística, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, una red neuronal MLP Classifier y otra desarrollada directamente usando la librería Keras. Se enfrentaron desafíos como el alto costo computacional del MLP Classifier, con una ejecución de más de ocho horas, un tiempo de ejecución del algoritmo de validación cruzada de más de siete horas y la “maldición” de la dimensionalidad para el modelo KNN cuando se utilizaba la métrica de distancia cosine. Entre los resultados más notables, se determinó que la presencia de datos atípicos no influyó significativamente en el rendimiento de los modelos. Finalmente, el modelo óptimo fue la red neuronal artificial desarrollada con Keras con un arreglo de capa inicial, cinco capas ocultas, seis capas de dropout y una capa final, 64 neuronas por cada capa oculta, función de activación tangente hiperbólica, optimizador Adam y tasa de dropout de 0.2.ABSTRACT : The dataset "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" was used to optimize the hyper parameters of a model intended to contribute to the determination of the probability of diabetes in patients by treating physicians. The dataset consists of 17 variables associated with the patient's general health status and a response variable of two classes: patient with diabetes (1) and without diabetes (0). The number of records corresponds to the information of 80,692 patients. Nine supervised learning models were evaluated, which were: Logistic Regression, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, an MLP Classifier neural network and another developed directly using the Keras library. Challenges such as the high computational cost of the MLP Classifier, with an execution of more than eight hours, a cross-validation algorithm execution time of more than seven hours, and the "curse" of dimensionality for the KNN model when using the cosine distance metric were faced. Among the most remarkable results, it was determined that the presence of outliers did not significantly influence the performance of the models. Finally, the optimal model was the artificial neural network developed with Keras with an initial layer array, five hidden layers, six drop out layers and a final layer, 64 neurons for each hidden layer, hyperbolic tangent activation function, Adam optimizer and drop out rate of 0.2.EspecializaciónEspecialista en Analítica y Ciencia de Datos62application/pdfspaUniversidad de AntioquiaMedellín, ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientesTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftAprendizaje automático (inteligencia artificial)Machine learningAprendizaje supervisado (Aprendizaje automático)Supervised learning (Machine learning)Diabetes - diagnosticoDiabetes - DiagnosisPublicationORIGINALHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdfHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdfTrabajo de grado de especializaciónapplication/pdf1738870https://bibliotecadigital.udea.edu.co/bitstreams/f4053c49-e5ca-49c5-94c4-aaa03654f36f/download29e4dcdb227da43d5307e3a016b8b29aMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstreams/537a6278-1dec-4285-9fe2-32fb772512c3/downloade2060682c9c70d4d30c83c51448f4eedMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/b438aea3-5442-4c39-82c8-a00639cf5019/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTEXTHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf.txtHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf.txtExtracted texttext/plain102228https://bibliotecadigital.udea.edu.co/bitstreams/4ccbb0f6-0053-4683-bee3-340ad68e48fc/downloadd27106279060fa313ef392d8195c4992MD55falseAnonymousREADTHUMBNAILHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf.jpgHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf.jpgGenerated Thumbnailimage/jpeg7150https://bibliotecadigital.udea.edu.co/bitstreams/98d672cd-2672-4de1-a53f-fc294e021b78/downloadd2d8572ee321da1e755b166332fc9d34MD56falseAnonymousREAD10495/37554oai:bibliotecadigital.udea.edu.co:10495/375542025-03-27 00:53:24.795http://creativecommons.org/licenses/by-nc-sa/2.5/co/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=