Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes
RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por part...
- Autores:
-
Henao Restrepo, Ana Estefanía
Gil Hoyos, Juan José
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2023
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/37554
- Acceso en línea:
- https://hdl.handle.net/10495/37554
- Palabra clave:
- Aprendizaje automático (inteligencia artificial)
Machine learning
Aprendizaje supervisado (Aprendizaje automático)
Supervised learning (Machine learning)
Diabetes - diagnostico
Diabetes - Diagnosis
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/2.5/co/
| id |
UDEA2_6edadd2abe20d9ba480fbab4390a4266 |
|---|---|
| oai_identifier_str |
oai:bibliotecadigital.udea.edu.co:10495/37554 |
| network_acronym_str |
UDEA2 |
| network_name_str |
Repositorio UdeA |
| repository_id_str |
|
| dc.title.spa.fl_str_mv |
Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes |
| title |
Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes |
| spellingShingle |
Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes Aprendizaje automático (inteligencia artificial) Machine learning Aprendizaje supervisado (Aprendizaje automático) Supervised learning (Machine learning) Diabetes - diagnostico Diabetes - Diagnosis |
| title_short |
Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes |
| title_full |
Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes |
| title_fullStr |
Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes |
| title_full_unstemmed |
Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes |
| title_sort |
Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientes |
| dc.creator.fl_str_mv |
Henao Restrepo, Ana Estefanía Gil Hoyos, Juan José |
| dc.contributor.advisor.none.fl_str_mv |
Santana Velásquez, Angelower |
| dc.contributor.author.none.fl_str_mv |
Henao Restrepo, Ana Estefanía Gil Hoyos, Juan José |
| dc.subject.lemb.none.fl_str_mv |
Aprendizaje automático (inteligencia artificial) Machine learning Aprendizaje supervisado (Aprendizaje automático) Supervised learning (Machine learning) Diabetes - diagnostico Diabetes - Diagnosis |
| topic |
Aprendizaje automático (inteligencia artificial) Machine learning Aprendizaje supervisado (Aprendizaje automático) Supervised learning (Machine learning) Diabetes - diagnostico Diabetes - Diagnosis |
| description |
RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por parte de médicos tratantes. El dataset consta de 17 variables asociadas con el estado de salud general del paciente y una variable de respuesta de dos clases: paciente con diabetes (1) y sin diabetes (0). La cantidad de registros corresponde a la información de 80.692 pacientes. Se evaluaron nueve modelos de aprendizaje supervisado, los cuales fueron: Regresión Logística, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, una red neuronal MLP Classifier y otra desarrollada directamente usando la librería Keras. Se enfrentaron desafíos como el alto costo computacional del MLP Classifier, con una ejecución de más de ocho horas, un tiempo de ejecución del algoritmo de validación cruzada de más de siete horas y la “maldición” de la dimensionalidad para el modelo KNN cuando se utilizaba la métrica de distancia cosine. Entre los resultados más notables, se determinó que la presencia de datos atípicos no influyó significativamente en el rendimiento de los modelos. Finalmente, el modelo óptimo fue la red neuronal artificial desarrollada con Keras con un arreglo de capa inicial, cinco capas ocultas, seis capas de dropout y una capa final, 64 neuronas por cada capa oculta, función de activación tangente hiperbólica, optimizador Adam y tasa de dropout de 0.2. |
| publishDate |
2023 |
| dc.date.accessioned.none.fl_str_mv |
2023-12-12T19:14:21Z |
| dc.date.available.none.fl_str_mv |
2023-12-12T19:14:21Z |
| dc.date.issued.none.fl_str_mv |
2023 |
| dc.type.spa.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Especialización |
| dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_46ec |
| dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/COther |
| dc.type.coarversion.spa.fl_str_mv |
http://purl.org/coar/version/c_b1a7d7d4d402bcce |
| dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/other |
| dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/draft |
| format |
http://purl.org/coar/resource_type/c_46ec |
| status_str |
draft |
| dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/10495/37554 |
| url |
https://hdl.handle.net/10495/37554 |
| dc.language.iso.spa.fl_str_mv |
spa |
| language |
spa |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/co/ |
| dc.rights.uri.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/co/ https://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2 |
| eu_rights_str_mv |
openAccess |
| dc.format.extent.spa.fl_str_mv |
62 |
| dc.format.mimetype.spa.fl_str_mv |
application/pdf |
| dc.publisher.spa.fl_str_mv |
Universidad de Antioquia |
| dc.publisher.place.spa.fl_str_mv |
Medellín, Colombia |
| dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos |
| institution |
Universidad de Antioquia |
| bitstream.url.fl_str_mv |
https://bibliotecadigital.udea.edu.co/bitstreams/f4053c49-e5ca-49c5-94c4-aaa03654f36f/download https://bibliotecadigital.udea.edu.co/bitstreams/537a6278-1dec-4285-9fe2-32fb772512c3/download https://bibliotecadigital.udea.edu.co/bitstreams/b438aea3-5442-4c39-82c8-a00639cf5019/download https://bibliotecadigital.udea.edu.co/bitstreams/4ccbb0f6-0053-4683-bee3-340ad68e48fc/download https://bibliotecadigital.udea.edu.co/bitstreams/98d672cd-2672-4de1-a53f-fc294e021b78/download |
| bitstream.checksum.fl_str_mv |
29e4dcdb227da43d5307e3a016b8b29a e2060682c9c70d4d30c83c51448f4eed 8a4605be74aa9ea9d79846c1fba20a33 d27106279060fa313ef392d8195c4992 d2d8572ee321da1e755b166332fc9d34 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional de la Universidad de Antioquia |
| repository.mail.fl_str_mv |
aplicacionbibliotecadigitalbiblioteca@udea.edu.co |
| _version_ |
1851052601426051072 |
| spelling |
Santana Velásquez, AngelowerHenao Restrepo, Ana EstefaníaGil Hoyos, Juan José2023-12-12T19:14:21Z2023-12-12T19:14:21Z2023https://hdl.handle.net/10495/37554RESUMEN : El conjunto de datos "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" se utilizó para optimizar los hiperparámetros de un modelo destinado a contribuir con la determinación de la probabilidad de diabetes en pacientes por parte de médicos tratantes. El dataset consta de 17 variables asociadas con el estado de salud general del paciente y una variable de respuesta de dos clases: paciente con diabetes (1) y sin diabetes (0). La cantidad de registros corresponde a la información de 80.692 pacientes. Se evaluaron nueve modelos de aprendizaje supervisado, los cuales fueron: Regresión Logística, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, una red neuronal MLP Classifier y otra desarrollada directamente usando la librería Keras. Se enfrentaron desafíos como el alto costo computacional del MLP Classifier, con una ejecución de más de ocho horas, un tiempo de ejecución del algoritmo de validación cruzada de más de siete horas y la “maldición” de la dimensionalidad para el modelo KNN cuando se utilizaba la métrica de distancia cosine. Entre los resultados más notables, se determinó que la presencia de datos atípicos no influyó significativamente en el rendimiento de los modelos. Finalmente, el modelo óptimo fue la red neuronal artificial desarrollada con Keras con un arreglo de capa inicial, cinco capas ocultas, seis capas de dropout y una capa final, 64 neuronas por cada capa oculta, función de activación tangente hiperbólica, optimizador Adam y tasa de dropout de 0.2.ABSTRACT : The dataset "Diabetes Prediction Competition (Diabetes Prediction Competition (TFUG CHD Nov 2022) | Kaggle, s. f.)" was used to optimize the hyper parameters of a model intended to contribute to the determination of the probability of diabetes in patients by treating physicians. The dataset consists of 17 variables associated with the patient's general health status and a response variable of two classes: patient with diabetes (1) and without diabetes (0). The number of records corresponds to the information of 80,692 patients. Nine supervised learning models were evaluated, which were: Logistic Regression, KNeighbors Classifier, Naive Bayes Classifier, Random Forest Classifier, Support Vector Classifier, XGBoost Classifier, Adaboost Classifier, an MLP Classifier neural network and another developed directly using the Keras library. Challenges such as the high computational cost of the MLP Classifier, with an execution of more than eight hours, a cross-validation algorithm execution time of more than seven hours, and the "curse" of dimensionality for the KNN model when using the cosine distance metric were faced. Among the most remarkable results, it was determined that the presence of outliers did not significantly influence the performance of the models. Finally, the optimal model was the artificial neural network developed with Keras with an initial layer array, five hidden layers, six drop out layers and a final layer, 64 neurons for each hidden layer, hyperbolic tangent activation function, Adam optimizer and drop out rate of 0.2.EspecializaciónEspecialista en Analítica y Ciencia de Datos62application/pdfspaUniversidad de AntioquiaMedellín, ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Predicción de probabilidad de diabetes basada en atributos relacionados con los hábitos de alimentación y condición de salud de los pacientesTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftAprendizaje automático (inteligencia artificial)Machine learningAprendizaje supervisado (Aprendizaje automático)Supervised learning (Machine learning)Diabetes - diagnosticoDiabetes - DiagnosisPublicationORIGINALHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdfHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdfTrabajo de grado de especializaciónapplication/pdf1738870https://bibliotecadigital.udea.edu.co/bitstreams/f4053c49-e5ca-49c5-94c4-aaa03654f36f/download29e4dcdb227da43d5307e3a016b8b29aMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstreams/537a6278-1dec-4285-9fe2-32fb772512c3/downloade2060682c9c70d4d30c83c51448f4eedMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/b438aea3-5442-4c39-82c8-a00639cf5019/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTEXTHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf.txtHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf.txtExtracted texttext/plain102228https://bibliotecadigital.udea.edu.co/bitstreams/4ccbb0f6-0053-4683-bee3-340ad68e48fc/downloadd27106279060fa313ef392d8195c4992MD55falseAnonymousREADTHUMBNAILHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf.jpgHenaoAnaGilJuan_2023_PrediccionProbabilidadDiabetes.pdf.jpgGenerated Thumbnailimage/jpeg7150https://bibliotecadigital.udea.edu.co/bitstreams/98d672cd-2672-4de1-a53f-fc294e021b78/downloadd2d8572ee321da1e755b166332fc9d34MD56falseAnonymousREAD10495/37554oai:bibliotecadigital.udea.edu.co:10495/375542025-03-27 00:53:24.795http://creativecommons.org/licenses/by-nc-sa/2.5/co/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
