Predicción de ocurrencia de accidentes cerebrovasculares

RESUMEN : La idea principal de este proyecto es construir un modelo capaz de predecir los accidentes cerebro vasculares, siendo éstos la segunda causa de muertes a nivel mundial, razón por la cual despierta el interés de esta investigación. Además, cuenta con su variable objetivo desbalanceada en su...

Full description

Autores:
Espinal Benjumea, Andrés Julián
Tipo de recurso:
Tesis
Fecha de publicación:
2023
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/37559
Acceso en línea:
https://hdl.handle.net/10495/37559
Palabra clave:
Accidente cerebrovascular
Stroke
Técnicas de predicción
Forecasting techniques
Clasificación
Desbalanceo de clases
Matriz de confusión
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-sa/4.0/
id UDEA2_7e4d623b19e43cab90d3c704840ff362
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/37559
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Predicción de ocurrencia de accidentes cerebrovasculares
title Predicción de ocurrencia de accidentes cerebrovasculares
spellingShingle Predicción de ocurrencia de accidentes cerebrovasculares
Accidente cerebrovascular
Stroke
Técnicas de predicción
Forecasting techniques
Clasificación
Desbalanceo de clases
Matriz de confusión
title_short Predicción de ocurrencia de accidentes cerebrovasculares
title_full Predicción de ocurrencia de accidentes cerebrovasculares
title_fullStr Predicción de ocurrencia de accidentes cerebrovasculares
title_full_unstemmed Predicción de ocurrencia de accidentes cerebrovasculares
title_sort Predicción de ocurrencia de accidentes cerebrovasculares
dc.creator.fl_str_mv Espinal Benjumea, Andrés Julián
dc.contributor.advisor.none.fl_str_mv Ceballos, Yony Fernando
dc.contributor.author.none.fl_str_mv Espinal Benjumea, Andrés Julián
dc.subject.decs.none.fl_str_mv Accidente cerebrovascular
Stroke
topic Accidente cerebrovascular
Stroke
Técnicas de predicción
Forecasting techniques
Clasificación
Desbalanceo de clases
Matriz de confusión
dc.subject.lemb.none.fl_str_mv Técnicas de predicción
Forecasting techniques
Clasificación
dc.subject.proposal.spa.fl_str_mv Desbalanceo de clases
Matriz de confusión
description RESUMEN : La idea principal de este proyecto es construir un modelo capaz de predecir los accidentes cerebro vasculares, siendo éstos la segunda causa de muertes a nivel mundial, razón por la cual despierta el interés de esta investigación. Además, cuenta con su variable objetivo desbalanceada en sus clases en un porcentaje de 95.13 % para la clase mayoritaria y 4.87 % en la clase minoritaria. Los modelos usados fueron la regresión logística, random forest, máquinas de soporte vectoriales, k nearest neighbor y árboles de decisiones. Las métricas principales fueron el f1-score, recall y AUC porque clasifican mejor los casos positivos que son la clase minoritaria. La base de datos fue encontrada en kaggle y posee 5110 registros con 12 variables. Se realizaron cuatro iteraciones; la primera se usó el parámetro class_weight = balanced sin balancear la variable objetivo. La segunda iteración se balanceó dicha variable con la técnica SMOTE y se usaron modelos con parámetros por default. La tercera iteración se usó la técnica de GridSearchCV basado en la métrica f1-score y la última iteración se redujo la dimensionalidad en dos clases más. Los principales obstáculos en este proyecto consistían en lograr mantener la clase minoritaria con la menor pérdida de información posible al aplicar el preprocesamiento y medir la capacidad de generalizar el modelo sin que haya sobreajuste. Se trazó un objetivo de lograr un f1-score del 85 % pero al final el modelo de regresión logística logró llegar hasta 80 % siendo el mejor modelo de entre los evaluados.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-12-12T19:51:20Z
dc.date.available.none.fl_str_mv 2023-12-12T19:51:20Z
dc.date.issued.none.fl_str_mv 2023
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/10495/37559
url https://hdl.handle.net/10495/37559
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 51
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín, Colombia
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/9e6752ee-0b7c-448a-83b1-e681f7d14f9f/download
https://bibliotecadigital.udea.edu.co/bitstreams/594ac32c-1e47-4152-a521-26bf7e10dde6/download
https://bibliotecadigital.udea.edu.co/bitstreams/8cdb8174-cff8-4fff-811b-df02a740fc5a/download
https://bibliotecadigital.udea.edu.co/bitstreams/89f5c3b6-a81b-42f9-bafb-471b51b1d370/download
https://bibliotecadigital.udea.edu.co/bitstreams/f6b2041a-59d6-4e3e-91e4-973c4498d460/download
https://bibliotecadigital.udea.edu.co/bitstreams/28b591d5-805a-4f86-a11d-5fada8eb2ac2/download
bitstream.checksum.fl_str_mv 895e36808b84f0fa8198daf0673d981e
d112a6bbb47fa8f80c8d3311602b7eef
8a4605be74aa9ea9d79846c1fba20a33
e2060682c9c70d4d30c83c51448f4eed
e7ca76166a8f2ca9b151fc888a449a09
4c819288b30cbfafd383e54e80d506a2
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052352241401856
spelling Ceballos, Yony FernandoEspinal Benjumea, Andrés Julián2023-12-12T19:51:20Z2023-12-12T19:51:20Z2023https://hdl.handle.net/10495/37559RESUMEN : La idea principal de este proyecto es construir un modelo capaz de predecir los accidentes cerebro vasculares, siendo éstos la segunda causa de muertes a nivel mundial, razón por la cual despierta el interés de esta investigación. Además, cuenta con su variable objetivo desbalanceada en sus clases en un porcentaje de 95.13 % para la clase mayoritaria y 4.87 % en la clase minoritaria. Los modelos usados fueron la regresión logística, random forest, máquinas de soporte vectoriales, k nearest neighbor y árboles de decisiones. Las métricas principales fueron el f1-score, recall y AUC porque clasifican mejor los casos positivos que son la clase minoritaria. La base de datos fue encontrada en kaggle y posee 5110 registros con 12 variables. Se realizaron cuatro iteraciones; la primera se usó el parámetro class_weight = balanced sin balancear la variable objetivo. La segunda iteración se balanceó dicha variable con la técnica SMOTE y se usaron modelos con parámetros por default. La tercera iteración se usó la técnica de GridSearchCV basado en la métrica f1-score y la última iteración se redujo la dimensionalidad en dos clases más. Los principales obstáculos en este proyecto consistían en lograr mantener la clase minoritaria con la menor pérdida de información posible al aplicar el preprocesamiento y medir la capacidad de generalizar el modelo sin que haya sobreajuste. Se trazó un objetivo de lograr un f1-score del 85 % pero al final el modelo de regresión logística logró llegar hasta 80 % siendo el mejor modelo de entre los evaluados.EspecializaciónEspecialista en Análitica y Ciencia de Datos51application/pdfspaUniversidad de AntioquiaMedellín, ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttps://creativecommons.org/licenses/by-nc-sa/4.0/http://creativecommons.org/licenses/by-nc-sa/2.5/co/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Predicción de ocurrencia de accidentes cerebrovascularesTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftAccidente cerebrovascularStrokeTécnicas de predicciónForecasting techniquesClasificaciónDesbalanceo de clasesMatriz de confusiónPublicationORIGINALEspinalAndres_2023_PrediccionAccidentesCerebrovasculares.pdfEspinalAndres_2023_PrediccionAccidentesCerebrovasculares.pdfTrabajo de grado de especializaciónapplication/pdf1841994https://bibliotecadigital.udea.edu.co/bitstreams/9e6752ee-0b7c-448a-83b1-e681f7d14f9f/download895e36808b84f0fa8198daf0673d981eMD51trueAnonymousREADAnexoA_Scripts.zipAnexoA_Scripts.zipAnexoapplication/octet-stream6211004https://bibliotecadigital.udea.edu.co/bitstreams/594ac32c-1e47-4152-a521-26bf7e10dde6/downloadd112a6bbb47fa8f80c8d3311602b7eefMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/8cdb8174-cff8-4fff-811b-df02a740fc5a/download8a4605be74aa9ea9d79846c1fba20a33MD55falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstreams/89f5c3b6-a81b-42f9-bafb-471b51b1d370/downloade2060682c9c70d4d30c83c51448f4eedMD54falseAnonymousREADTEXTEspinalAndres_2023_PrediccionAccidentesCerebrovasculares.pdf.txtEspinalAndres_2023_PrediccionAccidentesCerebrovasculares.pdf.txtExtracted texttext/plain78703https://bibliotecadigital.udea.edu.co/bitstreams/f6b2041a-59d6-4e3e-91e4-973c4498d460/downloade7ca76166a8f2ca9b151fc888a449a09MD56falseAnonymousREADTHUMBNAILEspinalAndres_2023_PrediccionAccidentesCerebrovasculares.pdf.jpgEspinalAndres_2023_PrediccionAccidentesCerebrovasculares.pdf.jpgGenerated Thumbnailimage/jpeg6272https://bibliotecadigital.udea.edu.co/bitstreams/28b591d5-805a-4f86-a11d-5fada8eb2ac2/download4c819288b30cbfafd383e54e80d506a2MD57falseAnonymousREAD10495/37559oai:bibliotecadigital.udea.edu.co:10495/375592025-03-26 21:00:25.448https://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=