Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación

RESUMEN: El objetivo de este trabajo es predecir la supervivencia del cáncer de mama aplicando modelos de clasificación, para el desarrollo de este objetivo se utiliza la base de datos del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama (METABRIC), que contiene datos de 1.904 pacie...

Full description

Autores:
Restrepo Gutiérrez, Katherine
Tipo de recurso:
Tesis
Fecha de publicación:
2022
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/29418
Acceso en línea:
http://hdl.handle.net/10495/29418
Palabra clave:
Esperanza de Vida
Neoplasias de la Mama
Técnicas de predicción
Análisis de regresión
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-sa/4.0/
id UDEA2_3fcd424b0fe673b3ced70720fbc706df
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/29418
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
title Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
spellingShingle Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
Esperanza de Vida
Neoplasias de la Mama
Técnicas de predicción
Análisis de regresión
title_short Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
title_full Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
title_fullStr Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
title_full_unstemmed Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
title_sort Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
dc.creator.fl_str_mv Restrepo Gutiérrez, Katherine
dc.contributor.advisor.none.fl_str_mv Sanes Negrete, Sergio
dc.contributor.author.none.fl_str_mv Restrepo Gutiérrez, Katherine
dc.subject.decs.none.fl_str_mv Esperanza de Vida
Neoplasias de la Mama
topic Esperanza de Vida
Neoplasias de la Mama
Técnicas de predicción
Análisis de regresión
dc.subject.lemb.none.fl_str_mv Técnicas de predicción
Análisis de regresión
description RESUMEN: El objetivo de este trabajo es predecir la supervivencia del cáncer de mama aplicando modelos de clasificación, para el desarrollo de este objetivo se utiliza la base de datos del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama (METABRIC), que contiene datos de 1.904 pacientes con atributos clínicos y 331 genes con niveles de puntuación z de ARNm y mutación de 175 genes, la base de datos está disponible en la plataforma de Kaggle publicado por RAGHAD ALHARBI. Para este trabajo se modela la supervivencia del cáncer de mama como un problema de clasificación binaria utilizando modelos de aprendizaje estadístico supervisado como es la regresión logística, árbol de clasificación, random forest y Gradient boosting. En un primer experimento, se utilizaron únicamente datos clínicos como variables explicativas. Como primer resultado se obtiene que la regresión logística es el mejor modelo. En un segundo experimento, se realiza una modelación incluyendo datos clínicos y parte de las variables de expresión genética, lo que aumenta la dimensión de variables explicativas a 6.271, debido a esto, se aplica una técnica de reducción de dimensionalidad por análisis de componentes principales. El mejor modelo nuevamente es la regresión logística, pero el resultado se encuentra por debajo del primer modelo. Finalmente se realiza un tercer experimento o iteración que busca mejorar el resultado de la segunda modelación, en esta última se incluyen las mismas variables clínicas y algunas variables genéticas que por estudios las han clasificado como principales factores de riesgo en el desarrollo de este tipo de cáncer. El mejor modelo continúa siendo la regresión logística y el resultado mejora respecto a los modelos anteriores. Como conclusión, se puede evidenciar que el mejor desempeño se logra en el tercer experimento con el modelo de Regresión Logística, Accuracy de 84%, f1-score de 82% cuando se predice la muerte y f1-score del 85% en la predicción de la supervivencia del paciente.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-06-28T15:22:21Z
dc.date.available.none.fl_str_mv 2022-06-28T15:22:21Z
dc.date.issued.none.fl_str_mv 2022
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10495/29418
url http://hdl.handle.net/10495/29418
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.issupplementedby.spa.fl_str_mv https://github.com/katherine2022Udea/TesisEspecializacion
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri.*.fl_str_mv http://creativecommons.org/publicdomain/zero/1.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
http://creativecommons.org/publicdomain/zero/1.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 35
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín - Colombia
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/8e2e550e-02c1-48cd-a742-3e6d6fb8ff86/download
https://bibliotecadigital.udea.edu.co/bitstreams/cf52d3bf-b7a2-48eb-8164-e2f9a9bbe1b4/download
https://bibliotecadigital.udea.edu.co/bitstreams/25b93552-9972-43cb-b140-b4df47c0177b/download
https://bibliotecadigital.udea.edu.co/bitstreams/9a4c49d7-1ddf-4532-bbb3-e1a4746f7fd1/download
https://bibliotecadigital.udea.edu.co/bitstreams/aceba98f-cedb-4b42-9b60-5e6e0532cb8e/download
bitstream.checksum.fl_str_mv 70830db1697dc9f7bd74823a48a894e6
fd0548b8694973befb689f3e7a707f1d
8a4605be74aa9ea9d79846c1fba20a33
8db6c178d17e7af8f0ea4cd6fa213263
05ca89e3be0c0b5b97b4ee1a0fc12e21
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052649213853696
spelling Sanes Negrete, SergioRestrepo Gutiérrez, Katherine2022-06-28T15:22:21Z2022-06-28T15:22:21Z2022http://hdl.handle.net/10495/29418RESUMEN: El objetivo de este trabajo es predecir la supervivencia del cáncer de mama aplicando modelos de clasificación, para el desarrollo de este objetivo se utiliza la base de datos del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama (METABRIC), que contiene datos de 1.904 pacientes con atributos clínicos y 331 genes con niveles de puntuación z de ARNm y mutación de 175 genes, la base de datos está disponible en la plataforma de Kaggle publicado por RAGHAD ALHARBI. Para este trabajo se modela la supervivencia del cáncer de mama como un problema de clasificación binaria utilizando modelos de aprendizaje estadístico supervisado como es la regresión logística, árbol de clasificación, random forest y Gradient boosting. En un primer experimento, se utilizaron únicamente datos clínicos como variables explicativas. Como primer resultado se obtiene que la regresión logística es el mejor modelo. En un segundo experimento, se realiza una modelación incluyendo datos clínicos y parte de las variables de expresión genética, lo que aumenta la dimensión de variables explicativas a 6.271, debido a esto, se aplica una técnica de reducción de dimensionalidad por análisis de componentes principales. El mejor modelo nuevamente es la regresión logística, pero el resultado se encuentra por debajo del primer modelo. Finalmente se realiza un tercer experimento o iteración que busca mejorar el resultado de la segunda modelación, en esta última se incluyen las mismas variables clínicas y algunas variables genéticas que por estudios las han clasificado como principales factores de riesgo en el desarrollo de este tipo de cáncer. El mejor modelo continúa siendo la regresión logística y el resultado mejora respecto a los modelos anteriores. Como conclusión, se puede evidenciar que el mejor desempeño se logra en el tercer experimento con el modelo de Regresión Logística, Accuracy de 84%, f1-score de 82% cuando se predice la muerte y f1-score del 85% en la predicción de la supervivencia del paciente.EspecializaciónEspecialista en Analítica y Ciencia de Datos35application/pdfspaUniversidad de AntioquiaMedellín - ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttps://creativecommons.org/licenses/by-nc-sa/4.0/http://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificaciónTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftEsperanza de VidaNeoplasias de la MamaTécnicas de predicciónAnálisis de regresiónhttps://github.com/katherine2022Udea/TesisEspecializacionPublicationORIGINALRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdfRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdfapplication/pdf1071231https://bibliotecadigital.udea.edu.co/bitstreams/8e2e550e-02c1-48cd-a742-3e6d6fb8ff86/download70830db1697dc9f7bd74823a48a894e6MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8712https://bibliotecadigital.udea.edu.co/bitstreams/cf52d3bf-b7a2-48eb-8164-e2f9a9bbe1b4/downloadfd0548b8694973befb689f3e7a707f1dMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/25b93552-9972-43cb-b140-b4df47c0177b/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTEXTRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf.txtRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf.txtExtracted texttext/plain68987https://bibliotecadigital.udea.edu.co/bitstreams/9a4c49d7-1ddf-4532-bbb3-e1a4746f7fd1/download8db6c178d17e7af8f0ea4cd6fa213263MD54falseAnonymousREADTHUMBNAILRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf.jpgRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf.jpgGenerated Thumbnailimage/jpeg6984https://bibliotecadigital.udea.edu.co/bitstreams/aceba98f-cedb-4b42-9b60-5e6e0532cb8e/download05ca89e3be0c0b5b97b4ee1a0fc12e21MD55falseAnonymousREAD10495/29418oai:bibliotecadigital.udea.edu.co:10495/294182025-03-27 01:38:21.755https://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=