Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación
RESUMEN: El objetivo de este trabajo es predecir la supervivencia del cáncer de mama aplicando modelos de clasificación, para el desarrollo de este objetivo se utiliza la base de datos del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama (METABRIC), que contiene datos de 1.904 pacie...
- Autores:
-
Restrepo Gutiérrez, Katherine
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2022
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/29418
- Acceso en línea:
- http://hdl.handle.net/10495/29418
- Palabra clave:
- Esperanza de Vida
Neoplasias de la Mama
Técnicas de predicción
Análisis de regresión
- Rights
- openAccess
- License
- https://creativecommons.org/licenses/by-nc-sa/4.0/
| id |
UDEA2_3fcd424b0fe673b3ced70720fbc706df |
|---|---|
| oai_identifier_str |
oai:bibliotecadigital.udea.edu.co:10495/29418 |
| network_acronym_str |
UDEA2 |
| network_name_str |
Repositorio UdeA |
| repository_id_str |
|
| dc.title.spa.fl_str_mv |
Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación |
| title |
Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación |
| spellingShingle |
Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación Esperanza de Vida Neoplasias de la Mama Técnicas de predicción Análisis de regresión |
| title_short |
Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación |
| title_full |
Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación |
| title_fullStr |
Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación |
| title_full_unstemmed |
Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación |
| title_sort |
Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificación |
| dc.creator.fl_str_mv |
Restrepo Gutiérrez, Katherine |
| dc.contributor.advisor.none.fl_str_mv |
Sanes Negrete, Sergio |
| dc.contributor.author.none.fl_str_mv |
Restrepo Gutiérrez, Katherine |
| dc.subject.decs.none.fl_str_mv |
Esperanza de Vida Neoplasias de la Mama |
| topic |
Esperanza de Vida Neoplasias de la Mama Técnicas de predicción Análisis de regresión |
| dc.subject.lemb.none.fl_str_mv |
Técnicas de predicción Análisis de regresión |
| description |
RESUMEN: El objetivo de este trabajo es predecir la supervivencia del cáncer de mama aplicando modelos de clasificación, para el desarrollo de este objetivo se utiliza la base de datos del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama (METABRIC), que contiene datos de 1.904 pacientes con atributos clínicos y 331 genes con niveles de puntuación z de ARNm y mutación de 175 genes, la base de datos está disponible en la plataforma de Kaggle publicado por RAGHAD ALHARBI. Para este trabajo se modela la supervivencia del cáncer de mama como un problema de clasificación binaria utilizando modelos de aprendizaje estadístico supervisado como es la regresión logística, árbol de clasificación, random forest y Gradient boosting. En un primer experimento, se utilizaron únicamente datos clínicos como variables explicativas. Como primer resultado se obtiene que la regresión logística es el mejor modelo. En un segundo experimento, se realiza una modelación incluyendo datos clínicos y parte de las variables de expresión genética, lo que aumenta la dimensión de variables explicativas a 6.271, debido a esto, se aplica una técnica de reducción de dimensionalidad por análisis de componentes principales. El mejor modelo nuevamente es la regresión logística, pero el resultado se encuentra por debajo del primer modelo. Finalmente se realiza un tercer experimento o iteración que busca mejorar el resultado de la segunda modelación, en esta última se incluyen las mismas variables clínicas y algunas variables genéticas que por estudios las han clasificado como principales factores de riesgo en el desarrollo de este tipo de cáncer. El mejor modelo continúa siendo la regresión logística y el resultado mejora respecto a los modelos anteriores. Como conclusión, se puede evidenciar que el mejor desempeño se logra en el tercer experimento con el modelo de Regresión Logística, Accuracy de 84%, f1-score de 82% cuando se predice la muerte y f1-score del 85% en la predicción de la supervivencia del paciente. |
| publishDate |
2022 |
| dc.date.accessioned.none.fl_str_mv |
2022-06-28T15:22:21Z |
| dc.date.available.none.fl_str_mv |
2022-06-28T15:22:21Z |
| dc.date.issued.none.fl_str_mv |
2022 |
| dc.type.spa.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Especialización |
| dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_46ec |
| dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/COther |
| dc.type.coarversion.spa.fl_str_mv |
http://purl.org/coar/version/c_b1a7d7d4d402bcce |
| dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/other |
| dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/draft |
| format |
http://purl.org/coar/resource_type/c_46ec |
| status_str |
draft |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/10495/29418 |
| url |
http://hdl.handle.net/10495/29418 |
| dc.language.iso.spa.fl_str_mv |
spa |
| language |
spa |
| dc.relation.issupplementedby.spa.fl_str_mv |
https://github.com/katherine2022Udea/TesisEspecializacion |
| dc.rights.uri.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/publicdomain/zero/1.0/ |
| dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
| rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ http://creativecommons.org/publicdomain/zero/1.0/ http://purl.org/coar/access_right/c_abf2 |
| eu_rights_str_mv |
openAccess |
| dc.format.extent.spa.fl_str_mv |
35 |
| dc.format.mimetype.spa.fl_str_mv |
application/pdf |
| dc.publisher.spa.fl_str_mv |
Universidad de Antioquia |
| dc.publisher.place.spa.fl_str_mv |
Medellín - Colombia |
| dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos |
| institution |
Universidad de Antioquia |
| bitstream.url.fl_str_mv |
https://bibliotecadigital.udea.edu.co/bitstreams/8e2e550e-02c1-48cd-a742-3e6d6fb8ff86/download https://bibliotecadigital.udea.edu.co/bitstreams/cf52d3bf-b7a2-48eb-8164-e2f9a9bbe1b4/download https://bibliotecadigital.udea.edu.co/bitstreams/25b93552-9972-43cb-b140-b4df47c0177b/download https://bibliotecadigital.udea.edu.co/bitstreams/9a4c49d7-1ddf-4532-bbb3-e1a4746f7fd1/download https://bibliotecadigital.udea.edu.co/bitstreams/aceba98f-cedb-4b42-9b60-5e6e0532cb8e/download |
| bitstream.checksum.fl_str_mv |
70830db1697dc9f7bd74823a48a894e6 fd0548b8694973befb689f3e7a707f1d 8a4605be74aa9ea9d79846c1fba20a33 8db6c178d17e7af8f0ea4cd6fa213263 05ca89e3be0c0b5b97b4ee1a0fc12e21 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional de la Universidad de Antioquia |
| repository.mail.fl_str_mv |
aplicacionbibliotecadigitalbiblioteca@udea.edu.co |
| _version_ |
1851052649213853696 |
| spelling |
Sanes Negrete, SergioRestrepo Gutiérrez, Katherine2022-06-28T15:22:21Z2022-06-28T15:22:21Z2022http://hdl.handle.net/10495/29418RESUMEN: El objetivo de este trabajo es predecir la supervivencia del cáncer de mama aplicando modelos de clasificación, para el desarrollo de este objetivo se utiliza la base de datos del Consorcio Internacional de Taxonomía Molecular del Cáncer de Mama (METABRIC), que contiene datos de 1.904 pacientes con atributos clínicos y 331 genes con niveles de puntuación z de ARNm y mutación de 175 genes, la base de datos está disponible en la plataforma de Kaggle publicado por RAGHAD ALHARBI. Para este trabajo se modela la supervivencia del cáncer de mama como un problema de clasificación binaria utilizando modelos de aprendizaje estadístico supervisado como es la regresión logística, árbol de clasificación, random forest y Gradient boosting. En un primer experimento, se utilizaron únicamente datos clínicos como variables explicativas. Como primer resultado se obtiene que la regresión logística es el mejor modelo. En un segundo experimento, se realiza una modelación incluyendo datos clínicos y parte de las variables de expresión genética, lo que aumenta la dimensión de variables explicativas a 6.271, debido a esto, se aplica una técnica de reducción de dimensionalidad por análisis de componentes principales. El mejor modelo nuevamente es la regresión logística, pero el resultado se encuentra por debajo del primer modelo. Finalmente se realiza un tercer experimento o iteración que busca mejorar el resultado de la segunda modelación, en esta última se incluyen las mismas variables clínicas y algunas variables genéticas que por estudios las han clasificado como principales factores de riesgo en el desarrollo de este tipo de cáncer. El mejor modelo continúa siendo la regresión logística y el resultado mejora respecto a los modelos anteriores. Como conclusión, se puede evidenciar que el mejor desempeño se logra en el tercer experimento con el modelo de Regresión Logística, Accuracy de 84%, f1-score de 82% cuando se predice la muerte y f1-score del 85% en la predicción de la supervivencia del paciente.EspecializaciónEspecialista en Analítica y Ciencia de Datos35application/pdfspaUniversidad de AntioquiaMedellín - ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttps://creativecommons.org/licenses/by-nc-sa/4.0/http://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Predicción de supervivencia en pacientes con cáncer de mama utilizando modelos de clasificaciónTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftEsperanza de VidaNeoplasias de la MamaTécnicas de predicciónAnálisis de regresiónhttps://github.com/katherine2022Udea/TesisEspecializacionPublicationORIGINALRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdfRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdfapplication/pdf1071231https://bibliotecadigital.udea.edu.co/bitstreams/8e2e550e-02c1-48cd-a742-3e6d6fb8ff86/download70830db1697dc9f7bd74823a48a894e6MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8712https://bibliotecadigital.udea.edu.co/bitstreams/cf52d3bf-b7a2-48eb-8164-e2f9a9bbe1b4/downloadfd0548b8694973befb689f3e7a707f1dMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/25b93552-9972-43cb-b140-b4df47c0177b/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTEXTRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf.txtRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf.txtExtracted texttext/plain68987https://bibliotecadigital.udea.edu.co/bitstreams/9a4c49d7-1ddf-4532-bbb3-e1a4746f7fd1/download8db6c178d17e7af8f0ea4cd6fa213263MD54falseAnonymousREADTHUMBNAILRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf.jpgRestrepoKatherine_2022_PredicciónSupervivienciaCáncer.pdf.jpgGenerated Thumbnailimage/jpeg6984https://bibliotecadigital.udea.edu.co/bitstreams/aceba98f-cedb-4b42-9b60-5e6e0532cb8e/download05ca89e3be0c0b5b97b4ee1a0fc12e21MD55falseAnonymousREAD10495/29418oai:bibliotecadigital.udea.edu.co:10495/294182025-03-27 01:38:21.755https://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
