Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria

RESUMEN : La comunicación mediante plataformas digitales es una práctica común en las empresas donde se tiene una gran cantidad de personal y donde todos los colaboradores podrían estar distanciados geográficamente. Plataformas como Microsoft Teams ofrecen servicios para la comunicación interna en u...

Full description

Autores:
Orbes Cabrera, Camilo
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2025
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/44870
Acceso en línea:
https://hdl.handle.net/10495/44870
Palabra clave:
Procesamiento de lenguaje natural
Natural Language Processing
Clasificación (computadores electrónicos)
Sorting (electronic computers)
Algoritmos (computadores)
Computer algorithms
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-nd/4.0/
id UDEA2_5b2a4ed0b2362703a098c9e206410e48
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/44870
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria
title Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria
spellingShingle Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria
Procesamiento de lenguaje natural
Natural Language Processing
Clasificación (computadores electrónicos)
Sorting (electronic computers)
Algoritmos (computadores)
Computer algorithms
title_short Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria
title_full Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria
title_fullStr Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria
title_full_unstemmed Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria
title_sort Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industria
dc.creator.fl_str_mv Orbes Cabrera, Camilo
dc.contributor.advisor.none.fl_str_mv Escobar Grisales, Daniel
dc.contributor.author.none.fl_str_mv Orbes Cabrera, Camilo
dc.subject.decs.none.fl_str_mv Procesamiento de lenguaje natural
Natural Language Processing
topic Procesamiento de lenguaje natural
Natural Language Processing
Clasificación (computadores electrónicos)
Sorting (electronic computers)
Algoritmos (computadores)
Computer algorithms
dc.subject.lemb.none.fl_str_mv Clasificación (computadores electrónicos)
Sorting (electronic computers)
Algoritmos (computadores)
Computer algorithms
description RESUMEN : La comunicación mediante plataformas digitales es una práctica común en las empresas donde se tiene una gran cantidad de personal y donde todos los colaboradores podrían estar distanciados geográficamente. Plataformas como Microsoft Teams ofrecen servicios para la comunicación interna en una empresa, pero estos servicios tienen un costo asociado. En la empresa Bancolombia se ha evidenciado un sobrecosto respecto al intercambio de mensajes fuera del límite contratado. Dentro de los diferentes análisis realizados internamente en el banco, se ha evidenciado que muchos de los mensajes que se intercambian no tienen un contenido laboral. En este trabajo se proponen y comparan diversas metodologías para identificar aquellos mensajes que no tienen un contenido laboral. Los resultados indican que los enfoques basados en boosting de gradiente extremo (XGBoost, del inglés Xtreme Gradient Boosting), y bosques aleatorios (RF del inglés, Random Forest) logran obtener desempeños de hasta 99%, especialmente cuando la representación del texto es obtenida mediante caracterizaciones basadas en la frecuencia de términos, como la técnica de frecuencia de término – frecuencia inversa de documento (TF-IDF, del inglés Term Frequency-Inverse Document Frequency). También se consideraron estrategias más recientes, como Word2Vec, pero su desempeño fue menor, aunque su eficiencia computacional fue mayor. Finalmente, estos análisis fueron integrados los resultados en un tablero en Power Bi, con el fin de visualizar los resultados, facilitando el análisis de los flujos de mensajes en las diferentes áreas de la organización y las métricas de clasificación de los modelos.
publishDate 2025
dc.date.accessioned.none.fl_str_mv 2025-02-13T19:03:48Z
dc.date.available.none.fl_str_mv 2025-02-13T19:03:48Z
dc.date.issued.none.fl_str_mv 2025
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Pregrado
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.redcol.spa.fl_str_mv https://purl.org/redcol/resource_type/TP
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_7a1f
status_str draft
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/10495/44870
url https://hdl.handle.net/10495/44870
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/4.0/
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 38 páginas
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín, Colombia
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Ingeniería Electrónica
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/57ad679a-fb83-4891-9d64-2da341ba1d5d/download
https://bibliotecadigital.udea.edu.co/bitstreams/60090a44-6536-49f3-bfaf-7a09f63c9da9/download
https://bibliotecadigital.udea.edu.co/bitstreams/4eb62349-dfa1-4078-966f-0ad0b8e1e817/download
https://bibliotecadigital.udea.edu.co/bitstreams/06396b9f-6921-4008-a73b-b9226f68082a/download
https://bibliotecadigital.udea.edu.co/bitstreams/da31d3e5-b1de-4e67-94fe-58b67e5ea2fd/download
bitstream.checksum.fl_str_mv 42f2658a1aad5e06d350a4ad58f2b65b
b88b088d9957e670ce3b3fbe2eedbc13
8a4605be74aa9ea9d79846c1fba20a33
5b391982daf8bacc85aed1d27790c69f
272b384ff27563ce7c7fb16760a83bf9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052199179714560
spelling Escobar Grisales, DanielOrbes Cabrera, Camilo2025-02-13T19:03:48Z2025-02-13T19:03:48Z2025https://hdl.handle.net/10495/44870RESUMEN : La comunicación mediante plataformas digitales es una práctica común en las empresas donde se tiene una gran cantidad de personal y donde todos los colaboradores podrían estar distanciados geográficamente. Plataformas como Microsoft Teams ofrecen servicios para la comunicación interna en una empresa, pero estos servicios tienen un costo asociado. En la empresa Bancolombia se ha evidenciado un sobrecosto respecto al intercambio de mensajes fuera del límite contratado. Dentro de los diferentes análisis realizados internamente en el banco, se ha evidenciado que muchos de los mensajes que se intercambian no tienen un contenido laboral. En este trabajo se proponen y comparan diversas metodologías para identificar aquellos mensajes que no tienen un contenido laboral. Los resultados indican que los enfoques basados en boosting de gradiente extremo (XGBoost, del inglés Xtreme Gradient Boosting), y bosques aleatorios (RF del inglés, Random Forest) logran obtener desempeños de hasta 99%, especialmente cuando la representación del texto es obtenida mediante caracterizaciones basadas en la frecuencia de términos, como la técnica de frecuencia de término – frecuencia inversa de documento (TF-IDF, del inglés Term Frequency-Inverse Document Frequency). También se consideraron estrategias más recientes, como Word2Vec, pero su desempeño fue menor, aunque su eficiencia computacional fue mayor. Finalmente, estos análisis fueron integrados los resultados en un tablero en Power Bi, con el fin de visualizar los resultados, facilitando el análisis de los flujos de mensajes en las diferentes áreas de la organización y las métricas de clasificación de los modelos.PregradoIngeniero Electrónico38 páginasapplication/pdfspaUniversidad de AntioquiaMedellín, ColombiaFacultad de Ingeniería. Ingeniería Electrónicahttps://creativecommons.org/licenses/by-nc-nd/4.0/http://creativecommons.org/licenses/by-nc-nd/2.5/co/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Modelo analítico para clasificación de mensajes laborales usando NLP. Semestre de industriaTesis/Trabajo de grado - Monografía - Pregradohttp://purl.org/coar/resource_type/c_7a1fhttps://purl.org/redcol/resource_type/TPhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/draftProcesamiento de lenguaje naturalNatural Language ProcessingClasificación (computadores electrónicos)Sorting (electronic computers)Algoritmos (computadores)Computer algorithmsPublicationORIGINALOrbesCamilo_2025_ModeloClasificaciónChats.pdfOrbesCamilo_2025_ModeloClasificaciónChats.pdfTrabajo de grado de pregradoapplication/pdf2149672https://bibliotecadigital.udea.edu.co/bitstreams/57ad679a-fb83-4891-9d64-2da341ba1d5d/download42f2658a1aad5e06d350a4ad58f2b65bMD55trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8823https://bibliotecadigital.udea.edu.co/bitstreams/60090a44-6536-49f3-bfaf-7a09f63c9da9/downloadb88b088d9957e670ce3b3fbe2eedbc13MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/4eb62349-dfa1-4078-966f-0ad0b8e1e817/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTEXTOrbesCamilo_2025_ModeloClasificaciónChats.pdf.txtOrbesCamilo_2025_ModeloClasificaciónChats.pdf.txtExtracted texttext/plain62594https://bibliotecadigital.udea.edu.co/bitstreams/06396b9f-6921-4008-a73b-b9226f68082a/download5b391982daf8bacc85aed1d27790c69fMD56falseAnonymousREADTHUMBNAILOrbesCamilo_2025_ModeloClasificaciónChats.pdf.jpgOrbesCamilo_2025_ModeloClasificaciónChats.pdf.jpgGenerated Thumbnailimage/jpeg6063https://bibliotecadigital.udea.edu.co/bitstreams/da31d3e5-b1de-4e67-94fe-58b67e5ea2fd/download272b384ff27563ce7c7fb16760a83bf9MD57falseAnonymousREAD10495/44870oai:bibliotecadigital.udea.edu.co:10495/448702025-03-26 18:30:01.876https://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=