Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes

RESUMEN : El presente trabajo aborda el desarrollo de un modelo de analítica para el procesamiento natural del lenguaje, más específicamente la clasificación multiclase para los comentarios de películas extraídas de la plataforma de reseñas Rotten Tomatoes. La importancia de este tipo de algoritmos,...

Full description

Autores:: García Patiño, Carolina

Tipo de recurso:: Tesis

Fecha de publicación:: 2021

Institución:: Universidad de Antioquia

Repositorio:: Repositorio UdeA

Idioma:: spa

id	UDEA2_aa3034f19b98d5fc953e99cef5296f4a
oai_identifier_str	oai:bibliotecadigital.udea.edu.co:10495/24705
network_acronym_str	UDEA2
network_name_str	Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv	Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title	Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
spellingShingle	Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes Aprendizaje automático (inteligencia artificial) Machine learning Lingüística computacional Computational linguistics Lexicografía-procesamiento de datos Lexicography Data processing Análisis de sentimiento
title_short	Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title_full	Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title_fullStr	Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title_full_unstemmed	Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title_sort	Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
dc.creator.fl_str_mv	García Patiño, Carolina
dc.contributor.advisor.none.fl_str_mv	Botia Valderrama, Javier Fernando
dc.contributor.author.none.fl_str_mv	García Patiño, Carolina
dc.subject.lemb.none.fl_str_mv	Aprendizaje automático (inteligencia artificial) Machine learning Lingüística computacional Computational linguistics Lexicografía-procesamiento de datos Lexicography Data processing
topic	Aprendizaje automático (inteligencia artificial) Machine learning Lingüística computacional Computational linguistics Lexicografía-procesamiento de datos Lexicography Data processing Análisis de sentimiento
dc.subject.proposal.spa.fl_str_mv	Análisis de sentimiento
description	RESUMEN : El presente trabajo aborda el desarrollo de un modelo de analítica para el procesamiento natural del lenguaje, más específicamente la clasificación multiclase para los comentarios de películas extraídas de la plataforma de reseñas Rotten Tomatoes. La importancia de este tipo de algoritmos, reside en el conocimiento de la expectativa y experiencia de los usuarios frente al consumo de un bien o servicio. Esto genera una migración de los modelos tradicionales de evaluación de satisfacción del cliente, donde se otorgan puntuaciones en escalas cualitativas, hacia una retroalimentación personal y detallada frente a su experiencia. El dataset inicial consta de 156.060 comentarios en inglés con clases desbalanceadas, adicional, como se menciona en la descripción en la página de competición Kaggle (Kaggle, 2014) presenta particulares obstáculos frente al sarcasmo, ambigüedad en el lenguaje y la brevedad en las reseñas. Se plantea abordar el problema con la metodología planteada para procesamiento del lenguaje en una revisión de la literatura por Jain et al. (2021), la cual abarca, en el marco del procesamiento de los datos, tokenización, remoción de stopwords y lematización sobre el remanente de palabras. Posteriormente durante la extracción de características, se usan dos tipos de metodologías, seleccionadas de acuerdo con el tipo de modelo aplicado, para los modelos denominados como soft clasiffier se aplica la vectorización del vocabulario a través de un Term Frecuency Inverse Document Frecuency (TF-IDF), mientras que para el modelo de Deep Learning se aplica una red tipo Embedding. Como resultados generales, se obtiene un modelo con un accuracy del 73.02% y una tasa de F1-Score Micro y Macro del 73.01% y 72.11% respectivamente.
publishDate	2021
dc.date.accessioned.none.fl_str_mv	2021-12-09T18:38:54Z
dc.date.available.none.fl_str_mv	2021-12-09T18:38:54Z
dc.date.issued.none.fl_str_mv	2021
dc.type.spa.fl_str_mv	Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv	http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv	http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv	http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv	info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv	info:eu-repo/semantics/draft
format	http://purl.org/coar/resource_type/c_46ec
status_str	draft
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/10495/24705
url	http://hdl.handle.net/10495/24705
dc.language.iso.spa.fl_str_mv	spa
language	spa
dc.rights.uri.*.fl_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.uri.spa.fl_str_mv	https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv	http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/co/ https://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv	openAccess
dc.format.extent.spa.fl_str_mv	23
dc.format.mimetype.spa.fl_str_mv	application/pdf
dc.publisher.spa.fl_str_mv	Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv	Medellín
dc.publisher.faculty.spa.fl_str_mv	Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution	Universidad de Antioquia
bitstream.url.fl_str_mv	https://bibliotecadigital.udea.edu.co/bitstreams/0b8bb9c5-08e7-4de5-91fb-5d05793a6fdd/download https://bibliotecadigital.udea.edu.co/bitstreams/6aca8762-26ee-415a-ba87-0eadd3f91b1d/download https://bibliotecadigital.udea.edu.co/bitstreams/baa615e5-7b97-4319-aa7e-723c7a3a6e24/download https://bibliotecadigital.udea.edu.co/bitstreams/fde1f204-a98c-4635-8ab6-a4f7000c5009/download https://bibliotecadigital.udea.edu.co/bitstreams/8bc1b9ca-fc69-496a-94ea-4afeb938452f/download
bitstream.checksum.fl_str_mv	b494ff5b2e51fc94654ad90132768fe8 e2060682c9c70d4d30c83c51448f4eed 8a4605be74aa9ea9d79846c1fba20a33 492f5762813501ddefc8ecb524eac19e 89800770cc2a4b5d728353c92c126df6
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv	aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_	1851052551497056256
spelling	Botia Valderrama, Javier FernandoGarcía Patiño, Carolina2021-12-09T18:38:54Z2021-12-09T18:38:54Z2021http://hdl.handle.net/10495/24705RESUMEN : El presente trabajo aborda el desarrollo de un modelo de analítica para el procesamiento natural del lenguaje, más específicamente la clasificación multiclase para los comentarios de películas extraídas de la plataforma de reseñas Rotten Tomatoes. La importancia de este tipo de algoritmos, reside en el conocimiento de la expectativa y experiencia de los usuarios frente al consumo de un bien o servicio. Esto genera una migración de los modelos tradicionales de evaluación de satisfacción del cliente, donde se otorgan puntuaciones en escalas cualitativas, hacia una retroalimentación personal y detallada frente a su experiencia. El dataset inicial consta de 156.060 comentarios en inglés con clases desbalanceadas, adicional, como se menciona en la descripción en la página de competición Kaggle (Kaggle, 2014) presenta particulares obstáculos frente al sarcasmo, ambigüedad en el lenguaje y la brevedad en las reseñas. Se plantea abordar el problema con la metodología planteada para procesamiento del lenguaje en una revisión de la literatura por Jain et al. (2021), la cual abarca, en el marco del procesamiento de los datos, tokenización, remoción de stopwords y lematización sobre el remanente de palabras. Posteriormente durante la extracción de características, se usan dos tipos de metodologías, seleccionadas de acuerdo con el tipo de modelo aplicado, para los modelos denominados como soft clasiffier se aplica la vectorización del vocabulario a través de un Term Frecuency Inverse Document Frecuency (TF-IDF), mientras que para el modelo de Deep Learning se aplica una red tipo Embedding. Como resultados generales, se obtiene un modelo con un accuracy del 73.02% y una tasa de F1-Score Micro y Macro del 73.01% y 72.11% respectivamente.EspecializaciónEspecialista en Analítica y Ciencia de Datos23application/pdfspaUniversidad de AntioquiaMedellínFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Análisis del sentimiento del lenguaje en comentarios de películas de Rotten TomatoesTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftAprendizaje automático (inteligencia artificial)Machine learningLingüística computacionalComputational linguisticsLexicografía-procesamiento de datosLexicography Data processingAnálisis de sentimientoPublicationORIGINALGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdfGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdfTrabajo de grado de especializaciónapplication/pdf920776https://bibliotecadigital.udea.edu.co/bitstreams/0b8bb9c5-08e7-4de5-91fb-5d05793a6fdd/downloadb494ff5b2e51fc94654ad90132768fe8MD54trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstreams/6aca8762-26ee-415a-ba87-0eadd3f91b1d/downloade2060682c9c70d4d30c83c51448f4eedMD55falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/baa615e5-7b97-4319-aa7e-723c7a3a6e24/download8a4605be74aa9ea9d79846c1fba20a33MD56falseAnonymousREADTEXTGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdf.txtGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdf.txtExtracted texttext/plain40483https://bibliotecadigital.udea.edu.co/bitstreams/fde1f204-a98c-4635-8ab6-a4f7000c5009/download492f5762813501ddefc8ecb524eac19eMD57falseAnonymousREADTHUMBNAILGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdf.jpgGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdf.jpgGenerated Thumbnailimage/jpeg6605https://bibliotecadigital.udea.edu.co/bitstreams/8bc1b9ca-fc69-496a-94ea-4afeb938452f/download89800770cc2a4b5d728353c92c126df6MD58falseAnonymousREAD10495/24705oai:bibliotecadigital.udea.edu.co:10495/247052025-03-27 00:12:04.592http://creativecommons.org/licenses/by-nc-sa/2.5/co/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=

Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes

Publicaciones similares