Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes

RESUMEN : El presente trabajo aborda el desarrollo de un modelo de analítica para el procesamiento natural del lenguaje, más específicamente la clasificación multiclase para los comentarios de películas extraídas de la plataforma de reseñas Rotten Tomatoes. La importancia de este tipo de algoritmos,...

Full description

Autores:
García Patiño, Carolina
Tipo de recurso:
Tesis
Fecha de publicación:
2021
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/24705
Acceso en línea:
http://hdl.handle.net/10495/24705
Palabra clave:
Aprendizaje automático (inteligencia artificial)
Machine learning
Lingüística computacional
Computational linguistics
Lexicografía-procesamiento de datos
Lexicography Data processing
Análisis de sentimiento
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
id UDEA2_aa3034f19b98d5fc953e99cef5296f4a
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/24705
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
spellingShingle Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
Aprendizaje automático (inteligencia artificial)
Machine learning
Lingüística computacional
Computational linguistics
Lexicografía-procesamiento de datos
Lexicography Data processing
Análisis de sentimiento
title_short Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title_full Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title_fullStr Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title_full_unstemmed Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
title_sort Análisis del sentimiento del lenguaje en comentarios de películas de Rotten Tomatoes
dc.creator.fl_str_mv García Patiño, Carolina
dc.contributor.advisor.none.fl_str_mv Botia Valderrama, Javier Fernando
dc.contributor.author.none.fl_str_mv García Patiño, Carolina
dc.subject.lemb.none.fl_str_mv Aprendizaje automático (inteligencia artificial)
Machine learning
Lingüística computacional
Computational linguistics
Lexicografía-procesamiento de datos
Lexicography Data processing
topic Aprendizaje automático (inteligencia artificial)
Machine learning
Lingüística computacional
Computational linguistics
Lexicografía-procesamiento de datos
Lexicography Data processing
Análisis de sentimiento
dc.subject.proposal.spa.fl_str_mv Análisis de sentimiento
description RESUMEN : El presente trabajo aborda el desarrollo de un modelo de analítica para el procesamiento natural del lenguaje, más específicamente la clasificación multiclase para los comentarios de películas extraídas de la plataforma de reseñas Rotten Tomatoes. La importancia de este tipo de algoritmos, reside en el conocimiento de la expectativa y experiencia de los usuarios frente al consumo de un bien o servicio. Esto genera una migración de los modelos tradicionales de evaluación de satisfacción del cliente, donde se otorgan puntuaciones en escalas cualitativas, hacia una retroalimentación personal y detallada frente a su experiencia. El dataset inicial consta de 156.060 comentarios en inglés con clases desbalanceadas, adicional, como se menciona en la descripción en la página de competición Kaggle (Kaggle, 2014) presenta particulares obstáculos frente al sarcasmo, ambigüedad en el lenguaje y la brevedad en las reseñas. Se plantea abordar el problema con la metodología planteada para procesamiento del lenguaje en una revisión de la literatura por Jain et al. (2021), la cual abarca, en el marco del procesamiento de los datos, tokenización, remoción de stopwords y lematización sobre el remanente de palabras. Posteriormente durante la extracción de características, se usan dos tipos de metodologías, seleccionadas de acuerdo con el tipo de modelo aplicado, para los modelos denominados como soft clasiffier se aplica la vectorización del vocabulario a través de un Term Frecuency Inverse Document Frecuency (TF-IDF), mientras que para el modelo de Deep Learning se aplica una red tipo Embedding. Como resultados generales, se obtiene un modelo con un accuracy del 73.02% y una tasa de F1-Score Micro y Macro del 73.01% y 72.11% respectivamente.
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-12-09T18:38:54Z
dc.date.available.none.fl_str_mv 2021-12-09T18:38:54Z
dc.date.issued.none.fl_str_mv 2021
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10495/24705
url http://hdl.handle.net/10495/24705
dc.language.iso.spa.fl_str_mv spa
language spa
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
https://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 23
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/0b8bb9c5-08e7-4de5-91fb-5d05793a6fdd/download
https://bibliotecadigital.udea.edu.co/bitstreams/6aca8762-26ee-415a-ba87-0eadd3f91b1d/download
https://bibliotecadigital.udea.edu.co/bitstreams/baa615e5-7b97-4319-aa7e-723c7a3a6e24/download
https://bibliotecadigital.udea.edu.co/bitstreams/fde1f204-a98c-4635-8ab6-a4f7000c5009/download
https://bibliotecadigital.udea.edu.co/bitstreams/8bc1b9ca-fc69-496a-94ea-4afeb938452f/download
bitstream.checksum.fl_str_mv b494ff5b2e51fc94654ad90132768fe8
e2060682c9c70d4d30c83c51448f4eed
8a4605be74aa9ea9d79846c1fba20a33
492f5762813501ddefc8ecb524eac19e
89800770cc2a4b5d728353c92c126df6
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052551497056256
spelling Botia Valderrama, Javier FernandoGarcía Patiño, Carolina2021-12-09T18:38:54Z2021-12-09T18:38:54Z2021http://hdl.handle.net/10495/24705RESUMEN : El presente trabajo aborda el desarrollo de un modelo de analítica para el procesamiento natural del lenguaje, más específicamente la clasificación multiclase para los comentarios de películas extraídas de la plataforma de reseñas Rotten Tomatoes. La importancia de este tipo de algoritmos, reside en el conocimiento de la expectativa y experiencia de los usuarios frente al consumo de un bien o servicio. Esto genera una migración de los modelos tradicionales de evaluación de satisfacción del cliente, donde se otorgan puntuaciones en escalas cualitativas, hacia una retroalimentación personal y detallada frente a su experiencia. El dataset inicial consta de 156.060 comentarios en inglés con clases desbalanceadas, adicional, como se menciona en la descripción en la página de competición Kaggle (Kaggle, 2014) presenta particulares obstáculos frente al sarcasmo, ambigüedad en el lenguaje y la brevedad en las reseñas. Se plantea abordar el problema con la metodología planteada para procesamiento del lenguaje en una revisión de la literatura por Jain et al. (2021), la cual abarca, en el marco del procesamiento de los datos, tokenización, remoción de stopwords y lematización sobre el remanente de palabras. Posteriormente durante la extracción de características, se usan dos tipos de metodologías, seleccionadas de acuerdo con el tipo de modelo aplicado, para los modelos denominados como soft clasiffier se aplica la vectorización del vocabulario a través de un Term Frecuency Inverse Document Frecuency (TF-IDF), mientras que para el modelo de Deep Learning se aplica una red tipo Embedding. Como resultados generales, se obtiene un modelo con un accuracy del 73.02% y una tasa de F1-Score Micro y Macro del 73.01% y 72.11% respectivamente.EspecializaciónEspecialista en Analítica y Ciencia de Datos23application/pdfspaUniversidad de AntioquiaMedellínFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Análisis del sentimiento del lenguaje en comentarios de películas de Rotten TomatoesTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftAprendizaje automático (inteligencia artificial)Machine learningLingüística computacionalComputational linguisticsLexicografía-procesamiento de datosLexicography Data processingAnálisis de sentimientoPublicationORIGINALGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdfGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdfTrabajo de grado de especializaciónapplication/pdf920776https://bibliotecadigital.udea.edu.co/bitstreams/0b8bb9c5-08e7-4de5-91fb-5d05793a6fdd/downloadb494ff5b2e51fc94654ad90132768fe8MD54trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstreams/6aca8762-26ee-415a-ba87-0eadd3f91b1d/downloade2060682c9c70d4d30c83c51448f4eedMD55falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/baa615e5-7b97-4319-aa7e-723c7a3a6e24/download8a4605be74aa9ea9d79846c1fba20a33MD56falseAnonymousREADTEXTGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdf.txtGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdf.txtExtracted texttext/plain40483https://bibliotecadigital.udea.edu.co/bitstreams/fde1f204-a98c-4635-8ab6-a4f7000c5009/download492f5762813501ddefc8ecb524eac19eMD57falseAnonymousREADTHUMBNAILGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdf.jpgGarcíaCarolina_2021_AnálisisSentimientoLenguaje.pdf.jpgGenerated Thumbnailimage/jpeg6605https://bibliotecadigital.udea.edu.co/bitstreams/8bc1b9ca-fc69-496a-94ea-4afeb938452f/download89800770cc2a4b5d728353c92c126df6MD58falseAnonymousREAD10495/24705oai:bibliotecadigital.udea.edu.co:10495/247052025-03-27 00:12:04.592http://creativecommons.org/licenses/by-nc-sa/2.5/co/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=