Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias

RESUMEN : Hoy en día, en la era digital, los datos de las noticias digitales son la mina de oro de la opinión pública y de las tendencias emergentes en el tiempo. De este proyecto esperamos que surja una potente máquina analítica que nos permita explorar esta riqueza de datos para encontrar signific...

Full description

Autores:
Villada osorio, Juan Sebastián
España Chamorro, Christian Daniel
Tipo de recurso:
Tesis
Fecha de publicación:
2024
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
eng
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/40416
Acceso en línea:
https://hdl.handle.net/10495/40416
https://www.overleaf.com/read/whqfsgjjcqgy#40673d
Palabra clave:
Procesamiento de lenguaje natural
Natural Language Processing
Análisis de sentimientos
Sentiment Analysis
Análisis de datos
Data analysis
Opinión pública
Public opinion
Procesamiento de datos en tiempo real
Real-time data processing
http://vocabularies.unesco.org/thesaurus/concept2214
https://id.nlm.nih.gov/mesh/D009323
https://id.nlm.nih.gov/mesh/D000090042
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
id UDEA2_478ee0f6bd9727b89abd380624367629
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/40416
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
title Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
spellingShingle Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
Procesamiento de lenguaje natural
Natural Language Processing
Análisis de sentimientos
Sentiment Analysis
Análisis de datos
Data analysis
Opinión pública
Public opinion
Procesamiento de datos en tiempo real
Real-time data processing
http://vocabularies.unesco.org/thesaurus/concept2214
https://id.nlm.nih.gov/mesh/D009323
https://id.nlm.nih.gov/mesh/D000090042
title_short Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
title_full Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
title_fullStr Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
title_full_unstemmed Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
title_sort Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
dc.creator.fl_str_mv Villada osorio, Juan Sebastián
España Chamorro, Christian Daniel
dc.contributor.advisor.none.fl_str_mv Botía Valderrama, Javier Fernando
dc.contributor.author.none.fl_str_mv Villada osorio, Juan Sebastián
España Chamorro, Christian Daniel
dc.subject.decs.none.fl_str_mv Procesamiento de lenguaje natural
Natural Language Processing
Análisis de sentimientos
Sentiment Analysis
topic Procesamiento de lenguaje natural
Natural Language Processing
Análisis de sentimientos
Sentiment Analysis
Análisis de datos
Data analysis
Opinión pública
Public opinion
Procesamiento de datos en tiempo real
Real-time data processing
http://vocabularies.unesco.org/thesaurus/concept2214
https://id.nlm.nih.gov/mesh/D009323
https://id.nlm.nih.gov/mesh/D000090042
dc.subject.unesco.none.fl_str_mv Análisis de datos
Data analysis
dc.subject.lemb.none.fl_str_mv Opinión pública
Public opinion
Procesamiento de datos en tiempo real
Real-time data processing
dc.subject.unescouri.none.fl_str_mv http://vocabularies.unesco.org/thesaurus/concept2214
dc.subject.meshuri.none.fl_str_mv https://id.nlm.nih.gov/mesh/D009323
https://id.nlm.nih.gov/mesh/D000090042
description RESUMEN : Hoy en día, en la era digital, los datos de las noticias digitales son la mina de oro de la opinión pública y de las tendencias emergentes en el tiempo. De este proyecto esperamos que surja una potente máquina analítica que nos permita explorar esta riqueza de datos para encontrar significado dentro de ellos. Además del hecho de que queremos que esta herramienta evolucione a través de niveles más altos de sofisticación de la ciencia y el análisis de datos, la visión es que esta herramienta esté en progreso y se actualice continuamente para aprender y adaptarse a entornos cambiantes según sea necesario. Esta información puede tener un valor incalculable para empresas, investigadores y organismos gubernamentales, interesados en conocer mejor las opiniones del público en general sobre diversos temas de la sociedad actual. Se entrenaron desde cero cuatro modelos siguiendo la arquitectura de BERT, para la clasificación de noticias en positivas o negativas. El mejor modelo tuvo un accuracy de 72%, precisión de 80%, recall de 80%, F1 score de 80%, adicionalmente la grafica ROC muestra un 89% de probabilidades de que el modelo clasifique correctamente un ejemplo positivo de uno negativo.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-07-05T19:47:30Z
dc.date.available.none.fl_str_mv 2024-07-05T19:47:30Z
dc.date.issued.none.fl_str_mv 2024
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/10495/40416
dc.identifier.url.spa.fl_str_mv https://www.overleaf.com/read/whqfsgjjcqgy#40673d
url https://hdl.handle.net/10495/40416
https://www.overleaf.com/read/whqfsgjjcqgy#40673d
dc.language.iso.spa.fl_str_mv eng
language eng
dc.relation.issupplementedby.spa.fl_str_mv github.com/CDspana/Especializacion
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
https://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 20 páginas
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín, Colombia
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/7badfb3e-0dc6-4714-b6af-1c118646d359/download
https://bibliotecadigital.udea.edu.co/bitstreams/ab077121-08c0-4227-bf74-374b9dc78938/download
https://bibliotecadigital.udea.edu.co/bitstreams/7a3df43f-3cc7-4472-ac1a-014bcb206f6b/download
https://bibliotecadigital.udea.edu.co/bitstreams/c940867b-2db4-4368-9b75-640e77ea8ccb/download
https://bibliotecadigital.udea.edu.co/bitstreams/3f79a92d-6b3a-46c4-9e4d-9b8c81b5bab7/download
bitstream.checksum.fl_str_mv e2060682c9c70d4d30c83c51448f4eed
8a4605be74aa9ea9d79846c1fba20a33
78dd67b1d483824eb4b30502f0d62ed9
f06ec9063102d7c8dd238587d1393a58
ac8e419b399b77815db4c35ad67ce1e8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052487979565056
spelling Botía Valderrama, Javier FernandoVillada osorio, Juan SebastiánEspaña Chamorro, Christian Daniel2024-07-05T19:47:30Z2024-07-05T19:47:30Z2024https://hdl.handle.net/10495/40416https://www.overleaf.com/read/whqfsgjjcqgy#40673dRESUMEN : Hoy en día, en la era digital, los datos de las noticias digitales son la mina de oro de la opinión pública y de las tendencias emergentes en el tiempo. De este proyecto esperamos que surja una potente máquina analítica que nos permita explorar esta riqueza de datos para encontrar significado dentro de ellos. Además del hecho de que queremos que esta herramienta evolucione a través de niveles más altos de sofisticación de la ciencia y el análisis de datos, la visión es que esta herramienta esté en progreso y se actualice continuamente para aprender y adaptarse a entornos cambiantes según sea necesario. Esta información puede tener un valor incalculable para empresas, investigadores y organismos gubernamentales, interesados en conocer mejor las opiniones del público en general sobre diversos temas de la sociedad actual. Se entrenaron desde cero cuatro modelos siguiendo la arquitectura de BERT, para la clasificación de noticias en positivas o negativas. El mejor modelo tuvo un accuracy de 72%, precisión de 80%, recall de 80%, F1 score de 80%, adicionalmente la grafica ROC muestra un 89% de probabilidades de que el modelo clasifique correctamente un ejemplo positivo de uno negativo.ABSTRACT : Today in digital era, digital news data is the gold mine of public opinion and time-emerging trend. Coming out of this project we expect a powerful analytical machine that will allow us to explore this wealth of data to find meaning within that data. Besides the fact that we want this tool to evolve across higher levels of sophistication of data science and analysis, the vision is that this tool is in progress and continuously updated to learn and adapt to changing environments as needed. This information can be invaluable to companies, researchers, and government agencies, as they are interested in learning more about the views of the general public on various issues in current society. Four models were trained from scratch following the BERT architecture for the classification of news into positive or negative. The best model obtained an accuracy of 72%, a precision of 80%, a recall of 80% and an F1 score of 80%. In addition, the ROC plot shows an 89% probability that the model correctly classifies a positive example from a negative one.EspecializaciónEspecialista en Analítica y Ciencia de Datos20 páginasapplication/pdfengUniversidad de AntioquiaMedellín, ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google NoticiasTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftProcesamiento de lenguaje naturalNatural Language ProcessingAnálisis de sentimientosSentiment AnalysisAnálisis de datosData analysisOpinión públicaPublic opinionProcesamiento de datos en tiempo realReal-time data processinghttp://vocabularies.unesco.org/thesaurus/concept2214https://id.nlm.nih.gov/mesh/D009323https://id.nlm.nih.gov/mesh/D000090042github.com/CDspana/EspecializacionPublicationCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstreams/7badfb3e-0dc6-4714-b6af-1c118646d359/downloade2060682c9c70d4d30c83c51448f4eedMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/ab077121-08c0-4227-bf74-374b9dc78938/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADORIGINALVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcionVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcionTrabajo de grado de especializaciónapplication/pdf755427https://bibliotecadigital.udea.edu.co/bitstreams/7a3df43f-3cc7-4472-ac1a-014bcb206f6b/download78dd67b1d483824eb4b30502f0d62ed9MD52trueAnonymousREADTEXTVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcion.txtVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcion.txtExtracted texttext/plain25029https://bibliotecadigital.udea.edu.co/bitstreams/c940867b-2db4-4368-9b75-640e77ea8ccb/downloadf06ec9063102d7c8dd238587d1393a58MD55falseAnonymousREADTHUMBNAILVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcion.jpgVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcion.jpgGenerated Thumbnailimage/jpeg6781https://bibliotecadigital.udea.edu.co/bitstreams/3f79a92d-6b3a-46c4-9e4d-9b8c81b5bab7/downloadac8e419b399b77815db4c35ad67ce1e8MD56falseAnonymousREAD10495/40416oai:bibliotecadigital.udea.edu.co:10495/404162025-03-26 23:08:08.927http://creativecommons.org/licenses/by-nc-sa/2.5/co/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=