Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias

RESUMEN : Hoy en día, en la era digital, los datos de las noticias digitales son la mina de oro de la opinión pública y de las tendencias emergentes en el tiempo. De este proyecto esperamos que surja una potente máquina analítica que nos permita explorar esta riqueza de datos para encontrar signific...

Full description

Autores:
Villada osorio, Juan Sebastián
España Chamorro, Christian Daniel
Tipo de recurso:
Tesis
Fecha de publicación:
2024
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
eng
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/40416
Acceso en línea:
https://hdl.handle.net/10495/40416
https://www.overleaf.com/read/whqfsgjjcqgy#40673d
Palabra clave:
Procesamiento de lenguaje natural
Natural Language Processing
Análisis de sentimientos
Sentiment Analysis
Análisis de datos
Data analysis
Opinión pública
Public opinion
Procesamiento de datos en tiempo real
Real-time data processing
http://vocabularies.unesco.org/thesaurus/concept2214
https://id.nlm.nih.gov/mesh/D009323
https://id.nlm.nih.gov/mesh/D000090042
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
Description
Summary:RESUMEN : Hoy en día, en la era digital, los datos de las noticias digitales son la mina de oro de la opinión pública y de las tendencias emergentes en el tiempo. De este proyecto esperamos que surja una potente máquina analítica que nos permita explorar esta riqueza de datos para encontrar significado dentro de ellos. Además del hecho de que queremos que esta herramienta evolucione a través de niveles más altos de sofisticación de la ciencia y el análisis de datos, la visión es que esta herramienta esté en progreso y se actualice continuamente para aprender y adaptarse a entornos cambiantes según sea necesario. Esta información puede tener un valor incalculable para empresas, investigadores y organismos gubernamentales, interesados en conocer mejor las opiniones del público en general sobre diversos temas de la sociedad actual. Se entrenaron desde cero cuatro modelos siguiendo la arquitectura de BERT, para la clasificación de noticias en positivas o negativas. El mejor modelo tuvo un accuracy de 72%, precisión de 80%, recall de 80%, F1 score de 80%, adicionalmente la grafica ROC muestra un 89% de probabilidades de que el modelo clasifique correctamente un ejemplo positivo de uno negativo.