Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias
RESUMEN : Hoy en día, en la era digital, los datos de las noticias digitales son la mina de oro de la opinión pública y de las tendencias emergentes en el tiempo. De este proyecto esperamos que surja una potente máquina analítica que nos permita explorar esta riqueza de datos para encontrar signific...
- Autores:
-
Villada osorio, Juan Sebastián
España Chamorro, Christian Daniel
- Tipo de recurso:
- Tesis
- Fecha de publicación:
- 2024
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- eng
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/40416
- Acceso en línea:
- https://hdl.handle.net/10495/40416
https://www.overleaf.com/read/whqfsgjjcqgy#40673d
- Palabra clave:
- Procesamiento de lenguaje natural
Natural Language Processing
Análisis de sentimientos
Sentiment Analysis
Análisis de datos
Data analysis
Opinión pública
Public opinion
Procesamiento de datos en tiempo real
Real-time data processing
http://vocabularies.unesco.org/thesaurus/concept2214
https://id.nlm.nih.gov/mesh/D009323
https://id.nlm.nih.gov/mesh/D000090042
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/2.5/co/
| id |
UDEA2_478ee0f6bd9727b89abd380624367629 |
|---|---|
| oai_identifier_str |
oai:bibliotecadigital.udea.edu.co:10495/40416 |
| network_acronym_str |
UDEA2 |
| network_name_str |
Repositorio UdeA |
| repository_id_str |
|
| dc.title.spa.fl_str_mv |
Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias |
| title |
Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias |
| spellingShingle |
Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias Procesamiento de lenguaje natural Natural Language Processing Análisis de sentimientos Sentiment Analysis Análisis de datos Data analysis Opinión pública Public opinion Procesamiento de datos en tiempo real Real-time data processing http://vocabularies.unesco.org/thesaurus/concept2214 https://id.nlm.nih.gov/mesh/D009323 https://id.nlm.nih.gov/mesh/D000090042 |
| title_short |
Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias |
| title_full |
Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias |
| title_fullStr |
Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias |
| title_full_unstemmed |
Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias |
| title_sort |
Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google Noticias |
| dc.creator.fl_str_mv |
Villada osorio, Juan Sebastián España Chamorro, Christian Daniel |
| dc.contributor.advisor.none.fl_str_mv |
Botía Valderrama, Javier Fernando |
| dc.contributor.author.none.fl_str_mv |
Villada osorio, Juan Sebastián España Chamorro, Christian Daniel |
| dc.subject.decs.none.fl_str_mv |
Procesamiento de lenguaje natural Natural Language Processing Análisis de sentimientos Sentiment Analysis |
| topic |
Procesamiento de lenguaje natural Natural Language Processing Análisis de sentimientos Sentiment Analysis Análisis de datos Data analysis Opinión pública Public opinion Procesamiento de datos en tiempo real Real-time data processing http://vocabularies.unesco.org/thesaurus/concept2214 https://id.nlm.nih.gov/mesh/D009323 https://id.nlm.nih.gov/mesh/D000090042 |
| dc.subject.unesco.none.fl_str_mv |
Análisis de datos Data analysis |
| dc.subject.lemb.none.fl_str_mv |
Opinión pública Public opinion Procesamiento de datos en tiempo real Real-time data processing |
| dc.subject.unescouri.none.fl_str_mv |
http://vocabularies.unesco.org/thesaurus/concept2214 |
| dc.subject.meshuri.none.fl_str_mv |
https://id.nlm.nih.gov/mesh/D009323 https://id.nlm.nih.gov/mesh/D000090042 |
| description |
RESUMEN : Hoy en día, en la era digital, los datos de las noticias digitales son la mina de oro de la opinión pública y de las tendencias emergentes en el tiempo. De este proyecto esperamos que surja una potente máquina analítica que nos permita explorar esta riqueza de datos para encontrar significado dentro de ellos. Además del hecho de que queremos que esta herramienta evolucione a través de niveles más altos de sofisticación de la ciencia y el análisis de datos, la visión es que esta herramienta esté en progreso y se actualice continuamente para aprender y adaptarse a entornos cambiantes según sea necesario. Esta información puede tener un valor incalculable para empresas, investigadores y organismos gubernamentales, interesados en conocer mejor las opiniones del público en general sobre diversos temas de la sociedad actual. Se entrenaron desde cero cuatro modelos siguiendo la arquitectura de BERT, para la clasificación de noticias en positivas o negativas. El mejor modelo tuvo un accuracy de 72%, precisión de 80%, recall de 80%, F1 score de 80%, adicionalmente la grafica ROC muestra un 89% de probabilidades de que el modelo clasifique correctamente un ejemplo positivo de uno negativo. |
| publishDate |
2024 |
| dc.date.accessioned.none.fl_str_mv |
2024-07-05T19:47:30Z |
| dc.date.available.none.fl_str_mv |
2024-07-05T19:47:30Z |
| dc.date.issued.none.fl_str_mv |
2024 |
| dc.type.spa.fl_str_mv |
Tesis/Trabajo de grado - Monografía - Especialización |
| dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_46ec |
| dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/COther |
| dc.type.coarversion.spa.fl_str_mv |
http://purl.org/coar/version/c_b1a7d7d4d402bcce |
| dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/other |
| dc.type.version.spa.fl_str_mv |
info:eu-repo/semantics/draft |
| format |
http://purl.org/coar/resource_type/c_46ec |
| status_str |
draft |
| dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/10495/40416 |
| dc.identifier.url.spa.fl_str_mv |
https://www.overleaf.com/read/whqfsgjjcqgy#40673d |
| url |
https://hdl.handle.net/10495/40416 https://www.overleaf.com/read/whqfsgjjcqgy#40673d |
| dc.language.iso.spa.fl_str_mv |
eng |
| language |
eng |
| dc.relation.issupplementedby.spa.fl_str_mv |
github.com/CDspana/Especializacion |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/co/ |
| dc.rights.uri.spa.fl_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ |
| dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/co/ https://creativecommons.org/licenses/by-nc-sa/4.0/ http://purl.org/coar/access_right/c_abf2 |
| eu_rights_str_mv |
openAccess |
| dc.format.extent.spa.fl_str_mv |
20 páginas |
| dc.format.mimetype.spa.fl_str_mv |
application/pdf |
| dc.publisher.spa.fl_str_mv |
Universidad de Antioquia |
| dc.publisher.place.spa.fl_str_mv |
Medellín, Colombia |
| dc.publisher.faculty.spa.fl_str_mv |
Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos |
| institution |
Universidad de Antioquia |
| bitstream.url.fl_str_mv |
https://bibliotecadigital.udea.edu.co/bitstreams/7badfb3e-0dc6-4714-b6af-1c118646d359/download https://bibliotecadigital.udea.edu.co/bitstreams/ab077121-08c0-4227-bf74-374b9dc78938/download https://bibliotecadigital.udea.edu.co/bitstreams/7a3df43f-3cc7-4472-ac1a-014bcb206f6b/download https://bibliotecadigital.udea.edu.co/bitstreams/c940867b-2db4-4368-9b75-640e77ea8ccb/download https://bibliotecadigital.udea.edu.co/bitstreams/3f79a92d-6b3a-46c4-9e4d-9b8c81b5bab7/download |
| bitstream.checksum.fl_str_mv |
e2060682c9c70d4d30c83c51448f4eed 8a4605be74aa9ea9d79846c1fba20a33 78dd67b1d483824eb4b30502f0d62ed9 f06ec9063102d7c8dd238587d1393a58 ac8e419b399b77815db4c35ad67ce1e8 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional de la Universidad de Antioquia |
| repository.mail.fl_str_mv |
aplicacionbibliotecadigitalbiblioteca@udea.edu.co |
| _version_ |
1851052487979565056 |
| spelling |
Botía Valderrama, Javier FernandoVillada osorio, Juan SebastiánEspaña Chamorro, Christian Daniel2024-07-05T19:47:30Z2024-07-05T19:47:30Z2024https://hdl.handle.net/10495/40416https://www.overleaf.com/read/whqfsgjjcqgy#40673dRESUMEN : Hoy en día, en la era digital, los datos de las noticias digitales son la mina de oro de la opinión pública y de las tendencias emergentes en el tiempo. De este proyecto esperamos que surja una potente máquina analítica que nos permita explorar esta riqueza de datos para encontrar significado dentro de ellos. Además del hecho de que queremos que esta herramienta evolucione a través de niveles más altos de sofisticación de la ciencia y el análisis de datos, la visión es que esta herramienta esté en progreso y se actualice continuamente para aprender y adaptarse a entornos cambiantes según sea necesario. Esta información puede tener un valor incalculable para empresas, investigadores y organismos gubernamentales, interesados en conocer mejor las opiniones del público en general sobre diversos temas de la sociedad actual. Se entrenaron desde cero cuatro modelos siguiendo la arquitectura de BERT, para la clasificación de noticias en positivas o negativas. El mejor modelo tuvo un accuracy de 72%, precisión de 80%, recall de 80%, F1 score de 80%, adicionalmente la grafica ROC muestra un 89% de probabilidades de que el modelo clasifique correctamente un ejemplo positivo de uno negativo.ABSTRACT : Today in digital era, digital news data is the gold mine of public opinion and time-emerging trend. Coming out of this project we expect a powerful analytical machine that will allow us to explore this wealth of data to find meaning within that data. Besides the fact that we want this tool to evolve across higher levels of sophistication of data science and analysis, the vision is that this tool is in progress and continuously updated to learn and adapt to changing environments as needed. This information can be invaluable to companies, researchers, and government agencies, as they are interested in learning more about the views of the general public on various issues in current society. Four models were trained from scratch following the BERT architecture for the classification of news into positive or negative. The best model obtained an accuracy of 72%, a precision of 80%, a recall of 80% and an F1 score of 80%. In addition, the ROC plot shows an 89% probability that the model correctly classifies a positive example from a negative one.EspecializaciónEspecialista en Analítica y Ciencia de Datos20 páginasapplication/pdfengUniversidad de AntioquiaMedellín, ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttp://creativecommons.org/licenses/by-nc-sa/2.5/co/https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Desarrollo de una herramienta de análisis de sentimiento en tiempo real para comprender la percepción pública a través de Google NoticiasTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftProcesamiento de lenguaje naturalNatural Language ProcessingAnálisis de sentimientosSentiment AnalysisAnálisis de datosData analysisOpinión públicaPublic opinionProcesamiento de datos en tiempo realReal-time data processinghttp://vocabularies.unesco.org/thesaurus/concept2214https://id.nlm.nih.gov/mesh/D009323https://id.nlm.nih.gov/mesh/D000090042github.com/CDspana/EspecializacionPublicationCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstreams/7badfb3e-0dc6-4714-b6af-1c118646d359/downloade2060682c9c70d4d30c83c51448f4eedMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/ab077121-08c0-4227-bf74-374b9dc78938/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADORIGINALVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcionVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcionTrabajo de grado de especializaciónapplication/pdf755427https://bibliotecadigital.udea.edu.co/bitstreams/7a3df43f-3cc7-4472-ac1a-014bcb206f6b/download78dd67b1d483824eb4b30502f0d62ed9MD52trueAnonymousREADTEXTVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcion.txtVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcion.txtExtracted texttext/plain25029https://bibliotecadigital.udea.edu.co/bitstreams/c940867b-2db4-4368-9b75-640e77ea8ccb/downloadf06ec9063102d7c8dd238587d1393a58MD55falseAnonymousREADTHUMBNAILVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcion.jpgVilladaChristianVilladaJuan_2024_DesarrolloHerramientaPercepcion.jpgGenerated Thumbnailimage/jpeg6781https://bibliotecadigital.udea.edu.co/bitstreams/3f79a92d-6b3a-46c4-9e4d-9b8c81b5bab7/downloadac8e419b399b77815db4c35ad67ce1e8MD56falseAnonymousREAD10495/40416oai:bibliotecadigital.udea.edu.co:10495/404162025-03-26 23:08:08.927http://creativecommons.org/licenses/by-nc-sa/2.5/co/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
