Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII.
Esta propuesta nace de un proyecto que la profesora Maria José Afanador Llach, definió y nombró como: "Inventar la Gran Colombia: Utopía, producción de conocimiento y la economía política del espacio". Este busca aprovechar herramientas digitales que apoyen el proceso de investigación para...
- Autores:
-
Rangel Mora, Santiago
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2021
- Institución:
- Universidad de los Andes
- Repositorio:
- Séneca: repositorio Uniandes
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.uniandes.edu.co:1992/53014
- Acceso en línea:
- http://hdl.handle.net/1992/53014
- Palabra clave:
- Virreinato
Nueva Granada
Documentos
Diseño con ayuda de computador
Análisis de información
Visualización de la información
Ingeniería
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-nd/4.0/
id |
UNIANDES2_64d59b06481f00f3a11b0bc1b3342f90 |
---|---|
oai_identifier_str |
oai:repositorio.uniandes.edu.co:1992/53014 |
network_acronym_str |
UNIANDES2 |
network_name_str |
Séneca: repositorio Uniandes |
repository_id_str |
|
dc.title.spa.fl_str_mv |
Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII. |
title |
Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII. |
spellingShingle |
Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII. Virreinato Nueva Granada Documentos Diseño con ayuda de computador Análisis de información Visualización de la información Ingeniería |
title_short |
Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII. |
title_full |
Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII. |
title_fullStr |
Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII. |
title_full_unstemmed |
Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII. |
title_sort |
Implementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII. |
dc.creator.fl_str_mv |
Rangel Mora, Santiago |
dc.contributor.advisor.none.fl_str_mv |
Haydemar María, Nuñez Castro Afanador Llach, María José |
dc.contributor.author.none.fl_str_mv |
Rangel Mora, Santiago |
dc.subject.armarc.none.fl_str_mv |
Virreinato Nueva Granada Documentos Diseño con ayuda de computador Análisis de información Visualización de la información |
topic |
Virreinato Nueva Granada Documentos Diseño con ayuda de computador Análisis de información Visualización de la información Ingeniería |
dc.subject.themes.none.fl_str_mv |
Ingeniería |
description |
Esta propuesta nace de un proyecto que la profesora Maria José Afanador Llach, definió y nombró como: "Inventar la Gran Colombia: Utopía, producción de conocimiento y la economía política del espacio". Este busca aprovechar herramientas digitales que apoyen el proceso de investigación para un conjunto de documentos del siglo XVIII dado que normalmente en estos procesos se limitan a usar metodologías tradicionales (como la lectura en detalle del texto) para analizar el documento. Se trabajó teniendo como insumo un conjunto inicial de 84 documentos del siglo XVII. Con esta motivación se planteó una solución constituida de tres pasos principales: OCR para los documentos, usar el texto plano obtenido para implementar algoritmos de procesamientos de lenguaje natural y finalmente implementar una interfaz que permita visualizar los resultados de estos análisis. Para la primera fase, se obtuvieron resultados muy variados relativos al tipo de impresión e imagen que se estaba analizando. Por esta razón se acotó el conjunto de documentos inicial debido a limitaciones de estos. Luego, se realizaron pruebas del modelado de tópicos para el cual se tuvo que hacer una limpieza y depuración de fondo para obtener resultados relevantes. Al final se obtuvo una interfaz desplegada sobre una máquina virtual que permite explorar los resultados obtenidos del procesamiento de los documentos. También permite volver a ejecutar el modelo sobre diferentes periodos de tiempo. De esta manera, el resultado obtenido fue solo una primera iteración sobre el proyecto y funciona como cimiento para posteriores adiciones a la plataforma e implementación de otras técnicas y herramientas de minería de texto que podrían ser aprovechadas y usadas dentro del marco del proyecto "Inventar Colombia". |
publishDate |
2021 |
dc.date.accessioned.none.fl_str_mv |
2021-11-03T16:09:12Z |
dc.date.available.none.fl_str_mv |
2021-11-03T16:09:12Z |
dc.date.issued.none.fl_str_mv |
2021 |
dc.type.spa.fl_str_mv |
Trabajo de grado - Pregrado |
dc.type.coarversion.fl_str_mv |
http://purl.org/coar/version/c_970fb48d4fbd8a85 |
dc.type.driver.spa.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.coar.spa.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
dc.type.content.spa.fl_str_mv |
Text |
dc.type.redcol.spa.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
format |
http://purl.org/coar/resource_type/c_7a1f |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/1992/53014 |
dc.identifier.pdf.none.fl_str_mv |
25275.pdf |
dc.identifier.instname.spa.fl_str_mv |
instname:Universidad de los Andes |
dc.identifier.reponame.spa.fl_str_mv |
reponame:Repositorio Institucional Séneca |
dc.identifier.repourl.spa.fl_str_mv |
repourl:https://repositorio.uniandes.edu.co/ |
url |
http://hdl.handle.net/1992/53014 |
identifier_str_mv |
25275.pdf instname:Universidad de los Andes reponame:Repositorio Institucional Séneca repourl:https://repositorio.uniandes.edu.co/ |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.rights.accessrights.spa.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.coar.spa.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ http://purl.org/coar/access_right/c_abf2 |
eu_rights_str_mv |
openAccess |
dc.format.extent.none.fl_str_mv |
46 páginas |
dc.format.mimetype.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de los Andes |
dc.publisher.program.none.fl_str_mv |
Ingeniería de Sistemas y Computación |
dc.publisher.faculty.none.fl_str_mv |
Facultad de Ingeniería |
dc.publisher.department.none.fl_str_mv |
Departamento de Ingeniería de Sistemas y Computación |
publisher.none.fl_str_mv |
Universidad de los Andes |
institution |
Universidad de los Andes |
bitstream.url.fl_str_mv |
https://repositorio.uniandes.edu.co/bitstreams/d9c3c7c3-9dc8-4718-92c1-69e3fe3be645/download https://repositorio.uniandes.edu.co/bitstreams/7229f801-69aa-42b5-abe4-93c6abdac40a/download https://repositorio.uniandes.edu.co/bitstreams/300627c6-24d1-44ec-a833-604c7aa2054d/download |
bitstream.checksum.fl_str_mv |
7ec4af56b9f3d7f06678f66cfc3e1cb5 4349fbc69004e818a2f1ea27d1855718 c8f3e37524e386198bfaa52ce4d98f29 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio institucional Séneca |
repository.mail.fl_str_mv |
adminrepositorio@uniandes.edu.co |
_version_ |
1831927783764262912 |
spelling |
Al consultar y hacer uso de este recurso, está aceptando las condiciones de uso establecidas por los autores.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Haydemar María, Nuñez Castro12747003-b26c-4d61-9c7e-b8a5ec751b61600Afanador Llach, María Josévirtual::13857-1Rangel Mora, Santiago71b2883f-b913-4405-8146-65dfba0a67995002021-11-03T16:09:12Z2021-11-03T16:09:12Z2021http://hdl.handle.net/1992/5301425275.pdfinstname:Universidad de los Andesreponame:Repositorio Institucional Sénecarepourl:https://repositorio.uniandes.edu.co/Esta propuesta nace de un proyecto que la profesora Maria José Afanador Llach, definió y nombró como: "Inventar la Gran Colombia: Utopía, producción de conocimiento y la economía política del espacio". Este busca aprovechar herramientas digitales que apoyen el proceso de investigación para un conjunto de documentos del siglo XVIII dado que normalmente en estos procesos se limitan a usar metodologías tradicionales (como la lectura en detalle del texto) para analizar el documento. Se trabajó teniendo como insumo un conjunto inicial de 84 documentos del siglo XVII. Con esta motivación se planteó una solución constituida de tres pasos principales: OCR para los documentos, usar el texto plano obtenido para implementar algoritmos de procesamientos de lenguaje natural y finalmente implementar una interfaz que permita visualizar los resultados de estos análisis. Para la primera fase, se obtuvieron resultados muy variados relativos al tipo de impresión e imagen que se estaba analizando. Por esta razón se acotó el conjunto de documentos inicial debido a limitaciones de estos. Luego, se realizaron pruebas del modelado de tópicos para el cual se tuvo que hacer una limpieza y depuración de fondo para obtener resultados relevantes. Al final se obtuvo una interfaz desplegada sobre una máquina virtual que permite explorar los resultados obtenidos del procesamiento de los documentos. También permite volver a ejecutar el modelo sobre diferentes periodos de tiempo. De esta manera, el resultado obtenido fue solo una primera iteración sobre el proyecto y funciona como cimiento para posteriores adiciones a la plataforma e implementación de otras técnicas y herramientas de minería de texto que podrían ser aprovechadas y usadas dentro del marco del proyecto "Inventar Colombia".This proposal stems from a project that Professor Maria José Afanador Llach defined and named as: "Inventar la Gran Colombia: Utopía, producción de conocimiento y la economía política del espacio". This seeks to take advantage of digital tools that support the research process for a set of documents from the 18th century. This processes are normally limited to using traditional methodologies (such as reading the text in detail) to analyze the document. This work was made taking as input an initial set of 84 documents from the seventeenth century. With this motivation, a solution consisting of three main steps was proposed: OCR for the documents, using the obtained plain text to implement natural language processing algorithms and finally implementing an interface that allows viewing the results of these analyzes. For the first phase, very varied results were obtained regarding the type of impression and image that was being analyzed. For this reason, the initial set of documents was limited due to their variations. Then, topical modeling tests were carried out for which a background cleaning and debugging had to be done to obtain relevant results. In the end, an interface deployed on a virtual machine was obtained that allows to explore the results obtained from the processing of the documents. It also allows you to rerun the model over different periods of time. In this way, the result obtained was only a first iteration on the project and it works as a foundation for later additions to the platform and implementation of other text mining techniques and tools that could be exploited and used within the framework of the project "Inventar Colombia"Ingeniero de Sistemas y ComputaciónPregrado46 páginasapplication/pdfspaUniversidad de los AndesIngeniería de Sistemas y ComputaciónFacultad de IngenieríaDepartamento de Ingeniería de Sistemas y ComputaciónImplementación de modelado de tópicos a partir de la extracción de texto con OCR en documentos del virreinato de la Nueva Granada en el siglo XVIII.Trabajo de grado - Pregradoinfo:eu-repo/semantics/bachelorThesishttp://purl.org/coar/resource_type/c_7a1fhttp://purl.org/coar/version/c_970fb48d4fbd8a85Texthttp://purl.org/redcol/resource_type/TPVirreinatoNueva GranadaDocumentosDiseño con ayuda de computadorAnálisis de informaciónVisualización de la informaciónIngeniería201632011Publication4975104f-7976-4f87-acdb-982e030da18bvirtual::13857-14975104f-7976-4f87-acdb-982e030da18bvirtual::13857-1TEXT25275.pdf.txt25275.pdf.txtExtracted texttext/plain59837https://repositorio.uniandes.edu.co/bitstreams/d9c3c7c3-9dc8-4718-92c1-69e3fe3be645/download7ec4af56b9f3d7f06678f66cfc3e1cb5MD54ORIGINAL25275.pdfapplication/pdf3380542https://repositorio.uniandes.edu.co/bitstreams/7229f801-69aa-42b5-abe4-93c6abdac40a/download4349fbc69004e818a2f1ea27d1855718MD51THUMBNAIL25275.pdf.jpg25275.pdf.jpgIM Thumbnailimage/jpeg6862https://repositorio.uniandes.edu.co/bitstreams/300627c6-24d1-44ec-a833-604c7aa2054d/downloadc8f3e37524e386198bfaa52ce4d98f29MD551992/53014oai:repositorio.uniandes.edu.co:1992/530142024-03-13 15:02:55.787http://creativecommons.org/licenses/by-nc-nd/4.0/open.accesshttps://repositorio.uniandes.edu.coRepositorio institucional Sénecaadminrepositorio@uniandes.edu.co |