Implementación de reconocimiento óptico de caracteres para la digitalización de documentos

RESUMEN: La digitalización de documentos es una ciencia que permite traducir tipos de documentos escaneados o imágenes en datos analizables, editables y buscables. Esto es muy útil, ya que permite guardar datos históricos, jurídicos, culturales, científicos, etc. de forma segura y pueden ser de util...

Full description

Autores:
Sabogal Aristizábal, Camilo Andrés
Tipo de recurso:
Tesis
Fecha de publicación:
2022
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/29178
Acceso en línea:
http://hdl.handle.net/10495/29178
Palabra clave:
Digitalización
Digitization
Aprendizaje automático (inteligencia artificial)
Machine learning
Procesamiento de imágenes
Image processing
Procesamiento óptico de datos
Optical data processing
http://vocabularies.unesco.org/thesaurus/concept7411
Rights
openAccess
License
https://creativecommons.org/licenses/by-nc-sa/4.0/
id UDEA2_203250e39f535fa4958f70ef3adf80da
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/29178
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
dc.title.translated.spa.fl_str_mv Optical recognition implementation of characters for digitizing documents
title Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
spellingShingle Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
Digitalización
Digitization
Aprendizaje automático (inteligencia artificial)
Machine learning
Procesamiento de imágenes
Image processing
Procesamiento óptico de datos
Optical data processing
http://vocabularies.unesco.org/thesaurus/concept7411
title_short Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
title_full Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
title_fullStr Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
title_full_unstemmed Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
title_sort Implementación de reconocimiento óptico de caracteres para la digitalización de documentos
dc.creator.fl_str_mv Sabogal Aristizábal, Camilo Andrés
dc.contributor.advisor.none.fl_str_mv Rodríguez Colina, Sebastián
dc.contributor.author.none.fl_str_mv Sabogal Aristizábal, Camilo Andrés
dc.subject.unesco.none.fl_str_mv Digitalización
Digitization
topic Digitalización
Digitization
Aprendizaje automático (inteligencia artificial)
Machine learning
Procesamiento de imágenes
Image processing
Procesamiento óptico de datos
Optical data processing
http://vocabularies.unesco.org/thesaurus/concept7411
dc.subject.lemb.none.fl_str_mv Aprendizaje automático (inteligencia artificial)
Machine learning
Procesamiento de imágenes
Image processing
Procesamiento óptico de datos
Optical data processing
dc.subject.unescouri.none.fl_str_mv http://vocabularies.unesco.org/thesaurus/concept7411
description RESUMEN: La digitalización de documentos es una ciencia que permite traducir tipos de documentos escaneados o imágenes en datos analizables, editables y buscables. Esto es muy útil, ya que permite guardar datos históricos, jurídicos, culturales, científicos, etc. de forma segura y pueden ser de utilidad para investigaciones futuras. Sin embargo, digitalizarlos de forma manual es laborioso y puede tomar mucho tiempo lo que genera grandes costos. Este tipo de digitalizaciones se pueden clasificar en dos categorías: el reconocimiento de caracteres basado en reglas y el reconocimiento de caracteres basado en aprendizaje automático. Por las razones anteriores, es importante contar con herramientas que automaticen este proceso como el aprendizaje automático, ya que así se podrán digitalizar un mayor número de manuscritos en menor tiempo. El proyecto persigue la automatización de la conversión de documentos escaneados a texto editable. Se utilizaron datos de documentos escaneados, exactamente 600 archivos de palabras y documentos, de diferentes fuentes y se siguió una estrategia de mejora incremental para las iteraciones, con el objetivo de desarrollar un modelo de OCR para manuscritos que sea de utilidad al servicio de la comunidad. Los principales obstáculos encontrados fueron la falta de una base de datos de entrenamiento robusta, adecuada y la variabilidad de los formatos de documentos escaneados.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-06-14T14:07:05Z
dc.date.available.none.fl_str_mv 2022-06-14T14:07:05Z
dc.date.issued.none.fl_str_mv 2022
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Especialización
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_46ec
dc.type.redcol.spa.fl_str_mv http://purl.org/redcol/resource_type/COther
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/other
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_46ec
status_str draft
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/10495/29178
url http://hdl.handle.net/10495/29178
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.issupplementedby.spa.fl_str_mv https://github.com/CamiloSaboA-csv/digitalizador_manuscritos
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
http://creativecommons.org/licenses/by-nc-nd/2.5/co/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 24
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín - Colombia
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Especialización en Analítica y Ciencia de Datos
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/d8816968-e3f4-485f-8be4-fceee0e977f1/download
https://bibliotecadigital.udea.edu.co/bitstreams/9ef343d8-c6c1-4d7c-8cc6-5bef3fee0dfb/download
https://bibliotecadigital.udea.edu.co/bitstreams/cc27e058-372f-4b17-9c20-3ceefca561c7/download
https://bibliotecadigital.udea.edu.co/bitstreams/22f353ba-0fb6-4654-aee8-fe65c852f2f4/download
https://bibliotecadigital.udea.edu.co/bitstreams/e0329ba4-f28d-45f1-adf3-e86985ca7e1a/download
bitstream.checksum.fl_str_mv b88b088d9957e670ce3b3fbe2eedbc13
8a4605be74aa9ea9d79846c1fba20a33
5e7289c5b65159016d4e0049e4aef457
4e55b9c94c8df46df700f6aaa6cd4df3
aa33ec2a5f3e9a47b85d5b13f5f8b462
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052491578277888
spelling Rodríguez Colina, SebastiánSabogal Aristizábal, Camilo Andrés2022-06-14T14:07:05Z2022-06-14T14:07:05Z2022http://hdl.handle.net/10495/29178RESUMEN: La digitalización de documentos es una ciencia que permite traducir tipos de documentos escaneados o imágenes en datos analizables, editables y buscables. Esto es muy útil, ya que permite guardar datos históricos, jurídicos, culturales, científicos, etc. de forma segura y pueden ser de utilidad para investigaciones futuras. Sin embargo, digitalizarlos de forma manual es laborioso y puede tomar mucho tiempo lo que genera grandes costos. Este tipo de digitalizaciones se pueden clasificar en dos categorías: el reconocimiento de caracteres basado en reglas y el reconocimiento de caracteres basado en aprendizaje automático. Por las razones anteriores, es importante contar con herramientas que automaticen este proceso como el aprendizaje automático, ya que así se podrán digitalizar un mayor número de manuscritos en menor tiempo. El proyecto persigue la automatización de la conversión de documentos escaneados a texto editable. Se utilizaron datos de documentos escaneados, exactamente 600 archivos de palabras y documentos, de diferentes fuentes y se siguió una estrategia de mejora incremental para las iteraciones, con el objetivo de desarrollar un modelo de OCR para manuscritos que sea de utilidad al servicio de la comunidad. Los principales obstáculos encontrados fueron la falta de una base de datos de entrenamiento robusta, adecuada y la variabilidad de los formatos de documentos escaneados.EspecializaciónEspecialista en Analítica y Ciencia de Datos24application/pdfspaUniversidad de AntioquiaMedellín - ColombiaFacultad de Ingeniería. Especialización en Analítica y Ciencia de Datoshttps://creativecommons.org/licenses/by-nc-sa/4.0/http://creativecommons.org/licenses/by-nc-nd/2.5/co/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Implementación de reconocimiento óptico de caracteres para la digitalización de documentosOptical recognition implementation of characters for digitizing documentsTesis/Trabajo de grado - Monografía - Especializaciónhttp://purl.org/coar/resource_type/c_46echttp://purl.org/redcol/resource_type/COtherhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/draftDigitalizaciónDigitizationAprendizaje automático (inteligencia artificial)Machine learningProcesamiento de imágenesImage processingProcesamiento óptico de datosOptical data processinghttp://vocabularies.unesco.org/thesaurus/concept7411https://github.com/CamiloSaboA-csv/digitalizador_manuscritosPublicationCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8823https://bibliotecadigital.udea.edu.co/bitstreams/d8816968-e3f4-485f-8be4-fceee0e977f1/downloadb88b088d9957e670ce3b3fbe2eedbc13MD56falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/9ef343d8-c6c1-4d7c-8cc6-5bef3fee0dfb/download8a4605be74aa9ea9d79846c1fba20a33MD57falseAnonymousREADORIGINALSabogalCamilo_2022_ImplementaciónReconocimientoOpticoSabogalCamilo_2022_ImplementaciónReconocimientoOpticoTrabajo de grado de especializaciónapplication/pdf1752209https://bibliotecadigital.udea.edu.co/bitstreams/cc27e058-372f-4b17-9c20-3ceefca561c7/download5e7289c5b65159016d4e0049e4aef457MD55trueAnonymousREADTEXTSabogalCamilo_2022_ImplementaciónReconocimientoOptico.txtSabogalCamilo_2022_ImplementaciónReconocimientoOptico.txtExtracted texttext/plain34725https://bibliotecadigital.udea.edu.co/bitstreams/22f353ba-0fb6-4654-aee8-fe65c852f2f4/download4e55b9c94c8df46df700f6aaa6cd4df3MD58falseAnonymousREADTHUMBNAILSabogalCamilo_2022_ImplementaciónReconocimientoOptico.jpgSabogalCamilo_2022_ImplementaciónReconocimientoOptico.jpgGenerated Thumbnailimage/jpeg6559https://bibliotecadigital.udea.edu.co/bitstreams/e0329ba4-f28d-45f1-adf3-e86985ca7e1a/downloadaa33ec2a5f3e9a47b85d5b13f5f8b462MD59falseAnonymousREAD10495/29178oai:bibliotecadigital.udea.edu.co:10495/291782025-03-26 23:11:21.434https://creativecommons.org/licenses/by-nc-sa/4.0/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=