Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria

RESUMEN : Este trabajo propone el desarrollo de soluciones sistémicas para mejorar la gobernanza de datos y optimizar procesos internos en la industria del 401K mediante la implementación de pipelines ETL y agentes de lenguaje con contexto aumentado usando Retrieval-Augmented Generation (RAG). El ob...

Full description

Autores:
Rodríguez Ángel, Felipe
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2025
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/44960
Acceso en línea:
https://hdl.handle.net/10495/44960
Palabra clave:
Norma
Standards
Eficiencia
Efficiency
Datos
Data
Seguridad
Safety
LLM
401K
RAG
AWS
http://aims.fao.org/aos/agrovoc/c_49816
http://aims.fao.org/aos/agrovoc/c_6732
http://vocabularies.unesco.org/thesaurus/concept14595
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
id UDEA2_e1997a8f6e8e3b68863d705c25991663
oai_identifier_str oai:bibliotecadigital.udea.edu.co:10495/44960
network_acronym_str UDEA2
network_name_str Repositorio UdeA
repository_id_str
dc.title.spa.fl_str_mv Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
title Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
spellingShingle Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
Norma
Standards
Eficiencia
Efficiency
Datos
Data
Seguridad
Safety
LLM
401K
RAG
AWS
http://aims.fao.org/aos/agrovoc/c_49816
http://aims.fao.org/aos/agrovoc/c_6732
http://vocabularies.unesco.org/thesaurus/concept14595
title_short Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
title_full Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
title_fullStr Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
title_full_unstemmed Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
title_sort Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
dc.creator.fl_str_mv Rodríguez Ángel, Felipe
dc.contributor.advisor.none.fl_str_mv Ramos Pollan, Raúl
dc.contributor.author.none.fl_str_mv Rodríguez Ángel, Felipe
dc.subject.unesco.none.fl_str_mv Norma
Standards
topic Norma
Standards
Eficiencia
Efficiency
Datos
Data
Seguridad
Safety
LLM
401K
RAG
AWS
http://aims.fao.org/aos/agrovoc/c_49816
http://aims.fao.org/aos/agrovoc/c_6732
http://vocabularies.unesco.org/thesaurus/concept14595
dc.subject.lemb.none.fl_str_mv Eficiencia
Efficiency
dc.subject.agrovoc.none.fl_str_mv Datos
Data
Seguridad
Safety
dc.subject.proposal.spa.fl_str_mv LLM
401K
RAG
AWS
dc.subject.agrovocuri.none.fl_str_mv http://aims.fao.org/aos/agrovoc/c_49816
http://aims.fao.org/aos/agrovoc/c_6732
dc.subject.unescouri.none.fl_str_mv http://vocabularies.unesco.org/thesaurus/concept14595
description RESUMEN : Este trabajo propone el desarrollo de soluciones sistémicas para mejorar la gobernanza de datos y optimizar procesos internos en la industria del 401K mediante la implementación de pipelines ETL y agentes de lenguaje con contexto aumentado usando Retrieval-Augmented Generation (RAG). El objetivo es garantizar la seguridad, eficiencia y cumplimiento normativo en la gestión de datos sensibles, apoyándose en tecnologías como Ruby on Rails, Python, AWS RDS y ElasticSearch. La metodología sigue un enfoque mixto y ágil, estructurada en fases de planificación, desarrollo, integración, pruebas y despliegue. Hasta la fase actual de integración, se han generado resultados preliminares prometedores, incluyendo la creación de 238 documentos de contexto para los agentes RAG, limitando sus respuestas mediante guardrails y obteniendo una tasa de satisfacción interna de 4.4/5 en pruebas iniciales. No obstante, se identifican áreas de mejora para optimizar la precisión de respuestas y minimizar limitaciones antes del lanzamiento en producción.
publishDate 2025
dc.date.accessioned.none.fl_str_mv 2025-02-18T13:23:57Z
dc.date.available.none.fl_str_mv 2025-02-18T13:23:57Z
dc.date.issued.none.fl_str_mv 2025
dc.type.spa.fl_str_mv Tesis/Trabajo de grado - Monografía - Pregrado
dc.type.coar.spa.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.redcol.spa.fl_str_mv https://purl.org/redcol/resource_type/TP
dc.type.coarversion.spa.fl_str_mv http://purl.org/coar/version/c_b1a7d7d4d402bcce
dc.type.driver.spa.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.spa.fl_str_mv info:eu-repo/semantics/draft
format http://purl.org/coar/resource_type/c_7a1f
status_str draft
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/10495/44960
url https://hdl.handle.net/10495/44960
dc.language.iso.spa.fl_str_mv spa
language spa
dc.relation.issupplementedby.spa.fl_str_mv https://drive.google.com/file/d/1JSLW8i7uMq4SXBkmwpLkyi3desaA14LR/view?usp=sharing
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
dc.rights.uri.spa.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.accessrights.spa.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.spa.fl_str_mv http://purl.org/coar/access_right/c_abf2
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/co/
https://creativecommons.org/licenses/by-nc-sa/4.0/
http://purl.org/coar/access_right/c_abf2
eu_rights_str_mv openAccess
dc.format.extent.spa.fl_str_mv 24 páginas
dc.format.mimetype.spa.fl_str_mv application/pdf
dc.publisher.spa.fl_str_mv Universidad de Antioquia
dc.publisher.place.spa.fl_str_mv Medellín, Colombia
dc.publisher.faculty.spa.fl_str_mv Facultad de Ingeniería. Ingeniería de Sistemas
institution Universidad de Antioquia
bitstream.url.fl_str_mv https://bibliotecadigital.udea.edu.co/bitstreams/aefd6907-281e-41bf-807e-583bcd10ee96/download
https://bibliotecadigital.udea.edu.co/bitstreams/a8600d22-4b6f-45bc-aab2-136e566e68f1/download
https://bibliotecadigital.udea.edu.co/bitstreams/5129c769-97a5-4606-b179-8b3aaf31ea54/download
https://bibliotecadigital.udea.edu.co/bitstreams/7a0e4da6-6ac3-4dee-9e27-94bec157ff9d/download
https://bibliotecadigital.udea.edu.co/bitstreams/c1ba9ee7-23e3-450c-b05a-bc5861e05b05/download
https://bibliotecadigital.udea.edu.co/bitstreams/55a418a0-c2e3-4996-be7d-22a2ccfe1dc3/download
https://bibliotecadigital.udea.edu.co/bitstreams/13d6f395-b5f5-45a4-8e84-95ba1fdce730/download
https://bibliotecadigital.udea.edu.co/bitstreams/e433ca42-a22f-447f-96e7-351d3c8f567d/download
bitstream.checksum.fl_str_mv ba20ebd94c4933511ac369eef9dbdff0
c8e1cfdd057069c6baa0771a96bd5f9f
e2060682c9c70d4d30c83c51448f4eed
8a4605be74aa9ea9d79846c1fba20a33
b298c4b85e478d998531d5c341a56344
ad438637b97896245a27a091a553b2f6
a48599772056a8067412c9d5608c4e86
722afaef494368a87e138c65bf3773ca
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional de la Universidad de Antioquia
repository.mail.fl_str_mv aplicacionbibliotecadigitalbiblioteca@udea.edu.co
_version_ 1851052306452185088
spelling Ramos Pollan, RaúlRodríguez Ángel, Felipe2025-02-18T13:23:57Z2025-02-18T13:23:57Z2025https://hdl.handle.net/10495/44960RESUMEN : Este trabajo propone el desarrollo de soluciones sistémicas para mejorar la gobernanza de datos y optimizar procesos internos en la industria del 401K mediante la implementación de pipelines ETL y agentes de lenguaje con contexto aumentado usando Retrieval-Augmented Generation (RAG). El objetivo es garantizar la seguridad, eficiencia y cumplimiento normativo en la gestión de datos sensibles, apoyándose en tecnologías como Ruby on Rails, Python, AWS RDS y ElasticSearch. La metodología sigue un enfoque mixto y ágil, estructurada en fases de planificación, desarrollo, integración, pruebas y despliegue. Hasta la fase actual de integración, se han generado resultados preliminares prometedores, incluyendo la creación de 238 documentos de contexto para los agentes RAG, limitando sus respuestas mediante guardrails y obteniendo una tasa de satisfacción interna de 4.4/5 en pruebas iniciales. No obstante, se identifican áreas de mejora para optimizar la precisión de respuestas y minimizar limitaciones antes del lanzamiento en producción.ABSTRACT : This work proposes the development of systemic solutions to improve data governance and optimize internal processes in the 401K industry through the implementation of ETL pipelines and language agents with augmented context using Retrieval-Augmented Generation (RAG). The objective is to ensure security, efficiency, and regulatory compliance in sensitive data management, leveraging technologies such as Ruby on Rails, Python, AWS RDS, and ElasticSearch. The methodology follows a mixed and agile approach, structured into planning, development, integration, testing, and deployment phases. In the current integration phase, promising preliminary results have been achieved, including the creation of 238 context documents for RAG agents, response restrictions through guardrails, and an internal satisfaction rate of 4.4/5 in initial tests. However, improvement areas have been identified to optimize response accuracy and minimize limitations before the production launch.PregradoProfesional en Ingeniería de Sistemas24 páginasapplication/pdfspaUniversidad de AntioquiaMedellín, ColombiaFacultad de Ingeniería. Ingeniería de Sistemashttp://creativecommons.org/licenses/by-nc-sa/2.5/co/https://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industriaTesis/Trabajo de grado - Monografía - Pregradohttp://purl.org/coar/resource_type/c_7a1fhttps://purl.org/redcol/resource_type/TPhttp://purl.org/coar/version/c_b1a7d7d4d402bcceinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/draftNormaStandardsEficienciaEfficiencyDatosDataSeguridadSafetyLLM401KRAGAWShttp://aims.fao.org/aos/agrovoc/c_49816http://aims.fao.org/aos/agrovoc/c_6732http://vocabularies.unesco.org/thesaurus/concept14595https://drive.google.com/file/d/1JSLW8i7uMq4SXBkmwpLkyi3desaA14LR/view?usp=sharingPublicationORIGINALRodriguezFelipe_2025_DesarrolloSolucionesDatos.pdfRodriguezFelipe_2025_DesarrolloSolucionesDatos.pdfTrabajo de Grado de Pregradoapplication/pdf408274https://bibliotecadigital.udea.edu.co/bitstreams/aefd6907-281e-41bf-807e-583bcd10ee96/downloadba20ebd94c4933511ac369eef9dbdff0MD51trueAnonymousREADPóster.pdfPóster.pdfAnexoapplication/pdf921655https://bibliotecadigital.udea.edu.co/bitstreams/a8600d22-4b6f-45bc-aab2-136e566e68f1/downloadc8e1cfdd057069c6baa0771a96bd5f9fMD52falseAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81051https://bibliotecadigital.udea.edu.co/bitstreams/5129c769-97a5-4606-b179-8b3aaf31ea54/downloade2060682c9c70d4d30c83c51448f4eedMD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://bibliotecadigital.udea.edu.co/bitstreams/7a0e4da6-6ac3-4dee-9e27-94bec157ff9d/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTEXTRodriguezFelipe_2025_DesarrolloSolucionesDatos.pdf.txtRodriguezFelipe_2025_DesarrolloSolucionesDatos.pdf.txtExtracted texttext/plain38958https://bibliotecadigital.udea.edu.co/bitstreams/c1ba9ee7-23e3-450c-b05a-bc5861e05b05/downloadb298c4b85e478d998531d5c341a56344MD55falseAnonymousREADPóster.pdf.txtPóster.pdf.txtExtracted texttext/plain5415https://bibliotecadigital.udea.edu.co/bitstreams/55a418a0-c2e3-4996-be7d-22a2ccfe1dc3/downloadad438637b97896245a27a091a553b2f6MD57falseAnonymousREADTHUMBNAILRodriguezFelipe_2025_DesarrolloSolucionesDatos.pdf.jpgRodriguezFelipe_2025_DesarrolloSolucionesDatos.pdf.jpgGenerated Thumbnailimage/jpeg6820https://bibliotecadigital.udea.edu.co/bitstreams/13d6f395-b5f5-45a4-8e84-95ba1fdce730/downloada48599772056a8067412c9d5608c4e86MD56falseAnonymousREADPóster.pdf.jpgPóster.pdf.jpgGenerated Thumbnailimage/jpeg24729https://bibliotecadigital.udea.edu.co/bitstreams/e433ca42-a22f-447f-96e7-351d3c8f567d/download722afaef494368a87e138c65bf3773caMD58falseAnonymousREAD10495/44960oai:bibliotecadigital.udea.edu.co:10495/449602025-03-26 20:15:58.649http://creativecommons.org/licenses/by-nc-sa/2.5/co/open.accesshttps://bibliotecadigital.udea.edu.coRepositorio Institucional de la Universidad de Antioquiaaplicacionbibliotecadigitalbiblioteca@udea.edu.coTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=