Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria

RESUMEN : Este trabajo propone el desarrollo de soluciones sistémicas para mejorar la gobernanza de datos y optimizar procesos internos en la industria del 401K mediante la implementación de pipelines ETL y agentes de lenguaje con contexto aumentado usando Retrieval-Augmented Generation (RAG). El ob...

Full description

Autores:
Rodríguez Ángel, Felipe
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2025
Institución:
Universidad de Antioquia
Repositorio:
Repositorio UdeA
Idioma:
spa
OAI Identifier:
oai:bibliotecadigital.udea.edu.co:10495/44960
Acceso en línea:
https://hdl.handle.net/10495/44960
Palabra clave:
Norma
Standards
Eficiencia
Efficiency
Datos
Data
Seguridad
Safety
LLM
401K
RAG
AWS
http://aims.fao.org/aos/agrovoc/c_49816
http://aims.fao.org/aos/agrovoc/c_6732
http://vocabularies.unesco.org/thesaurus/concept14595
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-sa/2.5/co/
Description
Summary:RESUMEN : Este trabajo propone el desarrollo de soluciones sistémicas para mejorar la gobernanza de datos y optimizar procesos internos en la industria del 401K mediante la implementación de pipelines ETL y agentes de lenguaje con contexto aumentado usando Retrieval-Augmented Generation (RAG). El objetivo es garantizar la seguridad, eficiencia y cumplimiento normativo en la gestión de datos sensibles, apoyándose en tecnologías como Ruby on Rails, Python, AWS RDS y ElasticSearch. La metodología sigue un enfoque mixto y ágil, estructurada en fases de planificación, desarrollo, integración, pruebas y despliegue. Hasta la fase actual de integración, se han generado resultados preliminares prometedores, incluyendo la creación de 238 documentos de contexto para los agentes RAG, limitando sus respuestas mediante guardrails y obteniendo una tasa de satisfacción interna de 4.4/5 en pruebas iniciales. No obstante, se identifican áreas de mejora para optimizar la precisión de respuestas y minimizar limitaciones antes del lanzamiento en producción.