Desarrollo de Soluciones Sistémicas para la Gobernanza de Datos, Pipelines ETL y Agentes de Modelo de Lenguaje con Contexto Aumentado sobre Procesos Internos mediante RAG. Semestre de industria
RESUMEN : Este trabajo propone el desarrollo de soluciones sistémicas para mejorar la gobernanza de datos y optimizar procesos internos en la industria del 401K mediante la implementación de pipelines ETL y agentes de lenguaje con contexto aumentado usando Retrieval-Augmented Generation (RAG). El ob...
- Autores:
-
Rodríguez Ángel, Felipe
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2025
- Institución:
- Universidad de Antioquia
- Repositorio:
- Repositorio UdeA
- Idioma:
- spa
- OAI Identifier:
- oai:bibliotecadigital.udea.edu.co:10495/44960
- Acceso en línea:
- https://hdl.handle.net/10495/44960
- Palabra clave:
- Norma
Standards
Eficiencia
Efficiency
Datos
Data
Seguridad
Safety
LLM
401K
RAG
AWS
http://aims.fao.org/aos/agrovoc/c_49816
http://aims.fao.org/aos/agrovoc/c_6732
http://vocabularies.unesco.org/thesaurus/concept14595
- Rights
- openAccess
- License
- http://creativecommons.org/licenses/by-nc-sa/2.5/co/
| Summary: | RESUMEN : Este trabajo propone el desarrollo de soluciones sistémicas para mejorar la gobernanza de datos y optimizar procesos internos en la industria del 401K mediante la implementación de pipelines ETL y agentes de lenguaje con contexto aumentado usando Retrieval-Augmented Generation (RAG). El objetivo es garantizar la seguridad, eficiencia y cumplimiento normativo en la gestión de datos sensibles, apoyándose en tecnologías como Ruby on Rails, Python, AWS RDS y ElasticSearch. La metodología sigue un enfoque mixto y ágil, estructurada en fases de planificación, desarrollo, integración, pruebas y despliegue. Hasta la fase actual de integración, se han generado resultados preliminares prometedores, incluyendo la creación de 238 documentos de contexto para los agentes RAG, limitando sus respuestas mediante guardrails y obteniendo una tasa de satisfacción interna de 4.4/5 en pruebas iniciales. No obstante, se identifican áreas de mejora para optimizar la precisión de respuestas y minimizar limitaciones antes del lanzamiento en producción. |
|---|
