Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados

En Colombia la inteligencia artificial (IA) se ha erigido como un área de creciente interés, particularmente en dominios como el procesamiento del lenguaje natural y la visión computacional. No obstante, en este contexto, la adopción del aprendizaje por refuerzo (conocido por sus siglas en inglés co...

Full description

Autores:
Caicedo Vidal, Alvaro
Jiménez Lozano, Jorge Andrés
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2024
Institución:
Universidad de Ibagué
Repositorio:
Repositorio Universidad de Ibagué
Idioma:
spa
OAI Identifier:
oai:repositorio.unibague.edu.co:20.500.12313/4746
Acceso en línea:
https://hdl.handle.net/20.500.12313/4746
Palabra clave:
Entornos Controlados - Técnicas de aprendizaje
Entornos Controlados - Técnicas de aprendizaje reforzado
Aprendizaje Reforzado
Reinforcement Learning
Optimización de Políticas
Policy Optimization
Proximal Policy Optimization (PPO)
Deep Deterministic Policy Gradient (DDPG)
Soft Actor-Critic (SAC)
Optimización de políticas proximales (PPO)
Gradiente de políticas determinista profundas (DDPG)
Actor-crítico blando (SAC)
Rights
openAccess
License
http://purl.org/coar/access_right/c_abf2
id UNIBAGUE2_79e7d49a3f6916da1cab1986e20389f1
oai_identifier_str oai:repositorio.unibague.edu.co:20.500.12313/4746
network_acronym_str UNIBAGUE2
network_name_str Repositorio Universidad de Ibagué
repository_id_str
dc.title.spa.fl_str_mv Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
title Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
spellingShingle Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
Entornos Controlados - Técnicas de aprendizaje
Entornos Controlados - Técnicas de aprendizaje reforzado
Aprendizaje Reforzado
Reinforcement Learning
Optimización de Políticas
Policy Optimization
Proximal Policy Optimization (PPO)
Deep Deterministic Policy Gradient (DDPG)
Soft Actor-Critic (SAC)
Optimización de políticas proximales (PPO)
Gradiente de políticas determinista profundas (DDPG)
Actor-crítico blando (SAC)
title_short Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
title_full Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
title_fullStr Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
title_full_unstemmed Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
title_sort Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
dc.creator.fl_str_mv Caicedo Vidal, Alvaro
Jiménez Lozano, Jorge Andrés
dc.contributor.advisor.none.fl_str_mv Forero, Manuel Guillermo
dc.contributor.author.none.fl_str_mv Caicedo Vidal, Alvaro
Jiménez Lozano, Jorge Andrés
dc.contributor.jury.none.fl_str_mv Barrero, Oscar
dc.subject.armarc.none.fl_str_mv Entornos Controlados - Técnicas de aprendizaje
Entornos Controlados - Técnicas de aprendizaje reforzado
topic Entornos Controlados - Técnicas de aprendizaje
Entornos Controlados - Técnicas de aprendizaje reforzado
Aprendizaje Reforzado
Reinforcement Learning
Optimización de Políticas
Policy Optimization
Proximal Policy Optimization (PPO)
Deep Deterministic Policy Gradient (DDPG)
Soft Actor-Critic (SAC)
Optimización de políticas proximales (PPO)
Gradiente de políticas determinista profundas (DDPG)
Actor-crítico blando (SAC)
dc.subject.proposal.spa.fl_str_mv Aprendizaje Reforzado
Reinforcement Learning
Optimización de Políticas
Policy Optimization
Proximal Policy Optimization (PPO)
dc.subject.proposal.eng.fl_str_mv Deep Deterministic Policy Gradient (DDPG)
Soft Actor-Critic (SAC)
Optimización de políticas proximales (PPO)
Gradiente de políticas determinista profundas (DDPG)
Actor-crítico blando (SAC)
description En Colombia la inteligencia artificial (IA) se ha erigido como un área de creciente interés, particularmente en dominios como el procesamiento del lenguaje natural y la visión computacional. No obstante, en este contexto, la adopción del aprendizaje por refuerzo (conocido por sus siglas en inglés como RL) aún es limitada, esta tecnología ha demostrado ser un instrumento potente para solucionar problemas de toma de decisiones complejos en naciones desarrolladas, se encuentra en una situación de subutilización debido a la falta de conocimiento sobre sus fundamentos, aplicaciones prácticas y el impacto que puede tener en diversos sectores, la disparidad en la implementación de la Responsabilidad Limitada no sólo manifiesta una carencia de infraestructura tecnológica apropiada, sino también un déficit en la capacitación académica y profesional que facilite la integración de este enfoque en los procesos productivos, educativos e industriales de la nación. En otras naciones el aprendizaje reforzado se ha utilizado exitosamente en áreas como la robótica, la optimización de procesos logísticos, la administración de recursos naturales y la planificación estratégica en tiempo real. Estas aplicaciones han facilitado no solamente la automatización de tareas de alta complejidad, sino también la optimización de la eficiencia y la adaptabilidad en contextos dinámicos y de elevada incertidumbre, como por ejemplo los sistemas de RL, han revolucionado la gestión de cadenas de suministro, el diseño de estrategias financieras y el desarrollo de tecnologías autónomas, tales como vehículos o drones. Este tipo de progresos, al no ser capitalizados en el escenario colombiano, restringe las posibilidades de innovación y expansión en sectores cruciales que podrían obtener beneficios significativos de estas tecnologías emergentes. La escasa adopción del aprendizaje reforzado en Colombia tiene una repercusión directa en la habilidad de la nación para competir en un escenario global cada vez más dominado por la inteligencia artificial Adicionalmente, esta disparidad tecnológica perpetúa la dependencia de soluciones de origen importado, incrementando los costos y restringiendo la habilidad de adaptar tecnologías a las necesidades particulares del local, en una nación con una amplia gama de desafíos, tales como la administración eficaz de recursos naturales, la optimización de sistemas de transporte urbano o la automatización de procesos industriales, la aplicación de métodos avanzados de Resiliencia Logística podría generar un impacto significativo al proporcionar soluciones personalizadas y de alta eficiencia. Este proyecto propone una comparación entre tres enfoques de aprendizaje por refuerzo ampliamente estudiados en la literatura, esto a través de un modelo propio desarrollado en el contexto de esta investigación. El propósito primordial es examinar la manera en que estos métodos pueden abordar problemas prácticos en sectores específicos, y evidenciar las ventajas que proporcionan en términos de estabilidad, adaptabilidad y eficacia, al examinar su aplicación en escenarios reales, se aspira no solo a generar conocimiento local sobre esta tecnología, sino también a incentivar su adopción en sectores estratégicos, promoviendo de esta manera el avance tecnológico y la competitividad de Colombia. Adicionalmente, este estudio puede actuar como un vínculo entre la investigación académica y las de mandas industriales, proporcionando pruebas tangibles de cómo el aprendizaje por refuerzo puede abordar problemas particulares en Colombia. No solo será beneficioso para la comunidad científica, sino también para las empresas y entidades gubernamentales que buscan soluciones innovadoras y sostenibles para abor dar los retos contemporáneos. Al fomentar el desarrollo y la adopción de esta tecnología se contribuye a la eliminación de la brecha tecnológica existente y a la consolidación de la nación como un actor significativo en el ámbito de la inteligencia artificial en América Latina y en el ámbito global, con esta perspectiva, el proyecto tiene como objetivo no solo incrementar el conocimiento sobre el aprendizaje por refuerzo en el ámbito colombiano, sino también fomentar la elaboración de políticas públicas, programas educativos y colaboraciones interinstitucionales que fomenten la adopción de esta tecnología en favor del progreso social, económico y tecnológico de la nación.
publishDate 2024
dc.date.issued.none.fl_str_mv 2024
dc.date.accessioned.none.fl_str_mv 2025-02-27T21:05:46Z
dc.date.available.none.fl_str_mv 2025-02-27T21:05:46Z
dc.type.none.fl_str_mv Trabajo de grado - Pregrado
dc.type.coar.none.fl_str_mv http://purl.org/coar/resource_type/c_7a1f
dc.type.content.none.fl_str_mv Text
dc.type.driver.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.redcol.none.fl_str_mv http://purl.org/redcol/resource_type/TP
dc.type.version.none.fl_str_mv info:eu-repo/semantics/acceptedVersion
format http://purl.org/coar/resource_type/c_7a1f
status_str acceptedVersion
dc.identifier.citation.none.fl_str_mv Caicedo Vidal, A., & Jiménez Lozano, J.A. (2024). Estudio Comparativo de Técnicas de Aprendizaje Reforzado en Entornos Controlados. [Informe ciclo coterminal, Universidad de Ibagué]. https://hdl.handle.net/20.500.12313/4746
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12313/4746
identifier_str_mv Caicedo Vidal, A., & Jiménez Lozano, J.A. (2024). Estudio Comparativo de Técnicas de Aprendizaje Reforzado en Entornos Controlados. [Informe ciclo coterminal, Universidad de Ibagué]. https://hdl.handle.net/20.500.12313/4746
url https://hdl.handle.net/20.500.12313/4746
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.references.none.fl_str_mv Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533. https: //doi.org/10.1038/nature14236
Kaiser, Ł., & Jaderberg, M. (2018). Learning to communicate with deep multi-agent reinforcement learning. Advances in Neural Information Processing Systems, 31, 2137-2145.
Dulac-Arnold, G., Mankowitz, D. J., & Hester, T. (2019). Challenges of real-world reinforcement lear ning. In Proceedings of the AAAI Conference on Artificial Intelligence, 33(01), 1534-1541. https: //doi.org/10.1609/aaai.v33i01.33011534
Bertsekas, D. P. (2019). Reinforcement Learning and Optimal Control. Athena Scientific.
Pey, J. J. J., & Samarakoon, S. M. B. P. (2023). Reinforcement learning for reconfigurable robotic soccer. Disponible en https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10858137
Zhang, J., Zhang, Z., Han, S., & Lü, S. (2022). Proximal policy optimization via enhanced exploration efficiency. Information Sciences, Elsevier. Tomado de https://www.sciencedirect.com/science/ article/abs/pii/S0020025522008
Darbandi, A., Brockmann, G., Ni, S., & Kriegel, M. (2024). Energy scheduling strategy for energy hubs using reinforcement learning approach. Elsevier. Disponible en https://pdf.sciencedirectassets. com/312002/1-s2.0-S2352710224X00157/1-s2.0-S2352710224025981/main.pdf
Pascual, A., & Shin, S. Y. (2024). Multi-Agent Deep Reinforcement Learning Based on Soft Actor-Critic for Self-Collaborating UAVs in a Swarm. In 2024 15th International Conference on Ubiquitous and Future Networks (ICUFN). IEEE. https://ieeexplore.ieee.org/abstract/document/10826729/
Zhang, Q., Ma, W., Zheng, Q., Zhai, X., & Zhang, W. (2024). Path planning of mobile robot in dynamic obstacle avoidance environment based on deep reinforcement learning. IEEE Xplore. Disponible en https://ieeexplore.ieee.org/abstract/document/10769446/
Sonmez, S., Martini, S., & Rutherford, M. J. (2024). Reinforcement learning based PID parameter tuning and estimation for multirotor UAVs. In IEEE Conference on Unmanned Aircraft Systems (ICUAS). IEEE. https://ieeexplore.ieee.org/abstract/document/10557032/
Mejía Estrada, D. (2023). Aprendizaje Reforzado Profundo para la Administración de Portafolios de Renta Fija. Universidad EAFIT. Tomado de https://repository.eafit.edu.co/server/api/core/ bitstreams/6c6da72c-0a5d-4eae-a500-bc91d6970bd6/content
Angarita, N. (s.f.). Aplicación de algoritmos de Reinforcement Learning en el juego Colonos de Catán. Universidad de los Andes. Tomado de https://repositorio.uniandes.edu.co/server/api/core/ bitstreams/6d342d58-3229-457b-be54-2ace07198a50/content
Díaz Latorre, A. S. (2019). Aprendizaje por refuerzo para control de sistemas dinámicos [Trabajo de grado, Universidad Autónoma de Occidente]. Santiago de Cali, Colombia. Tomado de https://red. uao.edu.co/server/api/core/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/content
Zea Gutiérrez, J. A., Suárez Barón, M. J., & González Sanabria, J. S. (2024). Aprendizaje por refuerzo como soporte a la predicción de la precipitación mensual. Caso de estudio: Departamento de Boyacá Colombia. TecnoLógicas, 27(60), e3017. https://doi.org/10.22430/22565337.3017
Duarte Antolinez, J. D. (2019). Estudio e implementación de Machine Learning en el desarrollo de vi deojuegos [Trabajo de grado, Universidad Autónoma de Bucaramanga]. Tomado de https://repository. unab.edu.co/bitstream/handle/20.500.12749/6971/2019_Tesis_Duarte_Antolinez_Juan_Diego. pdf?sequence=1&isAllowed=y
Quintero González, C. (2024). Aprendizaje reforzado en pair-trading. Aplicación para una estrategia pair-trading. Odeon, 26, 55-93. https://doi.org/10.18601/17941113.n26.04
dc.rights.accessrights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.coar.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.rights.license.none.fl_str_mv Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nc/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://purl.org/coar/access_right/c_abf2
Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)
https://creativecommons.org/licenses/by-nc/4.0/
dc.format.extent.none.fl_str_mv 33 páginas
dc.format.mimetype.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Ibagué
dc.publisher.faculty.none.fl_str_mv Ingeniería
dc.publisher.place.none.fl_str_mv Ibagué
dc.publisher.program.none.fl_str_mv Ingeniería Mecánica
publisher.none.fl_str_mv Universidad de Ibagué
institution Universidad de Ibagué
bitstream.url.fl_str_mv https://repositorio.unibague.edu.co/bitstreams/6ee089b0-b723-4c95-a0bb-a3d70e2f2d09/download
https://repositorio.unibague.edu.co/bitstreams/5e68231a-a977-445f-aaf0-a3b6d011d63b/download
https://repositorio.unibague.edu.co/bitstreams/2b6cc6d7-c080-4b9a-8e98-40b35d02bdff/download
https://repositorio.unibague.edu.co/bitstreams/ace0c2de-ea19-4822-9a5d-49d022ba10d0/download
https://repositorio.unibague.edu.co/bitstreams/1bb8ac42-5b93-4949-908f-22351f977e8c/download
https://repositorio.unibague.edu.co/bitstreams/c1852588-6b22-479a-a52b-344814200e3c/download
https://repositorio.unibague.edu.co/bitstreams/0a4a14b6-6149-4a79-bcc0-4bee2248b6b8/download
bitstream.checksum.fl_str_mv 695f87a26ebb9d98d32a3fd5c7d7c694
3d33914b1f570dac73082a52b4632d19
2fa3e590786b9c0f3ceba1b9656b7ac3
7d283d92a27833c59bdfcfa58e28c0d4
2d6e5f37be9eaa57f5d9ef716d4fa68a
6bc71044a4d65b0b4e2e06f2b28a2e0f
cbf3da2741484b15408d39fbf4dfeb1a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Universidad de Ibagué
repository.mail.fl_str_mv bdigital@metabiblioteca.com
_version_ 1851059964002435072
spelling Forero, Manuel Guillermo1f801cd5-83c4-494d-96fd-e1f94124f1b2-1Caicedo Vidal, Alvaroe1862476-5c0b-4901-b037-854009f1be60-1Jiménez Lozano, Jorge Andrésc7e06546-a214-48d6-b9ce-f107eac1f9a0-1Barrero, Oscar56865c78-6aa3-46fe-9699-69c1b65e0dfb-12025-02-27T21:05:46Z2025-02-27T21:05:46Z2024En Colombia la inteligencia artificial (IA) se ha erigido como un área de creciente interés, particularmente en dominios como el procesamiento del lenguaje natural y la visión computacional. No obstante, en este contexto, la adopción del aprendizaje por refuerzo (conocido por sus siglas en inglés como RL) aún es limitada, esta tecnología ha demostrado ser un instrumento potente para solucionar problemas de toma de decisiones complejos en naciones desarrolladas, se encuentra en una situación de subutilización debido a la falta de conocimiento sobre sus fundamentos, aplicaciones prácticas y el impacto que puede tener en diversos sectores, la disparidad en la implementación de la Responsabilidad Limitada no sólo manifiesta una carencia de infraestructura tecnológica apropiada, sino también un déficit en la capacitación académica y profesional que facilite la integración de este enfoque en los procesos productivos, educativos e industriales de la nación. En otras naciones el aprendizaje reforzado se ha utilizado exitosamente en áreas como la robótica, la optimización de procesos logísticos, la administración de recursos naturales y la planificación estratégica en tiempo real. Estas aplicaciones han facilitado no solamente la automatización de tareas de alta complejidad, sino también la optimización de la eficiencia y la adaptabilidad en contextos dinámicos y de elevada incertidumbre, como por ejemplo los sistemas de RL, han revolucionado la gestión de cadenas de suministro, el diseño de estrategias financieras y el desarrollo de tecnologías autónomas, tales como vehículos o drones. Este tipo de progresos, al no ser capitalizados en el escenario colombiano, restringe las posibilidades de innovación y expansión en sectores cruciales que podrían obtener beneficios significativos de estas tecnologías emergentes. La escasa adopción del aprendizaje reforzado en Colombia tiene una repercusión directa en la habilidad de la nación para competir en un escenario global cada vez más dominado por la inteligencia artificial Adicionalmente, esta disparidad tecnológica perpetúa la dependencia de soluciones de origen importado, incrementando los costos y restringiendo la habilidad de adaptar tecnologías a las necesidades particulares del local, en una nación con una amplia gama de desafíos, tales como la administración eficaz de recursos naturales, la optimización de sistemas de transporte urbano o la automatización de procesos industriales, la aplicación de métodos avanzados de Resiliencia Logística podría generar un impacto significativo al proporcionar soluciones personalizadas y de alta eficiencia. Este proyecto propone una comparación entre tres enfoques de aprendizaje por refuerzo ampliamente estudiados en la literatura, esto a través de un modelo propio desarrollado en el contexto de esta investigación. El propósito primordial es examinar la manera en que estos métodos pueden abordar problemas prácticos en sectores específicos, y evidenciar las ventajas que proporcionan en términos de estabilidad, adaptabilidad y eficacia, al examinar su aplicación en escenarios reales, se aspira no solo a generar conocimiento local sobre esta tecnología, sino también a incentivar su adopción en sectores estratégicos, promoviendo de esta manera el avance tecnológico y la competitividad de Colombia. Adicionalmente, este estudio puede actuar como un vínculo entre la investigación académica y las de mandas industriales, proporcionando pruebas tangibles de cómo el aprendizaje por refuerzo puede abordar problemas particulares en Colombia. No solo será beneficioso para la comunidad científica, sino también para las empresas y entidades gubernamentales que buscan soluciones innovadoras y sostenibles para abor dar los retos contemporáneos. Al fomentar el desarrollo y la adopción de esta tecnología se contribuye a la eliminación de la brecha tecnológica existente y a la consolidación de la nación como un actor significativo en el ámbito de la inteligencia artificial en América Latina y en el ámbito global, con esta perspectiva, el proyecto tiene como objetivo no solo incrementar el conocimiento sobre el aprendizaje por refuerzo en el ámbito colombiano, sino también fomentar la elaboración de políticas públicas, programas educativos y colaboraciones interinstitucionales que fomenten la adopción de esta tecnología en favor del progreso social, económico y tecnológico de la nación.In Colombia, artificial intelligence (AI) has emerged as an area of ​​growing interest, particularly in domains such as natural language processing and computer vision. However, in this context, the adoption of reinforcement learning (known by its acronym in English as RL) is still limited. This technology has proven to be a powerful tool for solving complex decision-making problems in developed nations. It is underutilized due to the lack of knowledge about its foundations, practical applications, and the impact it can have on various sectors. The disparity in the implementation of Limited Liability not only manifests a lack of appropriate technological infrastructure, but also a deficit in academic and professional training that facilitates the integration of this approach in the productive, educational, and industrial processes of the nation. In other nations, reinforcement learning has been used successfully in areas such as robotics, logistics process optimization, natural resource management, and real-time strategic planning. These applications have facilitated not only the automation of highly complex tasks, but also the optimization of efficiency and adaptability in dynamic and highly uncertain contexts, such as RL systems, which have revolutionized supply chain management, the design of financial strategies and the development of autonomous technologies, such as vehicles or drones. This type of progress, when not capitalized on in the Colombian scenario, restricts the possibilities of innovation and expansion in crucial sectors that could obtain significant benefits from these emerging technologies. The low adoption of reinforcement learning in Colombia has a direct impact on the nation's ability to compete in a global scenario increasingly dominated by artificial intelligence. Additionally, this technological disparity perpetuates the dependence on imported solutions, increasing costs and restricting the ability to adapt technologies to the particular needs of the local. In a nation with a wide range of challenges, such as the effective management of natural resources, the optimization of urban transportation systems or the automation of industrial processes, the application of advanced Logistics Resilience methods could generate a significant impact by providing customized and highly efficient solutions. This project proposes a comparison between three reinforcement learning approaches widely studied in the literature, through a model developed in the context of this research. The primary purpose is to examine how these methods can address practical problems in specific sectors, and to demonstrate the advantages they provide in terms of stability, adaptability and effectiveness. By examining their application in real scenarios, we aspire not only to generate local knowledge about this technology, but also to encourage its adoption in strategic sectors, thus promoting technological advancement and competitiveness in Colombia. Additionally, this study can act as a link between academic research and industrial demands, providing tangible evidence of how reinforcement learning can address particular problems in Colombia. It will not only be beneficial to the scientific community, but also to companies and government entities seeking innovative and sustainable solutions to address contemporary challenges. By promoting the development and adoption of this technology, we contribute to the elimination of the existing technological gap and to the consolidation of the nation as a significant player in the field of artificial intelligence in Latin America and globally. With this perspective, the project aims not only to increase knowledge about reinforcement learning in Colombia, but also to promote the development of public policies, educational programs and inter-institutional collaborations that encourage the adoption of this technology in favor of the social, economic and technological progress of the nation.PregradoIngeniero MecánicoIntroducción..... 1 Marco de referencia..... 2 Aspectos Metodologícos..... 12 Presentación y discuciónde resultados..... 13 Conclusiones y recomendaciones..... 21 Referencias bibliográficas..... 22 Anexos..... 2533 páginasapplication/pdfCaicedo Vidal, A., & Jiménez Lozano, J.A. (2024). Estudio Comparativo de Técnicas de Aprendizaje Reforzado en Entornos Controlados. [Informe ciclo coterminal, Universidad de Ibagué]. https://hdl.handle.net/20.500.12313/4746https://hdl.handle.net/20.500.12313/4746spaUniversidad de IbaguéIngenieríaIbaguéIngeniería MecánicaMnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533. https: //doi.org/10.1038/nature14236Kaiser, Ł., & Jaderberg, M. (2018). Learning to communicate with deep multi-agent reinforcement learning. Advances in Neural Information Processing Systems, 31, 2137-2145.Dulac-Arnold, G., Mankowitz, D. J., & Hester, T. (2019). Challenges of real-world reinforcement lear ning. In Proceedings of the AAAI Conference on Artificial Intelligence, 33(01), 1534-1541. https: //doi.org/10.1609/aaai.v33i01.33011534Bertsekas, D. P. (2019). Reinforcement Learning and Optimal Control. Athena Scientific.Pey, J. J. J., & Samarakoon, S. M. B. P. (2023). Reinforcement learning for reconfigurable robotic soccer. Disponible en https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10858137Zhang, J., Zhang, Z., Han, S., & Lü, S. (2022). Proximal policy optimization via enhanced exploration efficiency. Information Sciences, Elsevier. Tomado de https://www.sciencedirect.com/science/ article/abs/pii/S0020025522008Darbandi, A., Brockmann, G., Ni, S., & Kriegel, M. (2024). Energy scheduling strategy for energy hubs using reinforcement learning approach. Elsevier. Disponible en https://pdf.sciencedirectassets. com/312002/1-s2.0-S2352710224X00157/1-s2.0-S2352710224025981/main.pdfPascual, A., & Shin, S. Y. (2024). Multi-Agent Deep Reinforcement Learning Based on Soft Actor-Critic for Self-Collaborating UAVs in a Swarm. In 2024 15th International Conference on Ubiquitous and Future Networks (ICUFN). IEEE. https://ieeexplore.ieee.org/abstract/document/10826729/Zhang, Q., Ma, W., Zheng, Q., Zhai, X., & Zhang, W. (2024). Path planning of mobile robot in dynamic obstacle avoidance environment based on deep reinforcement learning. IEEE Xplore. Disponible en https://ieeexplore.ieee.org/abstract/document/10769446/Sonmez, S., Martini, S., & Rutherford, M. J. (2024). Reinforcement learning based PID parameter tuning and estimation for multirotor UAVs. In IEEE Conference on Unmanned Aircraft Systems (ICUAS). IEEE. https://ieeexplore.ieee.org/abstract/document/10557032/Mejía Estrada, D. (2023). Aprendizaje Reforzado Profundo para la Administración de Portafolios de Renta Fija. Universidad EAFIT. Tomado de https://repository.eafit.edu.co/server/api/core/ bitstreams/6c6da72c-0a5d-4eae-a500-bc91d6970bd6/contentAngarita, N. (s.f.). Aplicación de algoritmos de Reinforcement Learning en el juego Colonos de Catán. Universidad de los Andes. Tomado de https://repositorio.uniandes.edu.co/server/api/core/ bitstreams/6d342d58-3229-457b-be54-2ace07198a50/contentDíaz Latorre, A. S. (2019). Aprendizaje por refuerzo para control de sistemas dinámicos [Trabajo de grado, Universidad Autónoma de Occidente]. Santiago de Cali, Colombia. Tomado de https://red. uao.edu.co/server/api/core/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/contentZea Gutiérrez, J. A., Suárez Barón, M. J., & González Sanabria, J. S. (2024). Aprendizaje por refuerzo como soporte a la predicción de la precipitación mensual. Caso de estudio: Departamento de Boyacá Colombia. TecnoLógicas, 27(60), e3017. https://doi.org/10.22430/22565337.3017Duarte Antolinez, J. D. (2019). Estudio e implementación de Machine Learning en el desarrollo de vi deojuegos [Trabajo de grado, Universidad Autónoma de Bucaramanga]. Tomado de https://repository. unab.edu.co/bitstream/handle/20.500.12749/6971/2019_Tesis_Duarte_Antolinez_Juan_Diego. pdf?sequence=1&isAllowed=yQuintero González, C. (2024). Aprendizaje reforzado en pair-trading. Aplicación para una estrategia pair-trading. Odeon, 26, 55-93. https://doi.org/10.18601/17941113.n26.04info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)https://creativecommons.org/licenses/by-nc/4.0/Entornos Controlados - Técnicas de aprendizajeEntornos Controlados - Técnicas de aprendizaje reforzadoAprendizaje ReforzadoReinforcement LearningOptimización de PolíticasPolicy OptimizationProximal Policy Optimization (PPO)Deep Deterministic Policy Gradient (DDPG)Soft Actor-Critic (SAC)Optimización de políticas proximales (PPO)Gradiente de políticas determinista profundas (DDPG)Actor-crítico blando (SAC)Estudio comparativo de técnicas de aprendizaje reforzado en entornos controladosTrabajo de grado - Pregradohttp://purl.org/coar/resource_type/c_7a1fTextinfo:eu-repo/semantics/bachelorThesishttp://purl.org/redcol/resource_type/TPinfo:eu-repo/semantics/acceptedVersionPublicationORIGINALTrabajo de grado.pdfTrabajo de grado.pdfapplication/pdf498483https://repositorio.unibague.edu.co/bitstreams/6ee089b0-b723-4c95-a0bb-a3d70e2f2d09/download695f87a26ebb9d98d32a3fd5c7d7c694MD51Formato de autorización .pdfFormato de autorización .pdfapplication/pdf166140https://repositorio.unibague.edu.co/bitstreams/5e68231a-a977-445f-aaf0-a3b6d011d63b/download3d33914b1f570dac73082a52b4632d19MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8134https://repositorio.unibague.edu.co/bitstreams/2b6cc6d7-c080-4b9a-8e98-40b35d02bdff/download2fa3e590786b9c0f3ceba1b9656b7ac3MD53TEXTTrabajo de grado.pdf.txtTrabajo de grado.pdf.txtExtracted texttext/plain64167https://repositorio.unibague.edu.co/bitstreams/ace0c2de-ea19-4822-9a5d-49d022ba10d0/download7d283d92a27833c59bdfcfa58e28c0d4MD58Formato de autorización .pdf.txtFormato de autorización .pdf.txtExtracted texttext/plain3824https://repositorio.unibague.edu.co/bitstreams/1bb8ac42-5b93-4949-908f-22351f977e8c/download2d6e5f37be9eaa57f5d9ef716d4fa68aMD510THUMBNAILTrabajo de grado.pdf.jpgTrabajo de grado.pdf.jpgIM Thumbnailimage/jpeg24602https://repositorio.unibague.edu.co/bitstreams/c1852588-6b22-479a-a52b-344814200e3c/download6bc71044a4d65b0b4e2e06f2b28a2e0fMD59Formato de autorización .pdf.jpgFormato de autorización .pdf.jpgIM Thumbnailimage/jpeg22950https://repositorio.unibague.edu.co/bitstreams/0a4a14b6-6149-4a79-bcc0-4bee2248b6b8/downloadcbf3da2741484b15408d39fbf4dfeb1aMD51120.500.12313/4746oai:repositorio.unibague.edu.co:20.500.12313/47462025-08-13 02:17:06.866https://creativecommons.org/licenses/by-nc/4.0/https://repositorio.unibague.edu.coRepositorio Institucional Universidad de Ibaguébdigital@metabiblioteca.comQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbi1Ob25Db21tZXJjaWFsLU5vRGVyaXZhdGl2ZXMgNC4wIEludGVybmF0aW9uYWwgTGljZW5zZQ0KaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8=