Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados
En Colombia la inteligencia artificial (IA) se ha erigido como un área de creciente interés, particularmente en dominios como el procesamiento del lenguaje natural y la visión computacional. No obstante, en este contexto, la adopción del aprendizaje por refuerzo (conocido por sus siglas en inglés co...
- Autores:
-
Caicedo Vidal, Alvaro
Jiménez Lozano, Jorge Andrés
- Tipo de recurso:
- Trabajo de grado de pregrado
- Fecha de publicación:
- 2024
- Institución:
- Universidad de Ibagué
- Repositorio:
- Repositorio Universidad de Ibagué
- Idioma:
- spa
- OAI Identifier:
- oai:repositorio.unibague.edu.co:20.500.12313/4746
- Acceso en línea:
- https://hdl.handle.net/20.500.12313/4746
- Palabra clave:
- Entornos Controlados - Técnicas de aprendizaje
Entornos Controlados - Técnicas de aprendizaje reforzado
Aprendizaje Reforzado
Reinforcement Learning
Optimización de Políticas
Policy Optimization
Proximal Policy Optimization (PPO)
Deep Deterministic Policy Gradient (DDPG)
Soft Actor-Critic (SAC)
Optimización de políticas proximales (PPO)
Gradiente de políticas determinista profundas (DDPG)
Actor-crítico blando (SAC)
- Rights
- openAccess
- License
- http://purl.org/coar/access_right/c_abf2
| id |
UNIBAGUE2_79e7d49a3f6916da1cab1986e20389f1 |
|---|---|
| oai_identifier_str |
oai:repositorio.unibague.edu.co:20.500.12313/4746 |
| network_acronym_str |
UNIBAGUE2 |
| network_name_str |
Repositorio Universidad de Ibagué |
| repository_id_str |
|
| dc.title.spa.fl_str_mv |
Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados |
| title |
Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados |
| spellingShingle |
Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados Entornos Controlados - Técnicas de aprendizaje Entornos Controlados - Técnicas de aprendizaje reforzado Aprendizaje Reforzado Reinforcement Learning Optimización de Políticas Policy Optimization Proximal Policy Optimization (PPO) Deep Deterministic Policy Gradient (DDPG) Soft Actor-Critic (SAC) Optimización de políticas proximales (PPO) Gradiente de políticas determinista profundas (DDPG) Actor-crítico blando (SAC) |
| title_short |
Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados |
| title_full |
Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados |
| title_fullStr |
Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados |
| title_full_unstemmed |
Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados |
| title_sort |
Estudio comparativo de técnicas de aprendizaje reforzado en entornos controlados |
| dc.creator.fl_str_mv |
Caicedo Vidal, Alvaro Jiménez Lozano, Jorge Andrés |
| dc.contributor.advisor.none.fl_str_mv |
Forero, Manuel Guillermo |
| dc.contributor.author.none.fl_str_mv |
Caicedo Vidal, Alvaro Jiménez Lozano, Jorge Andrés |
| dc.contributor.jury.none.fl_str_mv |
Barrero, Oscar |
| dc.subject.armarc.none.fl_str_mv |
Entornos Controlados - Técnicas de aprendizaje Entornos Controlados - Técnicas de aprendizaje reforzado |
| topic |
Entornos Controlados - Técnicas de aprendizaje Entornos Controlados - Técnicas de aprendizaje reforzado Aprendizaje Reforzado Reinforcement Learning Optimización de Políticas Policy Optimization Proximal Policy Optimization (PPO) Deep Deterministic Policy Gradient (DDPG) Soft Actor-Critic (SAC) Optimización de políticas proximales (PPO) Gradiente de políticas determinista profundas (DDPG) Actor-crítico blando (SAC) |
| dc.subject.proposal.spa.fl_str_mv |
Aprendizaje Reforzado Reinforcement Learning Optimización de Políticas Policy Optimization Proximal Policy Optimization (PPO) |
| dc.subject.proposal.eng.fl_str_mv |
Deep Deterministic Policy Gradient (DDPG) Soft Actor-Critic (SAC) Optimización de políticas proximales (PPO) Gradiente de políticas determinista profundas (DDPG) Actor-crítico blando (SAC) |
| description |
En Colombia la inteligencia artificial (IA) se ha erigido como un área de creciente interés, particularmente en dominios como el procesamiento del lenguaje natural y la visión computacional. No obstante, en este contexto, la adopción del aprendizaje por refuerzo (conocido por sus siglas en inglés como RL) aún es limitada, esta tecnología ha demostrado ser un instrumento potente para solucionar problemas de toma de decisiones complejos en naciones desarrolladas, se encuentra en una situación de subutilización debido a la falta de conocimiento sobre sus fundamentos, aplicaciones prácticas y el impacto que puede tener en diversos sectores, la disparidad en la implementación de la Responsabilidad Limitada no sólo manifiesta una carencia de infraestructura tecnológica apropiada, sino también un déficit en la capacitación académica y profesional que facilite la integración de este enfoque en los procesos productivos, educativos e industriales de la nación. En otras naciones el aprendizaje reforzado se ha utilizado exitosamente en áreas como la robótica, la optimización de procesos logísticos, la administración de recursos naturales y la planificación estratégica en tiempo real. Estas aplicaciones han facilitado no solamente la automatización de tareas de alta complejidad, sino también la optimización de la eficiencia y la adaptabilidad en contextos dinámicos y de elevada incertidumbre, como por ejemplo los sistemas de RL, han revolucionado la gestión de cadenas de suministro, el diseño de estrategias financieras y el desarrollo de tecnologías autónomas, tales como vehículos o drones. Este tipo de progresos, al no ser capitalizados en el escenario colombiano, restringe las posibilidades de innovación y expansión en sectores cruciales que podrían obtener beneficios significativos de estas tecnologías emergentes. La escasa adopción del aprendizaje reforzado en Colombia tiene una repercusión directa en la habilidad de la nación para competir en un escenario global cada vez más dominado por la inteligencia artificial Adicionalmente, esta disparidad tecnológica perpetúa la dependencia de soluciones de origen importado, incrementando los costos y restringiendo la habilidad de adaptar tecnologías a las necesidades particulares del local, en una nación con una amplia gama de desafíos, tales como la administración eficaz de recursos naturales, la optimización de sistemas de transporte urbano o la automatización de procesos industriales, la aplicación de métodos avanzados de Resiliencia Logística podría generar un impacto significativo al proporcionar soluciones personalizadas y de alta eficiencia. Este proyecto propone una comparación entre tres enfoques de aprendizaje por refuerzo ampliamente estudiados en la literatura, esto a través de un modelo propio desarrollado en el contexto de esta investigación. El propósito primordial es examinar la manera en que estos métodos pueden abordar problemas prácticos en sectores específicos, y evidenciar las ventajas que proporcionan en términos de estabilidad, adaptabilidad y eficacia, al examinar su aplicación en escenarios reales, se aspira no solo a generar conocimiento local sobre esta tecnología, sino también a incentivar su adopción en sectores estratégicos, promoviendo de esta manera el avance tecnológico y la competitividad de Colombia. Adicionalmente, este estudio puede actuar como un vínculo entre la investigación académica y las de mandas industriales, proporcionando pruebas tangibles de cómo el aprendizaje por refuerzo puede abordar problemas particulares en Colombia. No solo será beneficioso para la comunidad científica, sino también para las empresas y entidades gubernamentales que buscan soluciones innovadoras y sostenibles para abor dar los retos contemporáneos. Al fomentar el desarrollo y la adopción de esta tecnología se contribuye a la eliminación de la brecha tecnológica existente y a la consolidación de la nación como un actor significativo en el ámbito de la inteligencia artificial en América Latina y en el ámbito global, con esta perspectiva, el proyecto tiene como objetivo no solo incrementar el conocimiento sobre el aprendizaje por refuerzo en el ámbito colombiano, sino también fomentar la elaboración de políticas públicas, programas educativos y colaboraciones interinstitucionales que fomenten la adopción de esta tecnología en favor del progreso social, económico y tecnológico de la nación. |
| publishDate |
2024 |
| dc.date.issued.none.fl_str_mv |
2024 |
| dc.date.accessioned.none.fl_str_mv |
2025-02-27T21:05:46Z |
| dc.date.available.none.fl_str_mv |
2025-02-27T21:05:46Z |
| dc.type.none.fl_str_mv |
Trabajo de grado - Pregrado |
| dc.type.coar.none.fl_str_mv |
http://purl.org/coar/resource_type/c_7a1f |
| dc.type.content.none.fl_str_mv |
Text |
| dc.type.driver.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| dc.type.redcol.none.fl_str_mv |
http://purl.org/redcol/resource_type/TP |
| dc.type.version.none.fl_str_mv |
info:eu-repo/semantics/acceptedVersion |
| format |
http://purl.org/coar/resource_type/c_7a1f |
| status_str |
acceptedVersion |
| dc.identifier.citation.none.fl_str_mv |
Caicedo Vidal, A., & Jiménez Lozano, J.A. (2024). Estudio Comparativo de Técnicas de Aprendizaje Reforzado en Entornos Controlados. [Informe ciclo coterminal, Universidad de Ibagué]. https://hdl.handle.net/20.500.12313/4746 |
| dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12313/4746 |
| identifier_str_mv |
Caicedo Vidal, A., & Jiménez Lozano, J.A. (2024). Estudio Comparativo de Técnicas de Aprendizaje Reforzado en Entornos Controlados. [Informe ciclo coterminal, Universidad de Ibagué]. https://hdl.handle.net/20.500.12313/4746 |
| url |
https://hdl.handle.net/20.500.12313/4746 |
| dc.language.iso.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.references.none.fl_str_mv |
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533. https: //doi.org/10.1038/nature14236 Kaiser, Ł., & Jaderberg, M. (2018). Learning to communicate with deep multi-agent reinforcement learning. Advances in Neural Information Processing Systems, 31, 2137-2145. Dulac-Arnold, G., Mankowitz, D. J., & Hester, T. (2019). Challenges of real-world reinforcement lear ning. In Proceedings of the AAAI Conference on Artificial Intelligence, 33(01), 1534-1541. https: //doi.org/10.1609/aaai.v33i01.33011534 Bertsekas, D. P. (2019). Reinforcement Learning and Optimal Control. Athena Scientific. Pey, J. J. J., & Samarakoon, S. M. B. P. (2023). Reinforcement learning for reconfigurable robotic soccer. Disponible en https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10858137 Zhang, J., Zhang, Z., Han, S., & Lü, S. (2022). Proximal policy optimization via enhanced exploration efficiency. Information Sciences, Elsevier. Tomado de https://www.sciencedirect.com/science/ article/abs/pii/S0020025522008 Darbandi, A., Brockmann, G., Ni, S., & Kriegel, M. (2024). Energy scheduling strategy for energy hubs using reinforcement learning approach. Elsevier. Disponible en https://pdf.sciencedirectassets. com/312002/1-s2.0-S2352710224X00157/1-s2.0-S2352710224025981/main.pdf Pascual, A., & Shin, S. Y. (2024). Multi-Agent Deep Reinforcement Learning Based on Soft Actor-Critic for Self-Collaborating UAVs in a Swarm. In 2024 15th International Conference on Ubiquitous and Future Networks (ICUFN). IEEE. https://ieeexplore.ieee.org/abstract/document/10826729/ Zhang, Q., Ma, W., Zheng, Q., Zhai, X., & Zhang, W. (2024). Path planning of mobile robot in dynamic obstacle avoidance environment based on deep reinforcement learning. IEEE Xplore. Disponible en https://ieeexplore.ieee.org/abstract/document/10769446/ Sonmez, S., Martini, S., & Rutherford, M. J. (2024). Reinforcement learning based PID parameter tuning and estimation for multirotor UAVs. In IEEE Conference on Unmanned Aircraft Systems (ICUAS). IEEE. https://ieeexplore.ieee.org/abstract/document/10557032/ Mejía Estrada, D. (2023). Aprendizaje Reforzado Profundo para la Administración de Portafolios de Renta Fija. Universidad EAFIT. Tomado de https://repository.eafit.edu.co/server/api/core/ bitstreams/6c6da72c-0a5d-4eae-a500-bc91d6970bd6/content Angarita, N. (s.f.). Aplicación de algoritmos de Reinforcement Learning en el juego Colonos de Catán. Universidad de los Andes. Tomado de https://repositorio.uniandes.edu.co/server/api/core/ bitstreams/6d342d58-3229-457b-be54-2ace07198a50/content Díaz Latorre, A. S. (2019). Aprendizaje por refuerzo para control de sistemas dinámicos [Trabajo de grado, Universidad Autónoma de Occidente]. Santiago de Cali, Colombia. Tomado de https://red. uao.edu.co/server/api/core/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/content Zea Gutiérrez, J. A., Suárez Barón, M. J., & González Sanabria, J. S. (2024). Aprendizaje por refuerzo como soporte a la predicción de la precipitación mensual. Caso de estudio: Departamento de Boyacá Colombia. TecnoLógicas, 27(60), e3017. https://doi.org/10.22430/22565337.3017 Duarte Antolinez, J. D. (2019). Estudio e implementación de Machine Learning en el desarrollo de vi deojuegos [Trabajo de grado, Universidad Autónoma de Bucaramanga]. Tomado de https://repository. unab.edu.co/bitstream/handle/20.500.12749/6971/2019_Tesis_Duarte_Antolinez_Juan_Diego. pdf?sequence=1&isAllowed=y Quintero González, C. (2024). Aprendizaje reforzado en pair-trading. Aplicación para una estrategia pair-trading. Odeon, 26, 55-93. https://doi.org/10.18601/17941113.n26.04 |
| dc.rights.accessrights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.coar.none.fl_str_mv |
http://purl.org/coar/access_right/c_abf2 |
| dc.rights.license.none.fl_str_mv |
Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) |
| dc.rights.uri.none.fl_str_mv |
https://creativecommons.org/licenses/by-nc/4.0/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://purl.org/coar/access_right/c_abf2 Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0) https://creativecommons.org/licenses/by-nc/4.0/ |
| dc.format.extent.none.fl_str_mv |
33 páginas |
| dc.format.mimetype.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidad de Ibagué |
| dc.publisher.faculty.none.fl_str_mv |
Ingeniería |
| dc.publisher.place.none.fl_str_mv |
Ibagué |
| dc.publisher.program.none.fl_str_mv |
Ingeniería Mecánica |
| publisher.none.fl_str_mv |
Universidad de Ibagué |
| institution |
Universidad de Ibagué |
| bitstream.url.fl_str_mv |
https://repositorio.unibague.edu.co/bitstreams/6ee089b0-b723-4c95-a0bb-a3d70e2f2d09/download https://repositorio.unibague.edu.co/bitstreams/5e68231a-a977-445f-aaf0-a3b6d011d63b/download https://repositorio.unibague.edu.co/bitstreams/2b6cc6d7-c080-4b9a-8e98-40b35d02bdff/download https://repositorio.unibague.edu.co/bitstreams/ace0c2de-ea19-4822-9a5d-49d022ba10d0/download https://repositorio.unibague.edu.co/bitstreams/1bb8ac42-5b93-4949-908f-22351f977e8c/download https://repositorio.unibague.edu.co/bitstreams/c1852588-6b22-479a-a52b-344814200e3c/download https://repositorio.unibague.edu.co/bitstreams/0a4a14b6-6149-4a79-bcc0-4bee2248b6b8/download |
| bitstream.checksum.fl_str_mv |
695f87a26ebb9d98d32a3fd5c7d7c694 3d33914b1f570dac73082a52b4632d19 2fa3e590786b9c0f3ceba1b9656b7ac3 7d283d92a27833c59bdfcfa58e28c0d4 2d6e5f37be9eaa57f5d9ef716d4fa68a 6bc71044a4d65b0b4e2e06f2b28a2e0f cbf3da2741484b15408d39fbf4dfeb1a |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional Universidad de Ibagué |
| repository.mail.fl_str_mv |
bdigital@metabiblioteca.com |
| _version_ |
1851059964002435072 |
| spelling |
Forero, Manuel Guillermo1f801cd5-83c4-494d-96fd-e1f94124f1b2-1Caicedo Vidal, Alvaroe1862476-5c0b-4901-b037-854009f1be60-1Jiménez Lozano, Jorge Andrésc7e06546-a214-48d6-b9ce-f107eac1f9a0-1Barrero, Oscar56865c78-6aa3-46fe-9699-69c1b65e0dfb-12025-02-27T21:05:46Z2025-02-27T21:05:46Z2024En Colombia la inteligencia artificial (IA) se ha erigido como un área de creciente interés, particularmente en dominios como el procesamiento del lenguaje natural y la visión computacional. No obstante, en este contexto, la adopción del aprendizaje por refuerzo (conocido por sus siglas en inglés como RL) aún es limitada, esta tecnología ha demostrado ser un instrumento potente para solucionar problemas de toma de decisiones complejos en naciones desarrolladas, se encuentra en una situación de subutilización debido a la falta de conocimiento sobre sus fundamentos, aplicaciones prácticas y el impacto que puede tener en diversos sectores, la disparidad en la implementación de la Responsabilidad Limitada no sólo manifiesta una carencia de infraestructura tecnológica apropiada, sino también un déficit en la capacitación académica y profesional que facilite la integración de este enfoque en los procesos productivos, educativos e industriales de la nación. En otras naciones el aprendizaje reforzado se ha utilizado exitosamente en áreas como la robótica, la optimización de procesos logísticos, la administración de recursos naturales y la planificación estratégica en tiempo real. Estas aplicaciones han facilitado no solamente la automatización de tareas de alta complejidad, sino también la optimización de la eficiencia y la adaptabilidad en contextos dinámicos y de elevada incertidumbre, como por ejemplo los sistemas de RL, han revolucionado la gestión de cadenas de suministro, el diseño de estrategias financieras y el desarrollo de tecnologías autónomas, tales como vehículos o drones. Este tipo de progresos, al no ser capitalizados en el escenario colombiano, restringe las posibilidades de innovación y expansión en sectores cruciales que podrían obtener beneficios significativos de estas tecnologías emergentes. La escasa adopción del aprendizaje reforzado en Colombia tiene una repercusión directa en la habilidad de la nación para competir en un escenario global cada vez más dominado por la inteligencia artificial Adicionalmente, esta disparidad tecnológica perpetúa la dependencia de soluciones de origen importado, incrementando los costos y restringiendo la habilidad de adaptar tecnologías a las necesidades particulares del local, en una nación con una amplia gama de desafíos, tales como la administración eficaz de recursos naturales, la optimización de sistemas de transporte urbano o la automatización de procesos industriales, la aplicación de métodos avanzados de Resiliencia Logística podría generar un impacto significativo al proporcionar soluciones personalizadas y de alta eficiencia. Este proyecto propone una comparación entre tres enfoques de aprendizaje por refuerzo ampliamente estudiados en la literatura, esto a través de un modelo propio desarrollado en el contexto de esta investigación. El propósito primordial es examinar la manera en que estos métodos pueden abordar problemas prácticos en sectores específicos, y evidenciar las ventajas que proporcionan en términos de estabilidad, adaptabilidad y eficacia, al examinar su aplicación en escenarios reales, se aspira no solo a generar conocimiento local sobre esta tecnología, sino también a incentivar su adopción en sectores estratégicos, promoviendo de esta manera el avance tecnológico y la competitividad de Colombia. Adicionalmente, este estudio puede actuar como un vínculo entre la investigación académica y las de mandas industriales, proporcionando pruebas tangibles de cómo el aprendizaje por refuerzo puede abordar problemas particulares en Colombia. No solo será beneficioso para la comunidad científica, sino también para las empresas y entidades gubernamentales que buscan soluciones innovadoras y sostenibles para abor dar los retos contemporáneos. Al fomentar el desarrollo y la adopción de esta tecnología se contribuye a la eliminación de la brecha tecnológica existente y a la consolidación de la nación como un actor significativo en el ámbito de la inteligencia artificial en América Latina y en el ámbito global, con esta perspectiva, el proyecto tiene como objetivo no solo incrementar el conocimiento sobre el aprendizaje por refuerzo en el ámbito colombiano, sino también fomentar la elaboración de políticas públicas, programas educativos y colaboraciones interinstitucionales que fomenten la adopción de esta tecnología en favor del progreso social, económico y tecnológico de la nación.In Colombia, artificial intelligence (AI) has emerged as an area of growing interest, particularly in domains such as natural language processing and computer vision. However, in this context, the adoption of reinforcement learning (known by its acronym in English as RL) is still limited. This technology has proven to be a powerful tool for solving complex decision-making problems in developed nations. It is underutilized due to the lack of knowledge about its foundations, practical applications, and the impact it can have on various sectors. The disparity in the implementation of Limited Liability not only manifests a lack of appropriate technological infrastructure, but also a deficit in academic and professional training that facilitates the integration of this approach in the productive, educational, and industrial processes of the nation. In other nations, reinforcement learning has been used successfully in areas such as robotics, logistics process optimization, natural resource management, and real-time strategic planning. These applications have facilitated not only the automation of highly complex tasks, but also the optimization of efficiency and adaptability in dynamic and highly uncertain contexts, such as RL systems, which have revolutionized supply chain management, the design of financial strategies and the development of autonomous technologies, such as vehicles or drones. This type of progress, when not capitalized on in the Colombian scenario, restricts the possibilities of innovation and expansion in crucial sectors that could obtain significant benefits from these emerging technologies. The low adoption of reinforcement learning in Colombia has a direct impact on the nation's ability to compete in a global scenario increasingly dominated by artificial intelligence. Additionally, this technological disparity perpetuates the dependence on imported solutions, increasing costs and restricting the ability to adapt technologies to the particular needs of the local. In a nation with a wide range of challenges, such as the effective management of natural resources, the optimization of urban transportation systems or the automation of industrial processes, the application of advanced Logistics Resilience methods could generate a significant impact by providing customized and highly efficient solutions. This project proposes a comparison between three reinforcement learning approaches widely studied in the literature, through a model developed in the context of this research. The primary purpose is to examine how these methods can address practical problems in specific sectors, and to demonstrate the advantages they provide in terms of stability, adaptability and effectiveness. By examining their application in real scenarios, we aspire not only to generate local knowledge about this technology, but also to encourage its adoption in strategic sectors, thus promoting technological advancement and competitiveness in Colombia. Additionally, this study can act as a link between academic research and industrial demands, providing tangible evidence of how reinforcement learning can address particular problems in Colombia. It will not only be beneficial to the scientific community, but also to companies and government entities seeking innovative and sustainable solutions to address contemporary challenges. By promoting the development and adoption of this technology, we contribute to the elimination of the existing technological gap and to the consolidation of the nation as a significant player in the field of artificial intelligence in Latin America and globally. With this perspective, the project aims not only to increase knowledge about reinforcement learning in Colombia, but also to promote the development of public policies, educational programs and inter-institutional collaborations that encourage the adoption of this technology in favor of the social, economic and technological progress of the nation.PregradoIngeniero MecánicoIntroducción..... 1 Marco de referencia..... 2 Aspectos Metodologícos..... 12 Presentación y discuciónde resultados..... 13 Conclusiones y recomendaciones..... 21 Referencias bibliográficas..... 22 Anexos..... 2533 páginasapplication/pdfCaicedo Vidal, A., & Jiménez Lozano, J.A. (2024). Estudio Comparativo de Técnicas de Aprendizaje Reforzado en Entornos Controlados. [Informe ciclo coterminal, Universidad de Ibagué]. https://hdl.handle.net/20.500.12313/4746https://hdl.handle.net/20.500.12313/4746spaUniversidad de IbaguéIngenieríaIbaguéIngeniería MecánicaMnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., ... & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533. https: //doi.org/10.1038/nature14236Kaiser, Ł., & Jaderberg, M. (2018). Learning to communicate with deep multi-agent reinforcement learning. Advances in Neural Information Processing Systems, 31, 2137-2145.Dulac-Arnold, G., Mankowitz, D. J., & Hester, T. (2019). Challenges of real-world reinforcement lear ning. In Proceedings of the AAAI Conference on Artificial Intelligence, 33(01), 1534-1541. https: //doi.org/10.1609/aaai.v33i01.33011534Bertsekas, D. P. (2019). Reinforcement Learning and Optimal Control. Athena Scientific.Pey, J. J. J., & Samarakoon, S. M. B. P. (2023). Reinforcement learning for reconfigurable robotic soccer. Disponible en https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10858137Zhang, J., Zhang, Z., Han, S., & Lü, S. (2022). Proximal policy optimization via enhanced exploration efficiency. Information Sciences, Elsevier. Tomado de https://www.sciencedirect.com/science/ article/abs/pii/S0020025522008Darbandi, A., Brockmann, G., Ni, S., & Kriegel, M. (2024). Energy scheduling strategy for energy hubs using reinforcement learning approach. Elsevier. Disponible en https://pdf.sciencedirectassets. com/312002/1-s2.0-S2352710224X00157/1-s2.0-S2352710224025981/main.pdfPascual, A., & Shin, S. Y. (2024). Multi-Agent Deep Reinforcement Learning Based on Soft Actor-Critic for Self-Collaborating UAVs in a Swarm. In 2024 15th International Conference on Ubiquitous and Future Networks (ICUFN). IEEE. https://ieeexplore.ieee.org/abstract/document/10826729/Zhang, Q., Ma, W., Zheng, Q., Zhai, X., & Zhang, W. (2024). Path planning of mobile robot in dynamic obstacle avoidance environment based on deep reinforcement learning. IEEE Xplore. Disponible en https://ieeexplore.ieee.org/abstract/document/10769446/Sonmez, S., Martini, S., & Rutherford, M. J. (2024). Reinforcement learning based PID parameter tuning and estimation for multirotor UAVs. In IEEE Conference on Unmanned Aircraft Systems (ICUAS). IEEE. https://ieeexplore.ieee.org/abstract/document/10557032/Mejía Estrada, D. (2023). Aprendizaje Reforzado Profundo para la Administración de Portafolios de Renta Fija. Universidad EAFIT. Tomado de https://repository.eafit.edu.co/server/api/core/ bitstreams/6c6da72c-0a5d-4eae-a500-bc91d6970bd6/contentAngarita, N. (s.f.). Aplicación de algoritmos de Reinforcement Learning en el juego Colonos de Catán. Universidad de los Andes. Tomado de https://repositorio.uniandes.edu.co/server/api/core/ bitstreams/6d342d58-3229-457b-be54-2ace07198a50/contentDíaz Latorre, A. S. (2019). Aprendizaje por refuerzo para control de sistemas dinámicos [Trabajo de grado, Universidad Autónoma de Occidente]. Santiago de Cali, Colombia. Tomado de https://red. uao.edu.co/server/api/core/bitstreams/fa088a10-6092-43d4-99d4-38dae045d33a/contentZea Gutiérrez, J. A., Suárez Barón, M. J., & González Sanabria, J. S. (2024). Aprendizaje por refuerzo como soporte a la predicción de la precipitación mensual. Caso de estudio: Departamento de Boyacá Colombia. TecnoLógicas, 27(60), e3017. https://doi.org/10.22430/22565337.3017Duarte Antolinez, J. D. (2019). Estudio e implementación de Machine Learning en el desarrollo de vi deojuegos [Trabajo de grado, Universidad Autónoma de Bucaramanga]. Tomado de https://repository. unab.edu.co/bitstream/handle/20.500.12749/6971/2019_Tesis_Duarte_Antolinez_Juan_Diego. pdf?sequence=1&isAllowed=yQuintero González, C. (2024). Aprendizaje reforzado en pair-trading. Aplicación para una estrategia pair-trading. Odeon, 26, 55-93. https://doi.org/10.18601/17941113.n26.04info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2Atribución-NoComercial 4.0 Internacional (CC BY-NC 4.0)https://creativecommons.org/licenses/by-nc/4.0/Entornos Controlados - Técnicas de aprendizajeEntornos Controlados - Técnicas de aprendizaje reforzadoAprendizaje ReforzadoReinforcement LearningOptimización de PolíticasPolicy OptimizationProximal Policy Optimization (PPO)Deep Deterministic Policy Gradient (DDPG)Soft Actor-Critic (SAC)Optimización de políticas proximales (PPO)Gradiente de políticas determinista profundas (DDPG)Actor-crítico blando (SAC)Estudio comparativo de técnicas de aprendizaje reforzado en entornos controladosTrabajo de grado - Pregradohttp://purl.org/coar/resource_type/c_7a1fTextinfo:eu-repo/semantics/bachelorThesishttp://purl.org/redcol/resource_type/TPinfo:eu-repo/semantics/acceptedVersionPublicationORIGINALTrabajo de grado.pdfTrabajo de grado.pdfapplication/pdf498483https://repositorio.unibague.edu.co/bitstreams/6ee089b0-b723-4c95-a0bb-a3d70e2f2d09/download695f87a26ebb9d98d32a3fd5c7d7c694MD51Formato de autorización .pdfFormato de autorización .pdfapplication/pdf166140https://repositorio.unibague.edu.co/bitstreams/5e68231a-a977-445f-aaf0-a3b6d011d63b/download3d33914b1f570dac73082a52b4632d19MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8134https://repositorio.unibague.edu.co/bitstreams/2b6cc6d7-c080-4b9a-8e98-40b35d02bdff/download2fa3e590786b9c0f3ceba1b9656b7ac3MD53TEXTTrabajo de grado.pdf.txtTrabajo de grado.pdf.txtExtracted texttext/plain64167https://repositorio.unibague.edu.co/bitstreams/ace0c2de-ea19-4822-9a5d-49d022ba10d0/download7d283d92a27833c59bdfcfa58e28c0d4MD58Formato de autorización .pdf.txtFormato de autorización .pdf.txtExtracted texttext/plain3824https://repositorio.unibague.edu.co/bitstreams/1bb8ac42-5b93-4949-908f-22351f977e8c/download2d6e5f37be9eaa57f5d9ef716d4fa68aMD510THUMBNAILTrabajo de grado.pdf.jpgTrabajo de grado.pdf.jpgIM Thumbnailimage/jpeg24602https://repositorio.unibague.edu.co/bitstreams/c1852588-6b22-479a-a52b-344814200e3c/download6bc71044a4d65b0b4e2e06f2b28a2e0fMD59Formato de autorización .pdf.jpgFormato de autorización .pdf.jpgIM Thumbnailimage/jpeg22950https://repositorio.unibague.edu.co/bitstreams/0a4a14b6-6149-4a79-bcc0-4bee2248b6b8/downloadcbf3da2741484b15408d39fbf4dfeb1aMD51120.500.12313/4746oai:repositorio.unibague.edu.co:20.500.12313/47462025-08-13 02:17:06.866https://creativecommons.org/licenses/by-nc/4.0/https://repositorio.unibague.edu.coRepositorio Institucional Universidad de Ibaguébdigital@metabiblioteca.comQ3JlYXRpdmUgQ29tbW9ucyBBdHRyaWJ1dGlvbi1Ob25Db21tZXJjaWFsLU5vRGVyaXZhdGl2ZXMgNC4wIEludGVybmF0aW9uYWwgTGljZW5zZQ0KaHR0cHM6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLW5kLzQuMC8= |
