Aprendizaje por refuerzo

Este módulo explora el aprendizaje por refuerzo, un tipo de aprendizaje automático donde los agentes aprenden a tomar decisiones interactuando con un entorno para maximizar la recompensa acumulada. Cubre conceptos clave como el proceso de decisión de Markov, la optimización de políticas y los métodos basados en valores, junto con aplicaciones en áreas como juegos, robótica y sistemas autónomos.

Curriculum Builder

¿Necesita ayuda? Pulse aquí para obtener instrucciones.

Sutton, Richard S. y Andrew G. Barto. Aprendizaje por refuerzo: una introducción. Segunda edición. Serie de Computación Adaptativa y Aprendizaje Automático. Cambridge, Massachusetts: The MIT Press, 2018.

Kochenderfer, Mykel J., Tim A. Wheeler y Kyle H. Wray. Algoritmos para la toma de decisiones. Cambridge, Massachusetts: The MIT Press, 2022.

Agarwal, Alekh, Nan Jiang y S. Kakade. “Aprendizaje por refuerzo: teoría y algoritmos”, 2019.

https://www.semanticscholar.org/paper/Reinforcement-Learning%3A-Theory-and-Algorithms-Agarwal-Jiang/8ef87e938b53c7f3ffdf47dfc317aa9b82848535

Bertsekas, Dimitri P. Aprendizaje por refuerzo y control óptimo. 2ª impresión (incluye revisiones editoriales). Belmont, Massachusetts: Athena Scientific, 2019.