Învățare prin întărire

Acest modul explorează învățarea prin întărire, un tip de învățare automată în care agenții învață să ia decizii interacționând cu un mediu pentru a maximiza recompensa cumulativă. Acesta acoperă concepte cheie precum procesul decizional Markov, optimizarea politicii și metodele bazate pe valori, împreună cu aplicații în domenii precum jocurile, robotica și sistemele autonome.

Constructor de curriculum

Aveți nevoie de ajutor? Faceți clic aici pentru instrucțiuni.

Sutton, Richard S. și Andrew G. Barto. Învățarea prin întărire: o introducere. Ediția a doua. Seria de calcul adaptiv și învățare automată. Cambridge, Massachusetts: Presa MIT, 2018.

Kochenderfer, Mykel J., Tim A. Wheeler și Kyle H. Wray. Algoritmi pentru luarea deciziilor. Cambridge, Massachusetts: Presa MIT, 2022.

Agarwal, Alekh, Nan Jiang și S. Kakade. “Învățarea prin întărire: teorie și algoritmi”, 2019.

https://www.semanticscholar.org/paper/Reinforcement-Learning%3A-Theory-and-Algorithms-Agarwal-Jiang/8ef87e938b53c7f3ffdf47dfc317aa9b82848535

Bertsekas, Dimitri P. Învățare prin întărire și control optim. A 2-a tipărire (include revizuiri editoriale). Belmont, Massachusetts: Athena Scientific, 2019.