Zpětnovazební učení

Tento modul zkoumá posilované učení, typ strojového učení, kde agenti získávají rozhodovací schopnosti interakcí s prostředím za účelem maximalizace kumulativní odměny. Pokrývá klíčové koncepty, jako je Markovův rozhodovací proces, optimalizace politiky a metody založené na hodnotách, spolu s aplikacemi v oblastech, jako jsou hry, robotika a autonomní systémy.

Tvůrce učebních osnov

Potřebujete pomoc? Klikněte zde pro návod.

Sutton, Richard S. a Andrew G. Barto. Zpětnovazební učení: Úvod. Druhé vydání. Série adaptivních výpočtů a strojového učení. Cambridge, Massachusetts: Nakladatelství MIT, 2018.

Kochenderfer, Mykel J., Tim A. Wheeler a Kyle H. Wray. Algoritmy pro rozhodování. Cambridge, Massachusetts: Nakladatelství MIT, 2022.

Agarwal, Alekh, Nan Jiang a S. Kakade. “Zpětnovazební učení: Teorie a algoritmy”, 2019.

https://www.semanticscholar.org/paper/Reinforcement-Learning%3A-Theory-and-Algorithms-Agarwal-Jiang/8ef87e938b53c7f3ffdf47dfc317aa9b82848535

Bertsekas, Dimitri P. Zpětnovazební učení a optimální řízení. 2. tisk (včetně redakčních revizí). Belmont, Massachusetts: Athena Scientific, 2019.