Навчання з підкріпленням

Цей модуль досліджує навчання з підкріпленням, тип машинного навчання, де агенти навчаються приймати рішення шляхом взаємодії з середовищем для максимізації накопиченої винагороди. Він охоплює ключові концепції, такі як процес прийняття рішень Маркова, оптимізація політики та методи, засновані на значеннях, а також застосування в таких галузях, як ігри, робототехніка та автономні системи.

Конструктор навчальних програм

Потрібна допомога? Натисніть тут для отримання інструкцій.

Саттон, Річард С. і Ендрю Г. Барто. Навчання з підкріпленням: вступ. Видання друге. Серія адаптивних обчислень і машинного навчання. Кембридж, Массачусетс: Видавництво Массачусетського технологічного інституту, 2018.

Кочендерфер, Мікель Дж., Тім А. Вілер і Кайл Х. Рей. Алгоритми прийняття рішень. Кембридж, Массачусетс: Видавництво Массачусетського технологічного інституту, 2022.

Агарвал, Алех, Нан Цзян і С. Какаде. «Навчання з підкріпленням: теорія та алгоритми», 2019.

https://www.semanticscholar.org/paper/Reinforcement-Learning%3A-Theory-and-Algorithms-Agarwal-Jiang/8ef87e938b53c7f3ffdf47dfc317aa9b82848535

Берцекас, Дмитро П. Навчання з підкріпленням та оптимальне керування. 2-й друк (включає редакційні правки). Белмонт, Массачусетс: Афіна Наукова, 2019.