Учење поткрепљењем

У машинском учењу и оптималној контроли, учење поткрепљењем (RL; reinforcement learning) бави се тиме како интелигентни агент треба да предузима акције у динамичком окружењу како би максимизовао сигнал награде. Учење поткрепљењем је једна од три основне парадигме машинског учења, поред надгледаног учења и ненадгледаног учења.

Док алгоритми надгледаног учења и ненадгледаног учења покушавају да открију обрасце у означеним и неозначеним подацима, учење поткрепљењем подразумева обуку агента кроз интеракције са његовим окружењем. Да би научио да максимизује награде из ових интеракција, агент доноси одлуке између испробавања нових акција како би сазнао више о окружењу (истраживање) или коришћења тренутног знања о окружењу за предузимање најбоље акције (искоришћавање).^[1] Потрага за оптималном равнотежом између ове две стратегије позната је као дилема истраживања и искоришћавања.

Окружење се обично наводи у облику Марковљевог процеса одлучивања (MDP), јер многи алгоритми учења поткрепљењем користе технике динамичког програмирања.^[2] Главна разлика између класичних метода динамичког програмирања и алгоритама учења поткрепљењем је у томе што ови други не претпостављају познавање тачног математичког модела Марковљевог процеса одлучивања и циљају на велике Марковљеве процесе одлучивања где тачне методе постају неизводљиве.^[3]

Принципи

Због своје општости, учење поткрепљењем се проучава у многим дисциплинама, као што су теорија игара, теорија контроле, операциона истраживања, теорија информације, оптимизација заснована на симулацији, мултиагентни системи, интелигенција роја и статистика. У литератури о операционим истраживањима и контроли, RL се назива апроксимативно динамичко програмирање или неуро-динамичко програмирање. Проблеми од интереса у RL-у су такође проучавани у теорији оптималне контроле, која се углавном бави постојањем и карактеризацијом оптималних решења и алгоритмима за њихово тачно израчунавање, а мање учењем или апроксимацијом (посебно у одсуству математичког модела окружења).

Основно учење поткрепљењем се моделује као Марковљев процес одлучивања:

Скуп стања окружења и агента (простор стања), ${\mathcal {S}}$ ;
Скуп акција (простор акција), ${\mathcal {A}}$ , агента;
$P_{a}(s,s')=\Pr(S_{t+1}{=}s'\mid S_{t}{=}s,A_{t}{=}a)$ , вероватноћа прелаза (у времену $t$ ) из стања $s$ у стање $s'$ под акцијом $a$ .
$R_{a}(s,s')$ , тренутна награда након преласка из $s$ у $s'$ под акцијом $a$ .

Сврха учења поткрепљењем је да агент научи оптималну (или скоро оптималну) политику која максимизује функцију награђивања или други кориснички дефинисан сигнал поткрепљења који се акумулира из тренутних награда. Ово је слично процесима који се јављају у психологији животиња. На пример, биолошки мозгови су ожичени да тумаче сигнале као што су бол и глад као негативна поткрепљења, а задовољство и унос хране као позитивна поткрепљења. У неким околностима, животиње уче да усвоје понашања која оптимизују ове награде. Ово сугерише да су животиње способне за учење поткрепљењем.^[4]^[5]

Основни агент учења поткрепљењем комуницира са својим окружењем у дискретним временским корацима. У сваком временском кораку $t$ , агент прима тренутно стање $S_{t}$ и награду $R_{t}$ . Затим бира акцију $A_{t}$ из скупа доступних акција, која се потом шаље окружењу. Окружење прелази у ново стање $S_{t+1}$ и одређује се награда $R_{t+1}$ повезана са прелазом $(S_{t},A_{t},S_{t+1})$ . Циљ агента учења поткрепљењем је да научи политику:

${\begin{aligned}&\pi :{\mathcal {S}}\times {\mathcal {A}}\to [0,1]\\&\pi (s,a)=\Pr(A_{t}{=}a\mid S_{t}{=}s)\end{aligned}}$

која максимизује очекивану кумулативну награду.

Формулисање проблема као Марковљевог процеса одлучивања претпоставља да агент директно посматра тренутно стање окружења; у овом случају, каже се да проблем има пуну опсервабилност. Ако агент има приступ само подскупу стања, или ако су посматрана стања оштећена шумом, каже се да агент има делимичну опсервабилност, и формално се проблем мора формулисати као делимично опсервабилни Марковљев процес одлучивања. У оба случаја, скуп акција доступних агенту може бити ограничен. На пример, стање стања на рачуну може бити ограничено да буде позитивно; ако је тренутна вредност стања 3, а прелаз стања покушава да смањи вредност за 4, прелаз неће бити дозвољен.

Када се перформансе агента пореде са перформансама агента који делује оптимално, разлика у перформансама даје појам жаљења. Да би деловао скоро оптимално, агент мора размишљати о дугорочним последицама својих акција (тј. максимизовати будуће награде), иако тренутна награда повезана са тим може бити негативна. Дакле, учење поткрепљењем је посебно погодно за проблеме који укључују компромис између дугорочне и краткорочне награде. Успешно је примењено на различите проблеме, укључујући складиштење енергије,^[6] контролу робота,^[7] фотонапонске генераторе,^[8] бекгемон, даму,^[9] го (AlphaGo) и аутономне системе вожње.^[10]

Два елемента чине учење поткрепљењем моћним: употреба узорака за оптимизацију перформанси и употреба апроксимације функција за рад са великим окружењима. Захваљујући овим двема кључним компонентама, RL се може користити у великим окружењима у следећим ситуацијама:

Модел окружења је познат, али аналитичко решење није доступно;
Дат је само симулациони модел окружења (предмет оптимизације засноване на симулацији);^[11]
Једини начин за прикупљање информација о окружењу је интеракција са њим.

Прва два проблема могу се сматрати проблемима планирања (пошто је неки облик модела доступан), док се последњи може сматрати правим проблемом учења. Међутим, учење поткрепљењем претвара оба проблема планирања у проблеме машинског учења.

Истраживање

Компромис између истраживања и искоришћавања најтемељније је проучен кроз проблем вишероруког бандита и за Марковљеве процесе одлучивања са коначним простором стања у раду Бурнетаса и Катехакиса (1997).^[12]

Учење поткрепљењем захтева паметне механизме истраживања; насумично бирање акција, без позивања на процењену расподелу вероватноће, показује лоше перформансе. Случај (малих) коначних Марковљевих процеса одлучивања је релативно добро схваћен. Међутим, због недостатка алгоритама који се добро скалирају са бројем стања (или скалирају на проблеме са бесконачним просторима стања), једноставне методе истраживања су најпрактичније.

Једна таква метода је $\varepsilon$ -похлепна (енгл. $\varepsilon$ -greedy), где је $0<\varepsilon <1$ параметар који контролише количину истраживања наспрам искоришћавања. Са вероватноћом $1-\varepsilon$ , бира се искоришћавање, и агент бира акцију за коју верује да има најбољи дугорочни ефекат (нерешени резултати између акција се прекидају равномерно насумично). Алтернативно, са вероватноћом $\varepsilon$ , бира се истраживање, и акција се бира равномерно насумично. $\varepsilon$ је обично фиксни параметар, али се може прилагођавати или према распореду (чинећи да агент истражује прогресивно мање), или адаптивно на основу хеуристике.^[13]

Алгоритми за учење контроле

Чак и ако се занемари питање истраживања и чак и ако је стање било опсервабилно (претпостављено у даљем тексту), проблем остаје да се искористи прошло искуство како би се открило које акције воде до већих кумулативних награда.

Критеријум оптималности

Политика

Избор акције агента се моделује као мапа која се назива политика: ${\begin{aligned}&\pi :{\mathcal {A}}\times {\mathcal {S}}\to [0,1]\\&\pi (a,s)=\Pr(A_{t}{=}a\mid S_{t}{=}s)\end{aligned}}$

Мапа политике даје вероватноћу предузимања акције $a$ када је у стању $s$ .^[14]^‍:61 Постоје и детерминистичке политике $\pi$ за које $\pi (s)$ означава акцију коју треба одиграти у стању $s$ .

Функција вредности стања

Функција вредности стања $V_{\pi }(s)$ се дефинише као очекивани дисконтовани повраћај почевши од стања $s$ , тј. $S_{0}=s$ , и сукцесивно пратећи политику $\pi$ . Дакле, грубо говорећи, функција вредности процењује „колико је добро” бити у датом стању.^[14]^‍:60

$V_{\pi }(s)=\operatorname {\mathbb {E} } [G\mid S_{0}{=}s]=\operatorname {\mathbb {E} } \left[\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}\mid S_{0}{=}s\right],$

где случајна променљива $G$ означава дисконтовани повраћај, и дефинисана је као збир будућих дисконтованих награда: $G=\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}=R_{1}+\gamma R_{2}+\gamma ^{2}R_{3}+\cdots ,$

где је $R_{t+1}$ награда за прелазак из стања $S_{t}$ у $S_{t+1}$ , $0\leq \gamma <1$ је стопа дисконта. $\gamma$ је мање од 1, тако да се награде у далекој будућности вреднују мање од награда у непосредној будућности.

Алгоритам мора пронаћи политику са максималним очекиваним дисконтованим повраћајем. Из теорије Марковљевих процеса одлучивања познато је да се, без губитка општости, претрага може ограничити на скуп стационарних политика. Политика је стационарна ако расподела акција коју враћа зависи само од последњег посећеног стања (из историје посматрања агента). Претрага се може даље ограничити на детерминистичке стационарне политике. Детерминистичка стационарна политика детерминистички бира акције на основу тренутног стања. Пошто се свака таква политика може идентификовати са мапирањем из скупа стања у скуп акција, ове политике се могу идентификовати са таквим мапирањима без губитка општости.

Груба сила

Приступ грубе силе подразумева два корака:

За сваку могућу политику, узорковати повраћаје док се она прати
Одабрати политику са највећим очекиваним дисконтованим повраћајем

Један проблем са овим је тај што број политика може бити велики, или чак бесконачан. Други је тај што варијанса повраћаја може бити велика, што захтева много узорака да би се тачно проценио дисконтовани повраћај сваке политике.

Ови проблеми се могу ублажити ако претпоставимо неку структуру и дозволимо узорцима генерисаним из једне политике да утичу на процене направљене за друге. Два главна приступа за постизање овога су процена функције вредности и директна претрага политике.

Функција вредности

Приступи функције вредности покушавају да пронађу политику која максимизује дисконтовани повраћај одржавањем скупа процена очекиваних дисконтованих повраћаја $\operatorname {\mathbb {E} } [G]$ за неку политику (обично или „тренутну” [на политици / on-policy] или оптималну [ван политике / off-policy]).

Ове методе се ослањају на теорију Марковљевих процеса одлучивања, где је оптималност дефинисана у смислу јачем од оног изнад: Политика је оптимална ако постиже најбољи очекивани дисконтовани повраћај из било ког почетног стања (тј. почетне расподеле не играју никакву улогу у овој дефиницији). Опет, оптимална политика се увек може наћи међу стационарним политикама.

Да би се оптималност дефинисала на формалан начин, дефинишите вредност стања политике $\pi$ помоћу

$V^{\pi }(s)=\operatorname {\mathbb {E} } [G\mid s,\pi ],$

где $G$ представља дисконтовани повраћај повезан са праћењем $\pi$ из почетног стања $s$ . Дефинисањем $V^{*}(s)$ као максималне могуће вредности стања $V^{\pi }(s)$ , где је $\pi$ дозвољено да се мења,

$V^{*}(s)=\max _{\pi }V^{\pi }(s).$

Политика која постиже ове оптималне вредности стања у сваком стању назива се оптимална. Јасно је да је политика која је оптимална у овом смислу такође оптимална у смислу да максимизује очекивани дисконтовани повраћај, пошто $V^{*}(s)=\max _{\pi }\mathbb {E} [G\mid s,\pi ]$ , где је $s$ стање насумично узорковано из расподеле $\mu$ почетних стања (тако да $\mu (s)=\Pr(S_{0}=s)$ ).

Иако су вредности стања довољне за дефинисање оптималности, корисно је дефинисати вредности акција. За дато стање $s$ , акцију $a$ и политику $\pi$ , вредност акције пара $(s,a)$ под $\pi$ дефинисана је помоћу

$Q^{\pi }(s,a)=\operatorname {\mathbb {E} } [G\mid s,a,\pi ],$

где $G$ сада представља насумични дисконтовани повраћај повезан са првим предузимањем акције $a$ у стању $s$ и праћењем $\pi$ након тога.

Теорија Марковљевих процеса одлучивања каже да ако је $\pi ^{*}$ оптимална политика, делујемо оптимално (предузимамо оптималну акцију) бирањем акције из $Q^{\pi ^{*}}(s,\cdot )$ са највишом вредношћу акције у сваком стању, $s$ . Функција вредности акције такве оптималне политике ( $Q^{\pi ^{*}}$ ) назива се оптимална функција вредности акције и обично се означава са $Q^{*}$ . Укратко, познавање оптималне функције вредности акције само по себи је довољно да се зна како деловати оптимално. Под претпоставком потпуног познавања Марковљевог процеса одлучивања, два основна приступа за израчунавање оптималне функције вредности акције су итерација вредности и итерација политике. Оба алгоритма израчунавају низ функција $Q_{k}$ ( $k=0,1,2,\ldots$ ) које конвергирају ка $Q^{*}$ . Израчунавање ових функција подразумева израчунавање очекивања преко целог простора стања, што је непрактично за све осим за најмање (коначне) Марковљеве процесе одлучивања. У методама учења поткрепљењем, очекивања се апроксимирају усредњавањем преко узорака и коришћењем техника апроксимације функција како би се носило са потребом за представљањем функција вредности преко великих простора стања-акција.

Монте Карло методе

Монте Карло методе^[15] се користе за решавање проблема учења поткрепљењем усредњавањем повраћаја узорака. За разлику од метода које захтевају потпуно познавање динамике окружења, Монте Карло методе се ослањају искључиво на стварно или симулирано искуство — низове стања, акција и награда добијених интеракцијом са окружењем. Ово их чини применљивим у ситуацијама где је комплетна динамика непозната. Учење из стварног искуства не захтева претходно знање о окружењу и и даље може довести до оптималног понашања. Када се користи симулирано искуство, потребан је само модел способан да генерише прелазе узорака, уместо потпуне спецификације вероватноћа прелаза, што је неопходно за методе динамичког програмирања.

Монте Карло методе се примењују на епизодне задатке, где је искуство подељено на епизоде које се на крају завршавају. Ажурирања политике и функције вредности се дешавају тек након завршетка епизоде, чинећи ове методе инкременталним на бази епизоде, иако не на бази корака (онлајн). Термин „Монте Карло” се генерално односи на било коју методу која укључује насумично узорковање; међутим, у овом контексту, конкретно се односи на методе које израчунавају просеке из комплетних повраћаја, уместо делимичних повраћаја.

Ове методе функционишу слично алгоритмима бандита, у којима се повраћаји усредњавају за сваки пар стање-акција. Кључна разлика је у томе што акције предузете у једном стању утичу на повраћаје наредних стања унутар исте епизоде, чинећи проблем нестационарним. Да би се решила ова нестационарност, Монте Карло методе користе оквир опште итерације политике (GPI). Док динамичко програмирање израчунава функције вредности користећи потпуно знање о Марковљевом процесу одлучивања, Монте Карло методе уче ове функције кроз повраћаје узорака. Функције вредности и политике комуницирају слично као код динамичког програмирања како би постигле оптималност, прво решавајући проблем предвиђања, а затим проширујући на побољшање политике и контролу, све на основу узоркованог искуства.^[14]

Методе временске разлике

Први проблем се исправља дозвољавањем процедури да промени политику (у неким или свим стањима) пре него што се вредности устале. Ово такође може бити проблематично јер може спречити конвергенцију. Већина тренутних алгоритама то ради, што доводи до класе алгоритама генерализоване итерације политике. Многе глумац-критичар методе припадају овој категорији. Други проблем се може исправити дозвољавањем путањама да допринесу било ком пару стање-акција у њима. Ово такође може помоћи у одређеној мери са трећим проблемом, иако је боље решење када повраћаји имају велику варијансу Сатонова метода временске разлике (TD) која се заснива на рекурзивној Белменој једначини.^[16]^[17] Израчунавање у TD методама може бити инкрементално (када се након сваког прелаза меморија мења и прелаз одбацује), или групно (када се прелази групишу и процене се израчунавају једном на основу групе). Групне методе, као што је метода временске разлике најмањих квадрата,^[18] могу боље искористити информације у узорцима, док су инкременталне методе једини избор када су групне методе неизводљиве због њихове високе рачунарске или меморијске сложености. Неке методе покушавају да комбинују ова два приступа. Методе засноване на временским разликама такође превазилазе четврти проблем.

Други проблем специфичан за TD долази од њиховог ослањања на рекурзивну Белменову једначину. Већина TD метода има $\lambda$ параметар $(0\leq \lambda \leq 1)$ који може континуирано интерполирати између Монте Карло метода које се не ослањају на Белменове једначине и основних TD метода које се у потпуности ослањају на Белменове једначине. Ово може бити ефикасно у ублажавању овог проблема.

Методе апроксимације функција

Да би се решио пети проблем, користе се методе апроксимације функција. Линеарна апроксимација функција почиње са мапирањем $\phi$ које додељује коначно-димензионални вектор сваком пару стање-акција. Затим се вредности акција пара стање-акција $(s,a)$ добијају линеарним комбиновањем компоненти $\phi (s,a)$ са неким тежинама $\theta$ :

$Q(s,a)=\sum _{i=1}^{d}\theta _{i}\phi _{i}(s,a).$

Алгоритми затим прилагођавају тежине, уместо прилагођавања вредности повезаних са појединачним паровима стање-акција. Истражене су методе засноване на идејама из непараметарске статистике (за које се може видети да конструишу сопствене карактеристике).

Итерација вредности се такође може користити као почетна тачка, што доводи до Q-учења (Q-learning) алгоритма и његових многих варијанти.^[19] Укључујући методе дубоког Q-учења када се неуронска мрежа користи за представљање Q, са различитим применама у проблемима стохастичке претраге.^[20]

Проблем са коришћењем вредности акција је тај што им могу бити потребне веома прецизне процене конкурентских вредности акција које може бити тешко добити када су повраћаји бучни, иако је овај проблем у одређеној мери ублажен методама временске разлике. Коришћење методе апроксимације компатибилних функција компромитује општост и ефикасност.

Директна претрага политике

Алтернативна метода је директна претрага у (неком подскупу) простора политика, у ком случају проблем постаје случај стохастичке оптимизације. Два доступна приступа су методе засноване на градијенту и методе без градијента.

Методе засноване на градијенту (методе градијента политике) почињу са мапирањем из коначно-димензионалног (параметарског) простора у простор политика: дат је вектор параметара $\theta$ , нека $\pi _{\theta }$ означава политику повезану са $\theta$ . Дефинисањем функције перформанси помоћу $\rho (\theta )=\rho ^{\pi _{\theta }}$ , под благим условима ова функција ће бити диференцијабилна као функција вектора параметара $\theta$ . Ако би градијент $\rho$ био познат, могао би се користити градијентни успон. Пошто аналитички израз за градијент није доступан, доступна је само бучна процена. Таква процена се може конструисати на много начина, што доводи до алгоритама као што је Вилијамсова REINFORCE метода^[21] (која је позната као метода односа веродостојности у литератури о оптимизацији заснованој на симулацији^[22]).

Велика класа метода избегава ослањање на информације о градијенту. Оне укључују симуловано каљење, претрагу унакрсне ентропије или методе еволуционарног израчунавања. Многе методе без градијента могу постићи (у теорији и у лимесу) глобални оптимум.

Методе претраге политике могу споро конвергирати с обзиром на бучне податке. На пример, ово се дешава у епизодним проблемима када су путање дуге, а варијанса повраћаја велика. Методе засноване на функцији вредности које се ослањају на временске разлике могу помоћи у овом случају. Последњих година предложене су методе глумац-критичар које су се добро показале на различитим проблемима.^[23]

Методе претраге политике су коришћене у контексту роботике.^[24] Многе методе претраге политике могу се заглавити у локалним оптимумима (пошто су засноване на локалној претрази).

Алгоритми засновани на моделу

Коначно, све горе наведене методе могу се комбиновати са алгоритмима који прво уче модел Марковљевог процеса одлучивања, вероватноћу сваког следећег стања с обзиром на акцију предузету из постојећег стања. На пример, Dyna алгоритам учи модел из искуства и користи га да обезбеди више моделованих прелаза за функцију вредности, поред стварних прелаза.^[25] Такве методе се понекад могу проширити на употребу непараметарских модела, као што је када се прелази једноставно чувају и „поново пуштају” алгоритму учења.^[26]

Методе засноване на моделу могу бити рачунарски захтевније од метода без модела, а њихова корисност може бити ограничена мером у којој се Марковљев процес одлучивања може научити.^[27]

Постоје и други начини коришћења модела осим ажурирања функције вредности.^[28] На пример, у контроли предвиђања модела модел се користи за директно ажурирање понашања.

Теорија

И асимптотска и понашања коначних узорака већине алгоритама су добро схваћена. Познати су алгоритми са доказиво добрим онлајн перформансама (који решавају питање истраживања).

Ефикасно истраживање Марковљевих процеса одлучивања дато је у раду Бурнетаса и Катехакиса (1997).^[12] Границе перформанси за коначно време су се такође појавиле за многе алгоритме, али се очекује да ће ове границе бити прилично лабаве и стога је потребно више рада да би се боље разумеле релативне предности и ограничења.

За инкременталне алгоритме, питања асимптотске конвергенције су решена. Алгоритми засновани на временској разлици конвергирају под ширим скупом услова него што је то раније било могуће (на пример, када се користе са произвољном, глатком апроксимацијом функција).

Истраживање

Истраживачке теме укључују:

архитектуру глумац-критичар^[29]
архитектуру глумац-критичар-сценографија^[3]
адаптивне методе које раде са мање (или без) параметара под великим бројем услова
откривање грешака у софтверским пројектима^[30]
континуирано учење
комбинације са оквирима заснованим на логици (нпр. спецификације временске логике,^[31] машине за награђивање,^[32] и пробабилистичка аргументација).^[33]
истраживање у великим Марковљевим процесима одлучивања
учење поткрепљењем засновано на ентитетима^[34]^[35]^[36]
људске повратне информације^[37]
интеракција између имплицитног и експлицитног учења у стицању вештина
унутрашња мотивација која разликује понашања тражења информација и радозналости од циљно усмерених понашања зависних од задатка велике емпиријске процене
велики (или континуирани) простори акција
модуларно и хијерархијско учење поткрепљењем^[38]
мултиагентно/дистрибуирано учење поткрепљењем је тема од интереса. Примене се шире.^[39]
контрола усмерена на корисника
оптимизација рачунарских ресурса^[40]^[41]^[42]
делимичне информације (нпр. коришћењем предиктивне репрезентације стања)
функција награђивања заснована на максимизирању нових информација^[43]^[44]^[45]
планирање засновано на узорцима (нпр. засновано на Монте Карло претрази стабла).
трговина хартијама од вредности^[46]
трансферно учење^[47]
TD учење које моделује учење засновано на допамину у мозгу. Допаминергички путеви од супстанције нигре до базалних ганглија функционишу као грешка предвиђања.
методе функције вредности и претраге политике

Поређење кључних алгоритама

Следећа табела наводи кључне алгоритме за учење политике у зависности од неколико критеријума:

Алгоритам може бити на политици (енгл. on-policy; врши ажурирање политике користећи путање узорковане путем тренутне политике)^[48] или ван политике (енгл. off-policy).
Простор акција може бити дискретан (нпр. простор акција може бити "иди горе", "иди лево", "иди десно", "иди доле", "остани") или континуиран (нпр. померање руке под датим углом).
Простор стања може бити дискретан (нпр. агент би могао бити у ћелији у мрежи) или континуиран (нпр. агент би могао бити лоциран на датој позицији у равни).

Алгоритам	Опис	Политика	Простор акција	Простор стања	Оператор
Монте Карло	Свака посета Монте Карлу	Било која	Дискретан	Дискретан	Узорак-средње вредности стања или вредности акција
TD учење	Стање–акција–награда–стање	Ван политике	Дискретан	Дискретан	Вредност стања
Q-учење	Стање–акција–награда–стање	Ван политике	Дискретан	Дискретан	Вредност акције
SARSA	Стање–акција–награда–стање–акција	На политици	Дискретан	Дискретан	Вредност акције
DQN	Дубока Q мрежа	Ван политике	Дискретан	Континуиран	Вредност акције
DDPG	Дубоки детерминистички градијент политике	Ван политике	Континуиран	Континуиран	Вредност акције
A3C	Асинхрони алгоритам глумац-критичар предности	На политици	Дискретан	Континуиран	Предност (=вредност акције - вредност стања)
TRPO	Оптимизација политике региона поверења	На политици	Континуиран или Дискретан	Континуиран	Предност
PPO	Проксимална оптимизација политике	На политици	Континуиран или Дискретан	Континуиран	Предност
TD3	Двоструки одложени дубоки детерминистички градијент политике	Ван политике	Континуиран	Континуиран	Вредност акције
SAC	Меки глумац-критичар	Ван политике	Континуиран	Континуиран	Предност
DSAC^[49]^[50]^[51]	Дистрибутивни меки глумац критичар	Ван политике	Континуиран	Континуиран	Дистрибуција вредности акције

Асоцијативно учење поткрепљењем

Задаци асоцијативног учења поткрепљењем комбинују аспекте задатака стохастичких аутомата учења и задатака класификације образаца надгледаног учења. У задацима асоцијативног учења поткрепљењем, систем учења комуницира у затвореној петљи са својим окружењем.^[52]

Дубоко учење поткрепљењем

Овај приступ проширује учење поткрепљењем коришћењем дубоке неуронске мреже и без експлицитног дизајнирања простора стања.^[53] Рад на учењу ATARI игара од стране Google DeepMind-а повећао је пажњу на дубоко учење поткрепљењем или енд-ту-енд учење поткрепљењем.^[54]

Адверзаријално дубоко учење поткрепљењем

Адверзаријално дубоко учење поткрепљењем је активна област истраживања у учењу поткрепљењем која се фокусира на рањивости научених политика. У овој области истраживања неке студије су првобитно показале да су политике учења поткрепљењем подложне неприметним адверзаријалним манипулацијама.^[55]^[56]^[57] Иако су предложене неке методе за превазилажење ових осетљивости, у најновијим студијама је показано да су ова предложена решења далеко од пружања тачне репрезентације тренутних рањивости политика дубоког учења поткрепљењем.^[58]

Фази учење поткрепљењем

Увођењем фази закључивања у учење поткрепљењем,^[59] постаје могуће апроксимирати функцију вредности стање-акција са фази правилима у континуираном простору. IF - THEN облик фази правила чини овај приступ погодним за изражавање резултата у облику блиском природном језику. Проширење FRL са интерполацијом фази правила^[60] омогућава коришћење ретких база фази правила смањене величине како би се нагласила кардинална правила (најважније вредности стање-акција).

Инверзно учење поткрепљењем

У инверзном учењу поткрепљењем (IRL), функција награђивања није дата. Уместо тога, функција награђивања се изводи на основу посматраног понашања стручњака. Идеја је да се опонаша посматрано понашање, које је често оптимално или близу оптималног.^[61] Једна популарна IRL парадигма назива се инверзно учење поткрепљењем максималне ентропије (MaxEnt IRL).^[62] MaxEnt IRL процењује параметре линеарног модела функције награђивања максимизирањем ентропије расподеле вероватноће посматраних путања подложно ограничењима која се односе на подударање очекиваних бројева карактеристика. Недавно је показано да је MaxEnt IRL посебан случај општијег оквира названог инверзно учење поткрепљењем случајне корисности (RU-IRL).^[63] RU-IRL се заснива на теорији случајне корисности и Марковљевим процесима одлучивања. Док претходни IRL приступи претпостављају да је привидно насумично понашање посматраног агента последица тога што он прати насумичну политику, RU-IRL претпоставља да посматрани агент прати детерминистичку политику, али је насумичност у посматраном понашању последица чињенице да посматрач има само делимичан приступ карактеристикама које посматрани агент користи у доношењу одлука. Функција корисности се моделује као случајна променљива како би се урачунало незнање посматрача у вези са карактеристикама које посматрани агент заправо разматра у својој функцији корисности.

Вишециљно учење поткрепљењем

Вишециљно учење поткрепљењем (MORL) је облик учења поткрепљењем који се бави супротстављеним алтернативама. Разликује се од вишециљне оптимизације по томе што се бави агентима који делују у окружењима.^[64]^[65]

Безбедно учење поткрепљењем

Безбедно учење поткрепљењем (SRL) може се дефинисати као процес учења политика које максимизују очекивање повраћаја у проблемима у којима је важно осигурати разумне перформансе система и/или поштовати безбедносна ограничења током процеса учења и/или примене.^[66]^[67] Алтернативни приступ је учење поткрепљењем склоно избегавању ризика, где се уместо очекиваног повраћаја оптимизује мера ризика повраћаја, као што је условна вредност под ризиком (CVaR).^[68] Поред ублажавања ризика, CVaR циљ повећава робусност на несигурности модела.^[69]^[70] Међутим, CVaR оптимизација у RL-у склоном избегавању ризика захтева посебну пажњу како би се спречила пристрасност градијента^[71] и слепило за успех.^[72]

Само-поткрепљујуће учење

Само-поткрепљујуће учење (или само-учење) је парадигма учења која не користи концепт тренутне награде $R_{a}(s,s')$ након преласка из $s$ у $s'$ акцијом $a$ . Не користи спољашње поткрепљење, већ само унутрашње само-поткрепљење агента. Унутрашње само-поткрепљење обезбеђује механизам осећања и емоција. У процесу учења емоције се пропагирају уназад механизмом секундарног поткрепљења. Једначина учења не укључује тренутну награду, већ само евалуацију стања.

Алгоритам само-поткрепљења ажурира меморијску матрицу $W=\|w(a,s)\|$ тако да у свакој итерацији извршава следећу рутину машинског учења:

У ситуацији $s$ изврши акцију $a$ .
Прими последичну ситуацију $s'$ .
Израчунај евалуацију стања $v(s')$ о томе колико је добро бити у последичној ситуацији $s'$ .
Ажурирај кросбар меморију $w'(a,s)=w(a,s)+v(s')$ .

Почетни услови меморије се примају као улаз из генетског окружења. То је систем са само једним улазом (ситуација) и само једним излазом (акција, или понашање).

Само-поткрепљење (само-учење) је уведено 1982. године заједно са неуронском мрежом способном за само-поткрепљујуће учење, названом Crossbar Adaptive Array (CAA).^[73]^[74] CAA израчунава, на кросбар начин, и одлуке о акцијама и емоције (осећања) о последичним стањима. Систем је вођен интеракцијом између когниције и емоције.^[75]

Учење поткрепљењем у обради природног језика

У новије време, учење поткрепљењем постало је значајан концепт у обради природног језика (NLP), где су задаци често секвенцијално доношење одлука, а не статичка класификација. Учење поткрепљењем је процес где агент предузима акције у окружењу како би максимизовао акумулацију награда. Овај оквир је најбољи за многе NLP задатке, укључујући генерисање дијалога, сажимање текста и машинско превођење, где квалитет излаза зависи од оптимизације дугорочних или људски усмерених циљева, а не од предвиђања једне тачне ознаке.

Рана примена RL-а у NLP-у појавила се у системима дијалога, где је разговор био одређен као низ акција оптимизованих за течност и кохерентност. Ови рани покушаји, укључујући технике градијента политике и обуке на нивоу секвенце, поставили су темељ за ширу примену учења поткрепљењем у другим областима NLP-а.

Велики пробој догодио се увођењем учења поткрепљењем из људских повратних информација (RLHF), методе у којој се оцене људских повратних информација користе за обуку модела награђивања који води RL агента. За разлику од традиционалних система заснованих на правилима или надгледаним системима, RLHF омогућава моделима да ускладе своје понашање са људским судовима о сложеним и субјективним задацима. Ова техника је првобитно коришћена у развоју InstructGPT-а, ефикасног језичког модела обученог да прати људска упутства, а касније и у ChatGPT-у који укључује RLHF за побољшање излазних одговора и осигуравање безбедности.

У новије време (новембар 2025), истраживачи су истраживали употребу офлајн RL-а у NLP-у за побољшање система дијалога без потребе за интеракцијом са људима уживо. Ове методе оптимизују ангажовање корисника, кохерентност и разноврсност на основу прошлих записа разговора и претходно обучених модела награђивања.^[76] Један пример је DeepSeek-R1, који укључује вишефазну обуку и податке хладног старта пре RL-а. DeepSeek-R1 постиже перформансе упоредиве са OpenAI-o1-1217 на задацима резоновања. Овај модел је обучен путем великог учења поткрепљењем (RL) без надгледаног финог подешавања (SFT) као прелиминарног корака. ^[77]

Статистичко поређење алгоритама учења поткрепљењем

Ефикасно поређење RL алгоритама је од суштинског значаја за истраживање, примену и праћење RL система. Да би се упоредили различити алгоритми на датом окружењу, агент се може обучити за сваки алгоритам. Пошто су перформансе осетљиве на детаље имплементације, сви алгоритми треба да буду имплементирани што је могуће сличније један другом.^[78] Након што се обука заврши, агенти се могу покренути на узорку тест епизода, а њихови резултати (повраћаји) се могу упоредити. Пошто се обично претпоставља да су епизоде i.i.d., могу се користити стандардни статистички алати за тестирање хипотеза, као што су T-тест и тест пермутације.^[79] Ово захтева акумулирање свих награда унутар једне епизоде у један број — епизодни повраћај. Међутим, ово изазива губитак информација, јер се различити временски кораци усредњавају заједно, вероватно са различитим нивоима шума. Кад год ниво шума варира током епизоде, статистичка моћ се може значајно побољшати пондерисањем награда према њиховом процењеном шуму.^[80]

Изазови и ограничења

Упркос значајном напретку, учење поткрепљењем (RL) и даље се суочава са неколико изазова и ограничења која ометају његову широку примену у сценаријима из стварног света.

Неефикасност узорака

RL алгоритми често захтевају велики број интеракција са окружењем да би научили ефикасне политике, што доводи до високих рачунарских трошкова и временски интензивне обуке агента. На пример, OpenAI-јев бот за играње Dota-е користио је хиљаде година симулираног играња да би постигао перформансе на људском нивоу. Предложене су технике попут понављања искуства и учења по плану и програму како би се ублажила неефикасност узорака, али ове технике додају већу сложеност и нису увек довољне за примене у стварном свету.

Проблеми стабилности и конвергенције

Обука RL модела, посебно за моделе засноване на дубоким неуронским мрежама, може бити нестабилна и склона дивергенцији. Мала промена у политици или окружењу може довести до екстремних флуктуација у перформансама, што отежава постизање доследних резултата. Ова нестабилност је додатно појачана у случају континуираног или високодимензионалног простора акција, где корак учења постаје сложенији и мање предвидљив.

Генерализација и преносивост

RL агенти обучени у специфичним окружењима често се боре да генерализују своје научене политике на нове, невиђене сценарије. Ово је главна препрека која спречава примену RL-а на динамичка окружења у стварном свету где је прилагодљивост кључна. Изазов је развити такве алгоритме који могу пренети знање кроз задатке и окружења без опсежне поновне обуке.

Пристрасност и проблеми функције награђивања

Дизајнирање одговарајућих функција награђивања је критично у RL-у јер лоше дизајниране функције награђивања могу довести до ненамерних понашања. Поред тога, RL системи обучени на пристрасним подацима могу одржавати постојеће пристрасности и довести до дискриминаторних или неправедних исхода. Оба ова проблема захтевају пажљиво разматрање структура награђивања и извора података како би се осигурала праведност и жељена понашања.

Види још

Референце

^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). „Reinforcement Learning: A Survey” [Учење поткрепљењем: Преглед]. Journal of Artificial Intelligence Research. 4: 237—285. S2CID 1708582. arXiv:cs/9605103 . doi:10.1613/jair.301. Архивирано из оригинала 20. 11. 2001. г.
^ van Otterlo, M.; Wiering, M. (2012). „Reinforcement Learning and Markov Decision Processes”. Reinforcement Learning [Учење поткрепљењем]. Adaptation, Learning, and Optimization. 12. стр. 3—42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1.
^ ^а ^б Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control [Учење поткрепљењем за секвенцијално одлучивање и оптималну контролу] (First изд.). Springer Verlag, Singapore. стр. 1—460. ISBN 978-9-811-97783-1. S2CID 257928563. doi:10.1007/978-981-19-7784-8.
^ Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence: a modern approach [Вештачка интелигенција: Савремени приступ] (Third изд.). Upper Saddle River, New Jersey: Prentice Hall. стр. 830, 831. ISBN 978-0-13-604259-4.
^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21. 7. 2012). „Neural Basis of Reinforcement Learning and Decision Making” [Неуронска основа учења поткрепљењем и доношења одлука]. Annual Review of Neuroscience. 35 (1): 287—308. PMC 3490621 . PMID 22462543. doi:10.1146/annurev-neuro-062111-150512.
^ Salazar Duque, Edgar Mauricio; Giraldo, Juan S.; Vergara, Pedro P.; Nguyen, Phuong; Van Der Molen, Anne; Slootweg, Han (2022). „Community energy storage operation via reinforcement learning with eligibility traces”. Electric Power Systems Research. 212. 108515. Bibcode:2022EPSR..21208515S. S2CID 250635151. doi:10.1016/j.epsr.2022.108515 .
^ Xie, Zhaoming; Hung Yu Ling; Nam Hee Kim; Michiel van de Panne (2020). „ALLSTEPS: Curriculum-driven Learning of Stepping Stone Skills”. arXiv:2005.04323  [cs.GR].
^ Vergara, Pedro P.; Salazar, Mauricio; Giraldo, Juan S.; Palensky, Peter (2022). „Optimal dispatch of PV inverters in unbalanced distribution systems using Reinforcement Learning”. International Journal of Electrical Power & Energy Systems. 136. 107628. Bibcode:2022IJEPE.13607628V. S2CID 244099841. doi:10.1016/j.ijepes.2021.107628 .
^ Sutton & Barto 2018, Chapter 11.
^ Ren, Yangang; Jiang, Jianhua; Zhan, Guojian; Li, Shengbo Eben; Chen, Chen; Li, Keqiang; Duan, Jingliang (2022). „Self-Learned Intelligence for Integrated Decision and Control of Automated Vehicles at Signalized Intersections”. IEEE Transactions on Intelligent Transportation Systems. 23 (12): 24145—24156. Bibcode:2022ITITr..2324145R. arXiv:2110.12359 . doi:10.1109/TITS.2022.3196167.
^ Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement [Оптимизација заснована на симулацији]. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7.
^ ^а ^б Burnetas, Apostolos N.; Katehakis, Michael N. (1997), „Optimal adaptive policies for Markov Decision Processes” [Оптималне адаптивне политике за Марковљеве процесе одлучивања], Mathematics of Operations Research, 22 (1): 222—255, JSTOR 3690147, doi:10.1287/moor.22.1.222
^ Tokic, Michel; Palm, Günther (2011), „Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax” (PDF), KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, стр. 335—346, ISBN 978-3-642-24455-1
^ ^а ^б ^в „Reinforcement learning: An introduction” [Учење поткрепљењем: Увод] (PDF). Архивирано из оригинала (PDF) 12. 7. 2017. г. Приступљено 23. 7. 2017.
^ Singh, Satinder P.; Sutton, Richard S. (1. 3. 1996). „Reinforcement learning with replacing eligibility traces”. Machine Learning (на језику: енглески). 22 (1): 123—158. ISSN 1573-0565. doi:10.1007/BF00114726.
^ Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (Теза). University of Massachusetts, Amherst, MA. Архивирано из оригинала 30. 3. 2017. г. Приступљено 29. 3. 2017.
^ Sutton & Barto 2018, §6. Temporal-Difference Learning.
^ Bradtke, Steven J.; Barto, Andrew G. (1996). „Learning to predict by the method of temporal differences”. Machine Learning. 22: 33—57. CiteSeerX 10.1.1.143.857 . S2CID 20327856. doi:10.1023/A:1018056104778.
^ Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (Теза). King's College, Cambridge, UK.
^ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). „Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities”. Entropy. 24 (8): 1168. Bibcode:2022Entrp..24.1168M. PMC 9407070 . PMID 36010832. doi:10.3390/e24081168 .
^ Williams, Ronald J. (1987). „A class of gradient-estimating algorithms for reinforcement learning in neural networks”. Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871 .
^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). Reinforcement Learning for Humanoid Robotics (PDF). IEEE-RAS International Conference on Humanoid Robots. Архивирано из оригинала (PDF) 12. 5. 2013. г. Приступљено 8. 5. 2006.
^ Juliani, Arthur (17. 12. 2016). „Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)”. Medium. Приступљено 22. 2. 2018.
^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics (PDF). Foundations and Trends in Robotics. 2. NOW Publishers. стр. 1—142. doi:10.1561/2300000021. hdl:10044/1/12051.
^ Sutton, Richard (1990). „Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming”. Machine Learning: Proceedings of the Seventh International Workshop.
^ Lin, Long-Ji (1992). „Self-improving reactive agents based on reinforcement learning, planning and teaching” (PDF). Machine Learning. 8. doi:10.1007/BF00992699.
^ Zou, Lan (1. 1. 2023). Zou, Lan, ур. Chapter 7 - Meta-reinforcement learning. Meta-Learning. Academic Press. стр. 267—297. ISBN 978-0-323-89931-4. doi:10.1016/b978-0-323-89931-4.00011-0. Приступљено 8. 11. 2023.
^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). „When to use parametric models in reinforcement learning?” (PDF). Advances in Neural Information Processing Systems. 32.
^ Grondman, Ivo; Vaandrager, Maarten; Busoniu, Lucian; Babuska, Robert; Schuitema, Erik (1. 6. 2012). „Efficient Model Learning Methods for Actor–Critic Control”. IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics. 42 (3): 591—602. Bibcode:2012ITSMC..42..591G. ISSN 1083-4419. PMID 22156998. doi:10.1109/TSMCB.2011.2170565.
^ „On the Use of Reinforcement Learning for Testing Game Mechanics: ACM - Computers in Entertainment”. cie.acm.org (на језику: енглески). Приступљено 27. 11. 2018.
^ Li, Xiao; Vasile, Cristian-Ioan; Belta, Calin (2017). „Reinforcement Learning with Temporal Logic Rewards”. 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). стр. 3834—3839. doi:10.1109/IROS.2017.8206234.
^ Toro Icarte, Rodrigo; Klassen, Toryn Q.; Valenzano, Richard; McIlraith, Sheila A. (2022). „Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning”. Journal of Artificial Intelligence Research. 73: 173—208. arXiv:2010.03950 . doi:10.1613/jair.1.12440.
^ Riveret, Régis; Gao, Yang; Governatori, Guido; Rotolo, Antonino; Pitt, Jeremy; Sartor, Giovanni (2019). „A probabilistic argumentation framework for reinforcement learning agents”. Autonomous Agents and Multi-Agent Systems. 33 (1–2): 216—274. doi:10.1007/s10458-019-09404-2.
^ Haramati, Dan; Daniel, Tal; Tamar, Aviv (2024). „Entity-Centric Reinforcement Learning for Object Manipulation from Pixels”. arXiv:2404.01220  [cs.RO].
^ Thompson, Isaac Symes; Caron, Alberto; Hicks, Chris; Mavroudis, Vasilios (7. 11. 2024). „Entity-based Reinforcement Learning for Autonomous Cyber Defence”. Proceedings of the Workshop on Autonomous Cybersecurity (AutonomousCyber '24). ACM. стр. 56—67. arXiv:2410.17647 . doi:10.1145/3689933.3690835.
^ Winter, Clemens (14. 4. 2023). „Entity-Based Reinforcement Learning”. Clemens Winter's Blog.
^ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16. 11. 2021). „Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills”. arXiv:2111.08596  [cs.LG].
^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). „Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation”. Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16. USA: Curran Associates Inc.: 3682—3690. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9. arXiv:1604.06057 .
^ „Reinforcement Learning / Successes of Reinforcement Learning”. umichrl.pbworks.com. Приступљено 6. 8. 2017.
^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (март 2020). „User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs”. 2020 Design, Automation & Test in Europe Conference & Exhibition (DATE) (PDF). стр. 1728—1733. ISBN 978-3-9819263-4-7. S2CID 219858480. doi:10.23919/DATE48585.2020.9116294.
^ Quested, Tony. „Smartphones get smarter with Essex innovation”. Business Weekly. Приступљено 17. 6. 2021.
^ Williams, Rhiannon (21. 7. 2020). „Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'”. i (на језику: енглески). Приступљено 17. 6. 2021.
^ Kaplan, F.; Oudeyer, P. (2004). „Maximizing Learning Progress: An Internal Reward System for Development”. Ур.: Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. Embodied Artificial Intelligence. Lecture Notes in Computer Science. 3139. Berlin; Heidelberg: Springer. стр. 259—270. ISBN 978-3-540-22484-6. S2CID 9781221. doi:10.1007/978-3-540-27833-7_19.
^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). „Keep your options open: an information-based driving principle for sensorimotor systems”. PLOS ONE. 3 (12). e4018. Bibcode:2008PLoSO...3.4018K. PMC 2607028 . PMID 19107219. doi:10.1371/journal.pone.0004018 .
^ Barto, A. G. (2013). „Intrinsic motivation and reinforcement learning”. Intrinsically Motivated Learning in Natural and Artificial Systems (PDF). Berlin; Heidelberg: Springer. стр. 17—47.
^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). „Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks”. The Journal of Machine Learning in Finance. 1. SSRN 3374766 .
^ George Karimpanal, Thommen; Bouffanais, Roland (2019). „Self-organizing maps for storage and transfer of knowledge in reinforcement learning”. Adaptive Behavior (на језику: енглески). 27 (2): 111—126. ISSN 1059-7123. S2CID 53774629. arXiv:1811.08318 . doi:10.1177/1059712318818568.
^ cf. Sutton & Barto 2018, Section 5.4, p. 100
^ J Duan; Y Guan; S Li (2021). „Distributional Soft Actor-Critic: Off-policy reinforcement learning for addressing value estimation errors”. IEEE Transactions on Neural Networks and Learning Systems. 33 (11): 6584—6598. PMID 34101599. S2CID 211259373. arXiv:2001.02811 . doi:10.1109/TNNLS.2021.3082568.
^ Y Ren; J Duan; S Li (2020). „Improving Generalization of Reinforcement Learning with Minimax Distributional Soft Actor-Critic”. 2020 IEEE 23rd International Conference on Intelligent Transportation Systems (ITSC). стр. 1—6. ISBN 978-1-7281-4149-7. S2CID 211096594. arXiv:2002.05502 . doi:10.1109/ITSC45102.2020.9294300.
^ Duan, J; Wang, W; Xiao, L (2025). „Distributional Soft Actor-Critic with Three Refinements”. IEEE Transactions on Pattern Analysis and Machine Intelligence. PP (5): 3935—3946. Bibcode:2025ITPAM..47.3935D. PMID 40031258. arXiv:2310.05858 . doi:10.1109/TPAMI.2025.3537087.
^ Soucek, Branko (6. 5. 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. стр. 38. ISBN 0-471-55717-X.
^ Francois-Lavet, Vincent; et al. (2018). „An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning. 11 (3–4): 219—354. Bibcode:2018arXiv181112560F. S2CID 54434537. arXiv:1811.12560 . doi:10.1561/2200000071.
^ Mnih, Volodymyr; et al. (2015). „Human-level control through deep reinforcement learning”. Nature. 518 (7540): 529—533. Bibcode:2015Natur.518..529M. PMID 25719670. S2CID 205242740. doi:10.1038/nature14236.
^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). „Explaining and Harnessing Adversarial Examples”. International Conference on Learning Representations. arXiv:1412.6572 .
^ Behzadan, Vahid; Munir, Arslan (2017). „Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks”. Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science. 10358. стр. 262—275. ISBN 978-3-319-62415-0. S2CID 1562290. arXiv:1701.04143 . doi:10.1007/978-3-319-62416-7_19.
^ Huang, Sandy; Papernot, Nicolas; Goodfellow, Ian; Duan, Yan; Abbeel, Pieter (7. 2. 2017). Adversarial Attacks on Neural Network Policies. OCLC 1106256905.
^ Korkmaz, Ezgi (2022). „Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs.”. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22). 36 (7): 7229—7238. S2CID 245219157. arXiv:2112.09025 . doi:10.1609/aaai.v36i7.20684 .
^ Berenji, H.R. (1994). „Fuzzy Q-learning: A new approach for fuzzy dynamic programming”. Proceedings of 1994 IEEE 3rd International Fuzzy Systems Conference. Orlando, FL, USA: IEEE. стр. 486—491. ISBN 0-7803-1896-X. S2CID 56694947. doi:10.1109/FUZZY.1994.343737.
^ Vincze, David (2017). „Fuzzy rule interpolation and reinforcement learning” (PDF). 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. стр. 173—178. ISBN 978-1-5090-5655-2. S2CID 17590120. doi:10.1109/SAMI.2017.7880298.
^ Ng, A. Y.; Russell, S. J. (2000). „Algorithms for Inverse Reinforcement Learning” (PDF). Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. Morgan Kaufmann Publishers. стр. 663—670. ISBN 1-55860-707-2.
^ Ziebart, Brian D.; Maas, Andrew; Bagnell, J. Andrew; Dey, Anind K. (13. 7. 2008). „Maximum entropy inverse reinforcement learning”. Proceedings of the 23rd National Conference on Artificial Intelligence - Volume 3. AAAI'08. Chicago, Illinois: AAAI Press: 1433—1438. ISBN 978-1-57735-368-3. S2CID 336219.
^ Pitombeira-Neto, Anselmo R.; Santos, Helano P.; Coelho da Silva, Ticiana L.; de Macedo, José Antonio F. (март 2024). „Trajectory modeling via random utility inverse reinforcement learning”. Information Sciences. 660. 120128. ISSN 0020-0255. S2CID 235187141. arXiv:2105.12092 . doi:10.1016/j.ins.2024.120128.
^ Hayes C, Radulescu R, Bargiacchi E, et al. (2022). „A practical guide to multi-objective reinforcement learning and planning”. Autonomous Agents and Multi-Agent Systems. 36. 26. S2CID 254235920. arXiv:2103.09568 . doi:10.1007/s10458-022-09552-y . ,
^ Tzeng, Gwo-Hshiung; Huang, Jih-Jeng (2011). Multiple Attribute Decision Making: Methods and Applications (1st изд.). CRC Press. ISBN 978-1-4398-6157-8.
^ Gu, Shangding; Yang, Long; Du, Yali; Chen, Guang; Walter, Florian; Wang, Jun; Knoll, Alois (10. 9. 2024). „A review of safe reinforcement learning: Methods, theories and applications”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 46 (12): 11216—11235. Bibcode:2024ITPAM..4611216G. PMID 39255180. doi:10.1109/TPAMI.2024.3457538.
^ García, Javier; Fernández, Fernando (1. 1. 2015). „A comprehensive survey on safe reinforcement learning” (PDF). The Journal of Machine Learning Research. 16 (1): 1437—1480.
^ Dabney, Will; Ostrovski, Georg; Silver, David; Munos, Remi (3. 7. 2018). „Implicit Quantile Networks for Distributional Reinforcement Learning”. Proceedings of the 35th International Conference on Machine Learning (на језику: енглески). PMLR: 1096—1105. arXiv:1806.06923 .
^ Chow, Yinlam; Tamar, Aviv; Mannor, Shie; Pavone, Marco (2015). „Risk-Sensitive and Robust Decision-Making: a CVaR Optimization Approach”. Advances in Neural Information Processing Systems. Curran Associates, Inc. 28. arXiv:1506.02188 .
^ „Train Hard, Fight Easy: Robust Meta Reinforcement Learning”. scholar.google.com. Приступљено 21. 6. 2024.
^ Tamar, Aviv; Glassner, Yonatan; Mannor, Shie (21. 2. 2015). „Optimizing the CVaR via Sampling”. Proceedings of the AAAI Conference on Artificial Intelligence (на језику: енглески). 29 (1). ISSN 2374-3468. arXiv:1404.3862 . doi:10.1609/aaai.v29i1.9561.
^ Greenberg, Ido; Chow, Yinlam; Ghavamzadeh, Mohammad; Mannor, Shie (6. 12. 2022). „Efficient Risk-Averse Reinforcement Learning”. Advances in Neural Information Processing Systems (на језику: енглески). 35: 32639—32652. arXiv:2205.05138 .
^ Bozinovski, S. (1982). Trappl, Robert, ур. A self-learning system using secondary reinforcement. Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. ISBN 978-0-444-86488-8. . North-Holland. pp. 397–402.
^ Bozinovski S. (1995), Neuro genetic agents and structural theory of self-reinforcement learning systems . CMPSCI Technical Report 95-107, University of Massachusetts at Amherst [1](https://web.cs.umass.edu/publication/docs/1995/UM-CS-1995-107.pdf)
^ Bozinovski, S. (2014), Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981. Procedia Computer Science p. 255–263
^ „An API for reinforcement learning”. 22. 1. 2025. Приступљено 22. 1. 2025.
^ DeepSeek-AI; et al. (22. 1. 2025). „DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”. arXiv:2501.12948  [cs.CL].
^ Engstrom, Logan; Ilyas, Andrew; Santurkar, Shibani; Tsipras, Dimitris; Janoos, Firdaus; Rudolph, Larry; Madry, Aleksander (25. 9. 2019). „Implementation Matters in Deep RL: A Case Study on PPO and TRPO”. ICLR (на језику: енглески).
^ Colas, Cédric (6. 3. 2019). „A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms”. International Conference on Learning Representations (на језику: енглески). 47 (5): 3935—3946. Bibcode:2025ITPAM..47.3935D. PMID 40031258. arXiv:1904.06979 . doi:10.1109/TPAMI.2025.3537087.
^ Greenberg, Ido; Mannor, Shie (1. 7. 2021). „Detecting Rewards Deterioration in Episodic Reinforcement Learning”. Proceedings of the 38th International Conference on Machine Learning (на језику: енглески). PMLR: 3842—3853. arXiv:2010.11660 . doi:10.1613/jair.1.12440.

Литература

Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction [Учење поткрепљењем: Увод] (2nd изд.). MIT Press. ISBN 978-0-262-03924-6. Непознати параметар |orig-date= игнорисан (помоћ)
Annaswamy, Anuradha M. (3. 5. 2023). „Adaptive Control and Intersections with Reinforcement Learning” [Адаптивна контрола и пресеци са учењем поткрепљењем]. Annual Review of Control, Robotics, and Autonomous Systems (на језику: енглески). 6 (1): 65—93. ISSN 2573-5144. S2CID 255702873. doi:10.1146/annurev-control-062922-090153 .
Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). „Near-optimal regret bounds for reinforcement learning”. Journal of Machine Learning Research. 11: 1563—1600.
Bertsekas, Dimitri P. (2023). Reinforcement Learning and Optimal Control [Учење поткрепљењем и оптимална контрола] (1st изд.). Athena Scientific. ISBN 978-1-886-52939-7. Непознати параметар |orig-date= игнорисан (помоћ)
Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators [Учење поткрепљењем и динамичко програмирање коришћењем апроксиматора функција]. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). „An Introduction to Deep Reinforcement Learning” [Увод у дубоко учење поткрепљењем]. Foundations and Trends in Machine Learning. 11 (3–4): 219—354. Bibcode:2018arXiv181112560F. S2CID 54434537. arXiv:1811.12560 . doi:10.1561/2200000071.
Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control [Учење поткрепљењем за секвенцијално одлучивање и оптималну контролу] (1st изд.). Springer Verlag, Singapore. ISBN 978-9-811-97783-1. doi:10.1007/978-981-19-7784-8.
Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. Архивирано из оригинала 31. 7. 2016. г. Приступљено 8. 9. 2010.
Sutton, Richard S. (1988). „Learning to predict by the method of temporal differences” [Учење предвиђања методом временских разлика]. Machine Learning. 3 (1): 9—44. Bibcode:1988MLear...3....9S. doi:10.1007/BF00115009 .
Szita, Istvan; Szepesvari, Csaba (2010). „Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds” (PDF). ICML 2010. Omnipress. стр. 1031—1038. Архивирано из оригинала (PDF) 14. 7. 2010. г.

Спољашње везе

Dissecting Reinforcement Learning Серија блог постова о учењу поткрепљењем са Python кодом
A (Long) Peek into Reinforcement Learning

[kaelbling-1] Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). „Reinforcement Learning: A Survey” [Учење поткрепљењем: Преглед]. Journal of Artificial Intelligence Research. 4: 237—285. S2CID 1708582. arXiv:cs/9605103 . doi:10.1613/jair.301. Архивирано из оригинала 20. 11. 2001. г.

[2] van Otterlo, M.; Wiering, M. (2012). „Reinforcement Learning and Markov Decision Processes”. Reinforcement Learning [Учење поткрепљењем]. Adaptation, Learning, and Optimization. 12. стр. 3—42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1.

[Li-2023-3] а ^б Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control [Учење поткрепљењем за секвенцијално одлучивање и оптималну контролу] (First изд.). Springer Verlag, Singapore. стр. 1—460. ISBN 978-9-811-97783-1. S2CID 257928563. doi:10.1007/978-981-19-7784-8.

[4] Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence: a modern approach [Вештачка интелигенција: Савремени приступ] (Third изд.). Upper Saddle River, New Jersey: Prentice Hall. стр. 830, 831. ISBN 978-0-13-604259-4.

[5] Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21. 7. 2012). „Neural Basis of Reinforcement Learning and Decision Making” [Неуронска основа учења поткрепљењем и доношења одлука]. Annual Review of Neuroscience. 35 (1): 287—308. PMC 3490621 . PMID 22462543. doi:10.1146/annurev-neuro-062111-150512.

[6] Salazar Duque, Edgar Mauricio; Giraldo, Juan S.; Vergara, Pedro P.; Nguyen, Phuong; Van Der Molen, Anne; Slootweg, Han (2022). „Community energy storage operation via reinforcement learning with eligibility traces”. Electric Power Systems Research. 212. 108515. Bibcode:2022EPSR..21208515S. S2CID 250635151. doi:10.1016/j.epsr.2022.108515 .

[7] Xie, Zhaoming; Hung Yu Ling; Nam Hee Kim; Michiel van de Panne (2020). „ALLSTEPS: Curriculum-driven Learning of Stepping Stone Skills”. arXiv:2005.04323  [cs.GR].

[8] Vergara, Pedro P.; Salazar, Mauricio; Giraldo, Juan S.; Palensky, Peter (2022). „Optimal dispatch of PV inverters in unbalanced distribution systems using Reinforcement Learning”. International Journal of Electrical Power & Energy Systems. 136. 107628. Bibcode:2022IJEPE.13607628V. S2CID 244099841. doi:10.1016/j.ijepes.2021.107628 .

[FOOTNOTESuttonBarto2018Chapter_11-9] Sutton & Barto 2018, Chapter 11.

[Ren-2022-10] Ren, Yangang; Jiang, Jianhua; Zhan, Guojian; Li, Shengbo Eben; Chen, Chen; Li, Keqiang; Duan, Jingliang (2022). „Self-Learned Intelligence for Integrated Decision and Control of Automated Vehicles at Signalized Intersections”. IEEE Transactions on Intelligent Transportation Systems. 23 (12): 24145—24156. Bibcode:2022ITITr..2324145R. arXiv:2110.12359 . doi:10.1109/TITS.2022.3196167.

[11] Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement [Оптимизација заснована на симулацији]. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7.

[Optimal_adaptive_policies_for_Marko-12] а ^б Burnetas, Apostolos N.; Katehakis, Michael N. (1997), „Optimal adaptive policies for Markov Decision Processes” [Оптималне адаптивне политике за Марковљеве процесе одлучивања], Mathematics of Operations Research, 22 (1): 222—255, JSTOR 3690147, doi:10.1287/moor.22.1.222

[13] Tokic, Michel; Palm, Günther (2011), „Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax” (PDF), KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, стр. 335—346, ISBN 978-3-642-24455-1

[:0-14] а ^б ^в „Reinforcement learning: An introduction” [Учење поткрепљењем: Увод] (PDF). Архивирано из оригинала (PDF) 12. 7. 2017. г. Приступљено 23. 7. 2017.

[15] Singh, Satinder P.; Sutton, Richard S. (1. 3. 1996). „Reinforcement learning with replacing eligibility traces”. Machine Learning (на језику: енглески). 22 (1): 123—158. ISSN 1573-0565. doi:10.1007/BF00114726.

[16] Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (Теза). University of Massachusetts, Amherst, MA. Архивирано из оригинала 30. 3. 2017. г. Приступљено 29. 3. 2017.

[FOOTNOTESuttonBarto2018[httpincompleteideasnetsuttonbookebooknode60html_§6._Temporal-Difference_Learning]-17] Sutton & Barto 2018, §6. Temporal-Difference Learning.

[18] Bradtke, Steven J.; Barto, Andrew G. (1996). „Learning to predict by the method of temporal differences”. Machine Learning. 22: 33—57. CiteSeerX 10.1.1.143.857 . S2CID 20327856. doi:10.1023/A:1018056104778.

[19] Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (Теза). King's College, Cambridge, UK.

[MBK-20] Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). „Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities”. Entropy. 24 (8): 1168. Bibcode:2022Entrp..24.1168M. PMC 9407070 . PMID 36010832. doi:10.3390/e24081168 .

[21] Williams, Ronald J. (1987). „A class of gradient-estimating algorithms for reinforcement learning in neural networks”. Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871 .

[22] Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). Reinforcement Learning for Humanoid Robotics (PDF). IEEE-RAS International Conference on Humanoid Robots. Архивирано из оригинала (PDF) 12. 5. 2013. г. Приступљено 8. 5. 2006.

[23] Juliani, Arthur (17. 12. 2016). „Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)”. Medium. Приступљено 22. 2. 2018.

[24] Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics (PDF). Foundations and Trends in Robotics. 2. NOW Publishers. стр. 1—142. doi:10.1561/2300000021. hdl:10044/1/12051.

[25] Sutton, Richard (1990). „Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming”. Machine Learning: Proceedings of the Seventh International Workshop.

[26] Lin, Long-Ji (1992). „Self-improving reactive agents based on reinforcement learning, planning and teaching” (PDF). Machine Learning. 8. doi:10.1007/BF00992699.

[27] Zou, Lan (1. 1. 2023). Zou, Lan, ур. Chapter 7 - Meta-reinforcement learning. Meta-Learning. Academic Press. стр. 267—297. ISBN 978-0-323-89931-4. doi:10.1016/b978-0-323-89931-4.00011-0. Приступљено 8. 11. 2023.

[28] van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). „When to use parametric models in reinforcement learning?” (PDF). Advances in Neural Information Processing Systems. 32.

[29] Grondman, Ivo; Vaandrager, Maarten; Busoniu, Lucian; Babuska, Robert; Schuitema, Erik (1. 6. 2012). „Efficient Model Learning Methods for Actor–Critic Control”. IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics. 42 (3): 591—602. Bibcode:2012ITSMC..42..591G. ISSN 1083-4419. PMID 22156998. doi:10.1109/TSMCB.2011.2170565.

[30] „On the Use of Reinforcement Learning for Testing Game Mechanics: ACM - Computers in Entertainment”. cie.acm.org (на језику: енглески). Приступљено 27. 11. 2018.

[31] Li, Xiao; Vasile, Cristian-Ioan; Belta, Calin (2017). „Reinforcement Learning with Temporal Logic Rewards”. 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). стр. 3834—3839. doi:10.1109/IROS.2017.8206234.

[32] Toro Icarte, Rodrigo; Klassen, Toryn Q.; Valenzano, Richard; McIlraith, Sheila A. (2022). „Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning”. Journal of Artificial Intelligence Research. 73: 173—208. arXiv:2010.03950 . doi:10.1613/jair.1.12440.

[33] Riveret, Régis; Gao, Yang; Governatori, Guido; Rotolo, Antonino; Pitt, Jeremy; Sartor, Giovanni (2019). „A probabilistic argumentation framework for reinforcement learning agents”. Autonomous Agents and Multi-Agent Systems. 33 (1–2): 216—274. doi:10.1007/s10458-019-09404-2.

[34] Haramati, Dan; Daniel, Tal; Tamar, Aviv (2024). „Entity-Centric Reinforcement Learning for Object Manipulation from Pixels”. arXiv:2404.01220  [cs.RO].

[35] Thompson, Isaac Symes; Caron, Alberto; Hicks, Chris; Mavroudis, Vasilios (7. 11. 2024). „Entity-based Reinforcement Learning for Autonomous Cyber Defence”. Proceedings of the Workshop on Autonomous Cybersecurity (AutonomousCyber '24). ACM. стр. 56—67. arXiv:2410.17647 . doi:10.1145/3689933.3690835.

[36] Winter, Clemens (14. 4. 2023). „Entity-Based Reinforcement Learning”. Clemens Winter's Blog.

[37] Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16. 11. 2021). „Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills”. arXiv:2111.08596  [cs.LG].

[38] Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). „Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation”. Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16. USA: Curran Associates Inc.: 3682—3690. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9. arXiv:1604.06057 .

[39] „Reinforcement Learning / Successes of Reinforcement Learning”. umichrl.pbworks.com. Приступљено 6. 8. 2017.

[40] Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (март 2020). „User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs”. 2020 Design, Automation & Test in Europe Conference & Exhibition (DATE) (PDF). стр. 1728—1733. ISBN 978-3-9819263-4-7. S2CID 219858480. doi:10.23919/DATE48585.2020.9116294.

[41] Quested, Tony. „Smartphones get smarter with Essex innovation”. Business Weekly. Приступљено 17. 6. 2021.

[42] Williams, Rhiannon (21. 7. 2020). „Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'”. i (на језику: енглески). Приступљено 17. 6. 2021.

[kaplan2004-43] Kaplan, F.; Oudeyer, P. (2004). „Maximizing Learning Progress: An Internal Reward System for Development”. Ур.: Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. Embodied Artificial Intelligence. Lecture Notes in Computer Science. 3139. Berlin; Heidelberg: Springer. стр. 259—270. ISBN 978-3-540-22484-6. S2CID 9781221. doi:10.1007/978-3-540-27833-7_19.

[klyubin2008-44] Klyubin, A.; Polani, D.; Nehaniv, C. (2008). „Keep your options open: an information-based driving principle for sensorimotor systems”. PLOS ONE. 3 (12). e4018. Bibcode:2008PLoSO...3.4018K. PMC 2607028 . PMID 19107219. doi:10.1371/journal.pone.0004018 .

[barto2013-45] Barto, A. G. (2013). „Intrinsic motivation and reinforcement learning”. Intrinsically Motivated Learning in Natural and Artificial Systems (PDF). Berlin; Heidelberg: Springer. стр. 17—47.

[46] Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). „Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks”. The Journal of Machine Learning in Finance. 1. SSRN 3374766 .

[47] George Karimpanal, Thommen; Bouffanais, Roland (2019). „Self-organizing maps for storage and transfer of knowledge in reinforcement learning”. Adaptive Behavior (на језику: енглески). 27 (2): 111—126. ISSN 1059-7123. S2CID 53774629. arXiv:1811.08318 . doi:10.1177/1059712318818568.

[48] . Sutton & Barto 2018, Section 5.4, p. 100

[49] J Duan; Y Guan; S Li (2021). „Distributional Soft Actor-Critic: Off-policy reinforcement learning for addressing value estimation errors”. IEEE Transactions on Neural Networks and Learning Systems. 33 (11): 6584—6598. PMID 34101599. S2CID 211259373. arXiv:2001.02811 . doi:10.1109/TNNLS.2021.3082568.

[50] Y Ren; J Duan; S Li (2020). „Improving Generalization of Reinforcement Learning with Minimax Distributional Soft Actor-Critic”. 2020 IEEE 23rd International Conference on Intelligent Transportation Systems (ITSC). стр. 1—6. ISBN 978-1-7281-4149-7. S2CID 211096594. arXiv:2002.05502 . doi:10.1109/ITSC45102.2020.9294300.

[51] Duan, J; Wang, W; Xiao, L (2025). „Distributional Soft Actor-Critic with Three Refinements”. IEEE Transactions on Pattern Analysis and Machine Intelligence. PP (5): 3935—3946. Bibcode:2025ITPAM..47.3935D. PMID 40031258. arXiv:2310.05858 . doi:10.1109/TPAMI.2025.3537087.

[52] Soucek, Branko (6. 5. 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. стр. 38. ISBN 0-471-55717-X.

[intro_deep_RL-53] Francois-Lavet, Vincent; et al. (2018). „An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning. 11 (3–4): 219—354. Bibcode:2018arXiv181112560F. S2CID 54434537. arXiv:1811.12560 . doi:10.1561/2200000071.

[DQN2-54] Mnih, Volodymyr; et al. (2015). „Human-level control through deep reinforcement learning”. Nature. 518 (7540): 529—533. Bibcode:2015Natur.518..529M. PMID 25719670. S2CID 205242740. doi:10.1038/nature14236.

[55] Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). „Explaining and Harnessing Adversarial Examples”. International Conference on Learning Representations. arXiv:1412.6572 .

[56] Behzadan, Vahid; Munir, Arslan (2017). „Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks”. Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science. 10358. стр. 262—275. ISBN 978-3-319-62415-0. S2CID 1562290. arXiv:1701.04143 . doi:10.1007/978-3-319-62416-7_19.

[57] Huang, Sandy; Papernot, Nicolas; Goodfellow, Ian; Duan, Yan; Abbeel, Pieter (7. 2. 2017). Adversarial Attacks on Neural Network Policies. OCLC 1106256905.

[58] Korkmaz, Ezgi (2022). „Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs.”. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22). 36 (7): 7229—7238. S2CID 245219157. arXiv:2112.09025 . doi:10.1609/aaai.v36i7.20684 .

[59] Berenji, H.R. (1994). „Fuzzy Q-learning: A new approach for fuzzy dynamic programming”. Proceedings of 1994 IEEE 3rd International Fuzzy Systems Conference. Orlando, FL, USA: IEEE. стр. 486—491. ISBN 0-7803-1896-X. S2CID 56694947. doi:10.1109/FUZZY.1994.343737.

[60] Vincze, David (2017). „Fuzzy rule interpolation and reinforcement learning” (PDF). 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. стр. 173—178. ISBN 978-1-5090-5655-2. S2CID 17590120. doi:10.1109/SAMI.2017.7880298.

[61] Ng, A. Y.; Russell, S. J. (2000). „Algorithms for Inverse Reinforcement Learning” (PDF). Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. Morgan Kaufmann Publishers. стр. 663—670. ISBN 1-55860-707-2.

[62] Ziebart, Brian D.; Maas, Andrew; Bagnell, J. Andrew; Dey, Anind K. (13. 7. 2008). „Maximum entropy inverse reinforcement learning”. Proceedings of the 23rd National Conference on Artificial Intelligence - Volume 3. AAAI'08. Chicago, Illinois: AAAI Press: 1433—1438. ISBN 978-1-57735-368-3. S2CID 336219.

[63] Pitombeira-Neto, Anselmo R.; Santos, Helano P.; Coelho da Silva, Ticiana L.; de Macedo, José Antonio F. (март 2024). „Trajectory modeling via random utility inverse reinforcement learning”. Information Sciences. 660. 120128. ISSN 0020-0255. S2CID 235187141. arXiv:2105.12092 . doi:10.1016/j.ins.2024.120128.

[64] Hayes C, Radulescu R, Bargiacchi E, et al. (2022). „A practical guide to multi-objective reinforcement learning and planning”. Autonomous Agents and Multi-Agent Systems. 36. 26. S2CID 254235920. arXiv:2103.09568 . doi:10.1007/s10458-022-09552-y . ,

[65] Tzeng, Gwo-Hshiung; Huang, Jih-Jeng (2011). Multiple Attribute Decision Making: Methods and Applications (1st изд.). CRC Press. ISBN 978-1-4398-6157-8.

[66] Gu, Shangding; Yang, Long; Du, Yali; Chen, Guang; Walter, Florian; Wang, Jun; Knoll, Alois (10. 9. 2024). „A review of safe reinforcement learning: Methods, theories and applications”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 46 (12): 11216—11235. Bibcode:2024ITPAM..4611216G. PMID 39255180. doi:10.1109/TPAMI.2024.3457538.

[67] García, Javier; Fernández, Fernando (1. 1. 2015). „A comprehensive survey on safe reinforcement learning” (PDF). The Journal of Machine Learning Research. 16 (1): 1437—1480.

[68] Dabney, Will; Ostrovski, Georg; Silver, David; Munos, Remi (3. 7. 2018). „Implicit Quantile Networks for Distributional Reinforcement Learning”. Proceedings of the 35th International Conference on Machine Learning (на језику: енглески). PMLR: 1096—1105. arXiv:1806.06923 .

[69] Chow, Yinlam; Tamar, Aviv; Mannor, Shie; Pavone, Marco (2015). „Risk-Sensitive and Robust Decision-Making: a CVaR Optimization Approach”. Advances in Neural Information Processing Systems. Curran Associates, Inc. 28. arXiv:1506.02188 .

[70] „Train Hard, Fight Easy: Robust Meta Reinforcement Learning”. scholar.google.com. Приступљено 21. 6. 2024.

[71] Tamar, Aviv; Glassner, Yonatan; Mannor, Shie (21. 2. 2015). „Optimizing the CVaR via Sampling”. Proceedings of the AAAI Conference on Artificial Intelligence (на језику: енглески). 29 (1). ISSN 2374-3468. arXiv:1404.3862 . doi:10.1609/aaai.v29i1.9561.

[72] Greenberg, Ido; Chow, Yinlam; Ghavamzadeh, Mohammad; Mannor, Shie (6. 12. 2022). „Efficient Risk-Averse Reinforcement Learning”. Advances in Neural Information Processing Systems (на језику: енглески). 35: 32639—32652. arXiv:2205.05138 .

[73] Bozinovski, S. (1982). Trappl, Robert, ур. A self-learning system using secondary reinforcement. Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. ISBN 978-0-444-86488-8. . North-Holland. pp. 397–402.

[74] Bozinovski S. (1995), Neuro genetic agents and structural theory of self-reinforcement learning systems . CMPSCI Technical Report 95-107, University of Massachusetts at Amherst [1](https://web.cs.umass.edu/publication/docs/1995/UM-CS-1995-107.pdf)

[75] Bozinovski, S. (2014), Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981. Procedia Computer Science p. 255–263

[76] „An API for reinforcement learning”. 22. 1. 2025. Приступљено 22. 1. 2025.

[77] DeepSeek-AI; et al. (22. 1. 2025). „DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”. arXiv:2501.12948  [cs.CL].

[78] Engstrom, Logan; Ilyas, Andrew; Santurkar, Shibani; Tsipras, Dimitris; Janoos, Firdaus; Rudolph, Larry; Madry, Aleksander (25. 9. 2019). „Implementation Matters in Deep RL: A Case Study on PPO and TRPO”. ICLR (на језику: енглески).

[79] Colas, Cédric (6. 3. 2019). „A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms”. International Conference on Learning Representations (на језику: енглески). 47 (5): 3935—3946. Bibcode:2025ITPAM..47.3935D. PMID 40031258. arXiv:1904.06979 . doi:10.1109/TPAMI.2025.3537087.

[80] Greenberg, Ido; Mannor, Shie (1. 7. 2021). „Detecting Rewards Deterioration in Episodic Reinforcement Learning”. Proceedings of the 38th International Conference on Machine Learning (на језику: енглески). PMLR: 3842—3853. arXiv:2010.11660 . doi:10.1613/jair.1.12440.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]