Model-based Reinforcement Learning: A Survey
Luarea de decizii secvențiale, formalizată în mod obișnuit ca optimizare a proceselor decizionale Markov (MDP), este o provocare importantă în inteligența artificială. Două abordări cheie ale acestei probleme sunt învățarea prin consolidare (RL) și planificarea. Această monografie analizează o integrare a ambelor domenii, mai bine cunoscută sub numele de învățare de întărire bazată pe model.
Model-based RL are două etape principale: învățarea modelului dinamic și integrarea planificării-învățării. În acest studiu cuprinzător al subiectului, autorii abordează mai întâi învățarea modelului dinamic, inclusiv provocări precum abordarea stochasticității, incertitudinii, observabilității parțiale și abstractizării temporale. Apoi, ei prezintă o categorizare sistematică a integrării planificării-învățării, inclusiv aspecte precum: unde să înceapă planificarea, ce bugete să se aloce planificării și colectării datelor reale, cum să se planifice și cum să se integreze planificarea în bucla de învățare și acțiune.
În concluzie, autorii discută despre RL implicită bazată pe modele ca o alternativă end-to-end pentru învățarea și planificarea modelelor și acoperă beneficiile potențiale ale RL bazată pe modele. Pe parcurs, autorii stabilesc conexiuni cu mai multe domenii conexe ale RL, inclusiv RL ierarhică și învățarea prin transfer.
Această monografie conține o prezentare conceptuală amplă a combinației de planificare și învățare pentru optimizarea proceselor decizionale Markov. Ea oferă o introducere clară și completă a subiectului atât pentru studenți, cât și pentru cercetători.
© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)