Risk-Sensitive Reinforcement Learning via Policy Gradient Search
Învățarea prin consolidare (RL) este unul dintre pilonii fundamentali ai inteligenței artificiale și ai învățării automate. Un considerent important în orice problemă de optimizare sau control este noțiunea de risc, dar încorporarea acestuia în RL a fost o dezvoltare destul de recentă. Această monografie analizează cercetările privind RL sensibilă la risc care utilizează căutarea gradientului politicii.
Autorii trec în revistă unele dintre lucrările recente din acest domeniu, în special atunci când căutarea gradientului politicii este abordarea soluției. În primul cadru de RL sensibil la risc, aceștia acoperă măsurile de risc populare bazate pe varianță, valoarea condiționată la risc și constrângerile de șansă și prezintă un șablon pentru algoritmii de RL sensibil la risc bazat pe gradient de politică care utilizează o formulare Lagrange. Pentru cadrul în care riscul este încorporat direct în funcția obiectiv, ei iau în considerare o formulare de utilitate exponențială, teoria prospectelor cumulative și măsuri de risc coerente.
Scris pentru începători și experți deopotrivă, autorii au făcut textul complet autonom, dar, de asemenea, organizat într-un mod care permite cititorilor experți să sară peste capitolele de fundal. Acesta este un ghid complet pentru studenții și cercetătorii care lucrează la acest aspect al învățării automate.
© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)