A Tutorial on Thompson Sampling
Eșantionarea Thompson este un algoritm pentru problemele de decizie online în care acțiunile sunt întreprinse secvențial, într-un mod care trebuie să asigure un echilibru între exploatarea a ceea ce se știe pentru a maximiza performanța imediată și investiția pentru a acumula noi informații care pot îmbunătăți performanța viitoare.
Algoritmul abordează o gamă largă de probleme într-un mod eficient din punct de vedere computațional și, prin urmare, se bucură de o utilizare largă. A Tutorial on Thompson Sampling acoperă algoritmul și aplicarea sa, ilustrând conceptele printr-o serie de exemple, inclusiv probleme de bandit Bernoulli, probleme legate de calea cea mai scurtă, recomandarea produselor, sortimentul, învățarea activă cu rețele neuronale și învățarea prin consolidare în procesele decizionale Markov.
Majoritatea acestor probleme implică structuri de informații complexe, în care informațiile dezvăluite prin efectuarea unei acțiuni informează convingerile cu privire la alte acțiuni. De asemenea, se discută când și de ce eșantionarea Thompson este sau nu este eficientă și relațiile cu algoritmii alternativi.
© Book1 Group - toate drepturile rezervate.
Conținutul acestui site nu poate fi copiat sau utilizat, nici parțial, nici integral, fără permisiunea scrisă a proprietarului.
Ultima modificare: 2024.11.08 07:02 (GMT)