Uczenie wzmacniające

Biologię stojącą za uczeniem się przez wzmocnienie można znaleźć na stronie Warunkowanie operacyjne i Nagroda.

Reinforcement learning (RL) to uczenie agenta oprogramowania, jak ma się zachowywać w danym środowisku, poprzez mówienie mu, jak dobrze to robi. Jest to dziedzina uczenia maszynowego zainspirowana psychologią behawiorystyczną.

Uczenie wzmacniające różni się od uczenia nadzorowanego, ponieważ nigdy nie są pokazywane poprawne dane wejściowe i wyjściowe. Ponadto, uczenie wzmacniające zazwyczaj uczy się w trakcie (uczenie online), w przeciwieństwie do uczenia nadzorowanego. Oznacza to, że agent musi wybrać pomiędzy eksploracją a trzymaniem się tego, co wie najlepiej.

Wstęp

System uczenia wzmacniającego zbudowany jest z polityki ( π {displaystyle \i } {\displaystyle \pi }), funkcji nagrody ( R {displaystyle R}{\displaystyle R} ), funkcji wartości ( v {displaystyle v}{\displaystyle v} ) oraz opcjonalnie modelu środowiska.

Polityka mówi agentowi, co ma zrobić w określonej sytuacji. Może to być prosta tabela reguł lub skomplikowane poszukiwanie właściwej akcji. Polityka może być nawet stochastyczna, co oznacza, że zamiast reguł, polityka przypisuje prawdopodobieństwo do każdej akcji. Polityka sama w sobie może skłonić agenta do działania, ale nie może się sama uczyć.

Funkcja nagrody definiuje cel dla agenta. Przyjmuje ona stan (lub stan i akcję podjętą w tym stanie) i oddaje liczbę zwaną nagrodą, która mówi agentowi, jak dobrze jest być w tym stanie. Zadaniem agenta jest uzyskanie największej ilości nagrody, jaką może w długim okresie czasu. Jeśli działanie daje niską nagrodę, agent prawdopodobnie podejmie lepsze działanie w przyszłości. Biologia używa sygnałów nagrody, takich jak przyjemność lub ból, aby upewnić się, że organizmy pozostają przy życiu, aby się rozmnażać. Sygnały nagrody mogą być również stochastyczne, jak automat w kasynie, gdzie czasami płacą, a czasami nie.

Funkcja wartości mówi agentowi, jak dużą nagrodę otrzyma, stosując politykę π {w stylu s} {\displaystyle \pi }począwszy od stanu s {w stylu s} {\displaystyle s}. Przedstawia ona, jak pożądane jest znalezienie się w danym stanie. Ponieważ funkcja wartości nie jest podana agentowi bezpośrednio, musi on zgadnąć lub oszacować ją na podstawie dotychczas otrzymanej nagrody. Szacowanie funkcji wartości jest najważniejszą częścią większości algorytmów uczenia wzmacniającego.

Model jest mentalną kopią środowiska przez agenta. Jest on używany do planowania przyszłych działań.

Wiedząc to, możemy mówić o głównej pętli epizodu uczenia się przez wzmocnienie. Agent wchodzi w interakcję z otoczeniem w dyskretnych krokach czasowych. Pomyśl o tym jak o "tik-tak" zegara. W czasie dyskretnym rzeczy dzieją się tylko podczas "tików" i "toków", a nie pomiędzy nimi. W każdym czasie t = 0 , 1 , 2 , 3 , . . . {displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}agent obserwuje stan środowiska S t {displaystyle S_{t}} {\displaystyle S_{t}}i wybiera akcję A t {displaystyle A_{t}} opartą na polityce π {displaystyle _pi{\displaystyle A_{t}}}. {\displaystyle \pi }. W następnym kroku czasowym agent otrzymuje sygnał nagrody R t + 1 {displaystyle R_{t+1}} {\displaystyle R_{t+1}}oraz nową obserwację S t + 1 {displaystyle S_{t+1}} . {\displaystyle S_{t+1}}. Funkcja wartości v ( S t ) {displaystyle v(S_{t}})} {\displaystyle v(S_{t})}jest aktualizowana z wykorzystaniem nagrody. Trwa to do momentu osiągnięcia stanu końcowego S T {przykład S_{T}}{\displaystyle S_{T}}.

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3