Jak wykraść złoto smokowi? - uczenie ze wzmocnieniem w świecie Wumpusa

Karol Draszawka

Jak wykraść złoto smokowi? - uczenie ze wzmocnieniem w świecie Wumpusa

Abstrakt

Niniejszy rozdział zawiera łagodne wprowadzenie do problematyki uczenia ze wzmocnieniem, w którym podstawy teoretyczne wyjaśniane są na przykładzie przewodnim, jakim jest zagadnienie nauczenia agenta poruszania się w świecie potwora o imieniu Wumpus (ang. Wumpus world), klasycznym środowisku do testowania logicznego rozumowania agentów (problem nietrywialny dla algorytmów uczenia ze wzmocnieniem). Przedstawiona jest główna idea uczenia ze wzmocnieniem. Wprowadzono formalizację wieloetapowych procesów decyzyjnych w oparciu o model Procesu Decyzyjnego Markowa, zaznaczono dylemat eksploracja - eksploatacja, przestawiono klasyczny algorytm Q-learning, a także jego wariant głęboki, tj. algorytm DQN, jako przedstawiciela dziedziny głębokiego uczenia ze wzmocnieniem. Zaznaczono problemy częściowej obserwacji stanu oraz rzadko występującej nagrody, jak i sposoby poradzenia sobie z nimi, w tym: kumulacja wiedzy o stanie na podstawie częściowych obserwacji, kształtowanie funkcji nagrody, tzw. curriculum learning oraz innowacyjną podwójną strategię eps-zachłanną.

Autor (1)

Karol Draszawka mgr inż.

Cytuj jako

Pełna treść

pełna treść publikacji nie jest dostępna w portalu

Słowa kluczowe

Informacje szczegółowe

Kategoria:: Publikacja monograficzna
Typ:: rozdział, artykuł w książce - dziele zbiorowym /podręczniku o zasięgu krajowym
Język:: polski
Rok wydania:: 2021
Opis bibliograficzny:: Draszawka K.: Jak wykraść złoto smokowi? - uczenie ze wzmocnieniem w świecie Wumpusa// Uczenie maszynowe i systemy rozproszone/ : , 2021, s.90-109
Weryfikacja:: Politechnika Gdańska