Dataset Characteristics and Their Impact on Offline Policy Learning of Contextual Multi-Armed Bandits
Abstrakt
The Contextual Multi-Armed Bandits (CMAB) framework is pivotal for learning to make decisions. However, due to challenges in deploying online algorithms, there is a shift towards offline policy learning, which relies on pre-existing datasets. This study examines the relationship between the quality of these datasets and the performance of offline policy learning algorithms, specifically, Neural Greedy and NeuraLCB. Our results demonstrate that NeuraLCB can learn from various datasets, while Neural Greedy necessitates extensive coverage of the action-space for effective learning. Moreover, the way data is collected significantly affects offline methods’ efficiency. This underscores the critical role of dataset quality in offline policy learning.
Cytowania
-
0
CrossRef
-
0
Web of Science
-
0
Scopus
Autorzy (3)
Cytuj jako
Pełna treść
- Wersja publikacji
- Accepted albo Published Version
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.5220/0012311000003636
- Licencja
- otwiera się w nowej karcie
Słowa kluczowe
Informacje szczegółowe
- Kategoria:
- Aktywność konferencyjna
- Typ:
- publikacja w wydawnictwie zbiorowym recenzowanym (także w materiałach konferencyjnych)
- Język:
- angielski
- Rok wydania:
- 2024
- Opis bibliograficzny:
- Januszewski P., Grzegorzek D., Czarnul P.: Dataset Characteristics and Their Impact on Offline Policy Learning of Contextual Multi-Armed Bandits// / : , 2024,
- DOI:
- Cyfrowy identyfikator dokumentu elektronicznego (otwiera się w nowej karcie) 10.5220/0012311000003636
- Źródła finansowania:
-
- Działalność statutowa/subwencja
- Weryfikacja:
- Politechnika Gdańska
wyświetlono 84 razy
Publikacje, które mogą cię zainteresować
Machine Learning and Deep Learning Methods for Fast and Accurate Assessment of Transthoracic Echocardiogram Image Quality
- W. Nazar,
- K. Nazar,
- L. Daniłowicz-Szymanowicz