要約
タイトル:オプションフレームワークに基づく多モード探索を持つ自律的な非モノリシックエージェント
要約:
– 強化学習の探索に関する多くの研究は、「どうやって探索するか」すなわち「探索の方法」に注目してきた
– 一方、「いつ探索するか」すなわち「探索のタイミング」に関する研究はあまり行われていない
– 従来の強化学習におけるモノリシックな探索において、探索と利用のアクションが束縛される問題がある
– 最近、ノンモノリシックな探索の研究が現れ、人間や動物のモード切り替え探索行動を調べるようになった
– 弊社の研究目的は、エージェント自身が探索するタイミングを決定できるようにすることである
– オプションフレームワークに基づくノンモノリシック行動の自律的なマルチモード探索の初期研究を説明する
– 比較的な実験結果によって、既存のノンモノリシック探索方法よりも高い性能を示している。
要約(オリジナル)
Most exploration research on reinforcement learning (RL) has paid attention to `the way of exploration’, which is `how to explore’. The other exploration research, `when to explore’, has not been the main focus of RL exploration research. \textcolor{black}{The issue of `when’ of a monolithic exploration in the usual RL exploration behaviour binds an exploratory action to an exploitational action of an agent. Recently, a non-monolithic exploration research has emerged to examine the mode-switching exploration behaviour of humans and animals.} The ultimate purpose of our research is to enable an agent to decide when to explore or exploit autonomously. We describe the initial research of an autonomous multi-mode exploration of non-monolithic behaviour in an options framework. The higher performance of our method is shown against the existing non-monolithic exploration method through comparative experimental results.
arxiv情報
著者 | JaeYoon Kim,Junyu Xuan,Christy Liang,Farookh Hussain |
発行日 | 2023-05-02 11:08:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI