要約
可能なアクションのセットが状態に非連続的に依存するタスクは、現在の強化学習アルゴリズムにとって大きな課題となります。
たとえば、ロックされたドアは、まずロックを解除してから、ドアを開く前にハンドルを回す必要があります。
これらのタスクのシーケンシャルな性質により、最終的な報酬を得ることが難しくなり、個別のシンボルではなく重みなどの連続学習値を使用してタスク バリアント間で情報を転送することは非効率になる可能性があります。
私たちの重要な洞察は、象徴的に行動し、考えるエージェントは、これらのタスクを処理する上でより効果的であることが多いということです.
制約の象徴的な性質とこれらのタスクにおけるアクションの時間的な順序付けを活用して、高レベルの情報をすばやく取得して転送するメモリベースの学習アプローチを提案します。
状態とアクションの間にほぼ不連続な制約がある実際のタスクとシミュレートされたタスクの両方でメモリベースの学習のパフォーマンスを評価し、モデルベースおよびモデルフリーの深層強化学習の両方よりも桁違いに速くこれらのタスクを解決する方法を学習することを示します
メソッド。
要約(オリジナル)
Tasks where the set of possible actions depend discontinuously on the state pose a significant challenge for current reinforcement learning algorithms. For example, a locked door must be first unlocked, and then the handle turned before the door can be opened. The sequential nature of these tasks makes obtaining final rewards difficult, and transferring information between task variants using continuous learned values such as weights rather than discrete symbols can be inefficient. Our key insight is that agents that act and think symbolically are often more effective in dealing with these tasks. We propose a memory-based learning approach that leverages the symbolic nature of constraints and temporal ordering of actions in these tasks to quickly acquire and transfer high-level information. We evaluate the performance of memory-based learning on both real and simulated tasks with approximately discontinuous constraints between states and actions, and show our method learns to solve these tasks an order of magnitude faster than both model-based and model-free deep reinforcement learning methods.
arxiv情報
著者 | Mrinal Verghese,Chris Atkeson |
発行日 | 2023-03-08 02:00:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google