要約
スパース報酬強化学習での探索は、報酬を達成するために長く調整されたアクションのシーケンスが必要なため、困難です。
さらに、連続的なアクション空間では無限の数のアクションが可能であり、探索の難易度が増すだけです。
これらの問題に対処するために設計されたメソッドの 1 つのクラスは、同じドメインで収集されたインタラクション データから、スキルと呼ばれることが多い一時的に拡張されたアクションを形成し、この新しいアクション空間に基づいてポリシーを最適化します。
通常、このような方法では、強化学習を開始する前にスキルを形成するために、特に連続アクション空間では、長い事前トレーニング段階が必要です。
このようなタスクでは連続アクション空間の全範囲が必要ではないという以前の証拠を踏まえて、我々は 2 つのコンポーネントによるスキル生成への新しいアプローチを提案します。
まず、クラスタリングを通じてアクション空間を離散化し、次に自然言語処理から借用したトークン化手法を活用して、時間的に拡張されたアクションを生成します。
このような方法は、いくつかの困難な報酬が少ない領域でスキル生成のベースラインを上回り、スキル生成とオンライン展開で必要な計算量が桁違いに少なくなります。
要約(オリジナル)
Exploration in sparse-reward reinforcement learning is difficult due to the requirement of long, coordinated sequences of actions in order to achieve any reward. Moreover, in continuous action spaces there are an infinite number of possible actions, which only increases the difficulty of exploration. One class of methods designed to address these issues forms temporally extended actions, often called skills, from interaction data collected in the same domain, and optimizes a policy on top of this new action space. Typically such methods require a lengthy pretraining phase, especially in continuous action spaces, in order to form the skills before reinforcement learning can begin. Given prior evidence that the full range of the continuous action space is not required in such tasks, we propose a novel approach to skill-generation with two components. First we discretize the action space through clustering, and second we leverage a tokenization technique borrowed from natural language processing to generate temporally extended actions. Such a method outperforms baselines for skill-generation in several challenging sparse-reward domains, and requires orders-of-magnitude less computation in skill-generation and online rollouts.
arxiv情報
著者 | David Yunis,Justin Jung,Falcon Dai,Matthew Walter |
発行日 | 2023-09-08 17:37:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google