要約
オフライン強化学習 (RL) では、原則として、次善の試行のみで構成されるデータセットからより最適な動作を合成できます。
これを実現する 1 つの方法は、同様の状態に重なる最適ではない軌道の最良の部分を「縫い合わせて」、個々の状態が分散しているが、全体的な利益がより高いという新しい動作を作成することです。
ただし、自律ナビゲーションや対話システムなど、多くの興味深い複雑なアプリケーションでは、状態が部分的に観察されます。
さらに悪いことに、状態の表現が不明であるか、定義するのが簡単ではありません。
このような場合、政策や価値関数は状態ではなく観察履歴に基づいて条件付けされることがよくあります。
このような場合、同じ種類の「ステッチング」が観測履歴レベルで実現可能かどうかは明らかではありません。2 つの異なる軌道には常に異なる履歴があり、したがって効果的なステッチングにつながる可能性のある「類似の状態」を利用することができないためです。
。
理論的には、上記の直観に従って、観測履歴に条件付けされた標準的なオフライン RL アルゴリズムはサンプルの複雑さが劣るという問題があることを示します。
次に、オフライン RL が引き続き効率的であるための十分な条件を特定します。直感的には、アクションの選択に関連する特徴のみで構成される履歴のコンパクトな表現を学習する必要があります。
我々は、これがどの程度起こるかを捉えるバイシミュレーション損失を導入し、オフライン RL がこの損失を明示的に最適化して、最悪の場合のサンプルの複雑さを支援できることを提案します。
経験的に、さまざまなタスクにわたって、提案した損失によってパフォーマンスが向上するか、標準のオフライン RL の結果としてこの損失の値がすでに最小化されており、それが良好なパフォーマンスとよく相関していることがわかります。
要約(オリジナル)
Offline reinforcement learning (RL) can in principle synthesize more optimal behavior from a dataset consisting only of suboptimal trials. One way that this can happen is by ‘stitching’ together the best parts of otherwise suboptimal trajectories that overlap on similar states, to create new behaviors where each individual state is in-distribution, but the overall returns are higher. However, in many interesting and complex applications, such as autonomous navigation and dialogue systems, the state is partially observed. Even worse, the state representation is unknown or not easy to define. In such cases, policies and value functions are often conditioned on observation histories instead of states. In these cases, it is not clear if the same kind of ‘stitching’ is feasible at the level of observation histories, since two different trajectories would always have different histories, and thus ‘similar states’ that might lead to effective stitching cannot be leveraged. Theoretically, we show that standard offline RL algorithms conditioned on observation histories suffer from poor sample complexity, in accordance with the above intuition. We then identify sufficient conditions under which offline RL can still be efficient — intuitively, it needs to learn a compact representation of history comprising only features relevant for action selection. We introduce a bisimulation loss that captures the extent to which this happens, and propose that offline RL can explicitly optimize this loss to aid worst-case sample complexity. Empirically, we show that across a variety of tasks either our proposed loss improves performance, or the value of this loss is already minimized as a consequence of standard offline RL, indicating that it correlates well with good performance.
arxiv情報
著者 | Joey Hong,Anca Dragan,Sergey Levine |
発行日 | 2023-10-31 17:29:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google