Sequence Modeling is a Robust Contender for Offline Reinforcement Learning

要約

オフライン強化学習 (RL) を使用すると、エージェントは効果的で収益を最大化するポリシーを静的データセットから学習できます。
オフライン RL の 3 つの主要なパラダイムは、Q ラーニング、模倣学習、シーケンス モデリングです。
重要な未解決の質問は、どのような条件下でどのパラダイムが優先されるかということです。
私たちは、一般的に使用されている D4RL および Robomimic ベンチマーク全体で、保守的 Q-Learning (CQL)、Behavior Cloning (BC)、および Decision Transformer (DT) などの代表的なアルゴリズムのパフォーマンスを調査することで、この問題を経験的に研究しています。
データの準最適性とタスクの複雑さに関する動作を理解するために、対象を絞った実験を設計します。
私たちの主な発見は次のとおりです。(1) シーケンス モデリングは、競争政策を学習するために Q ラーニングよりも多くのデータを必要としますが、より堅牢です。
(2) シーケンス モデリングは、報酬が少なく低品質のデータ設定では、Q ラーニングや模倣学習よりも大幅に優れた選択肢です。
(3) シーケンス モデリングと模倣学習は、タスク範囲が増加する場合、または人間のデモンストレーターからデータを取得する場合に推奨されます。
シーケンス モデリングの全体的な強みに基づいて、Atari および D4RL 上の DT のアーキテクチャの選択とスケーリングの傾向も調査し、設計の推奨事項を作成します。
DT のデータ量を 5 倍にスケーリングすると、Atari の平均スコアが 2.5 倍向上することがわかりました。

要約(オリジナル)

Offline reinforcement learning (RL) allows agents to learn effective, return-maximizing policies from a static dataset. Three major paradigms for offline RL are Q-Learning, Imitation Learning, and Sequence Modeling. A key open question is: which paradigm is preferred under what conditions? We study this question empirically by exploring the performance of representative algorithms — Conservative Q-Learning (CQL), Behavior Cloning (BC), and Decision Transformer (DT) — across the commonly used D4RL and Robomimic benchmarks. We design targeted experiments to understand their behavior concerning data suboptimality and task complexity. Our key findings are: (1) Sequence Modeling requires more data than Q-Learning to learn competitive policies but is more robust; (2) Sequence Modeling is a substantially better choice than both Q-Learning and Imitation Learning in sparse-reward and low-quality data settings; and (3) Sequence Modeling and Imitation Learning are preferable as task horizon increases, or when data is obtained from human demonstrators. Based on the overall strength of Sequence Modeling, we also investigate architectural choices and scaling trends for DT on Atari and D4RL and make design recommendations. We find that scaling the amount of data for DT by 5x gives a 2.5x average score improvement on Atari.

arxiv情報

著者 Prajjwal Bhargava,Rohan Chitnis,Alborz Geramifard,Shagun Sodhani,Amy Zhang
発行日 2023-05-26 17:48:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク