要約
表現力豊かなシーケンス モデリング技術を使用してアクション生成を実行する Decision Transformer (DT) は、オフライン ポリシー最適化への有望なアプローチとして浮上しています。
ただし、DT は将来の望ましい収益を条件としたアクションを生成するため、環境確率論の影響を受けやすいなどのいくつかの弱点があることが知られています。
DT の弱点を克服するために、動的プログラミングで DT を強化することを提案します。
私たちの方法は 3 つのステップから構成されます。
まず、サンプル内値の反復を使用して近似値関数を取得します。これには、MDP 構造に対する動的プログラミングが含まれます。
次に、推定された利点を考慮してアクションの質を評価します。
さまざまなタスクに適した 2 種類の利点推定ツール (IAE と GAE) を紹介します。
3 番目に、推定された利点に基づいて条件付けされたアクションを生成するために、Advantage-Conditioned Transformer (ACT) をトレーニングします。
最後に、テスト中に、ACT は望ましい利点を条件としたアクションを生成します。
私たちの評価結果は、ACT が動的プログラミングの力を活用することで、環境の確率にもかかわらず、効果的な軌道ステッチングと堅牢なアクション生成を実証し、さまざまなベンチマークにわたってベースライン手法を上回るパフォーマンスを示していることを検証しています。
さらに、アブレーション研究を通じて、ACT のさまざまな設計選択の詳細な分析を実施します。
私たちのコードは https://github.com/LAMDA-RL/ACT で入手できます。
要約(オリジナル)
Decision Transformer (DT), which employs expressive sequence modeling techniques to perform action generation, has emerged as a promising approach to offline policy optimization. However, DT generates actions conditioned on a desired future return, which is known to bear some weaknesses such as the susceptibility to environmental stochasticity. To overcome DT’s weaknesses, we propose to empower DT with dynamic programming. Our method comprises three steps. First, we employ in-sample value iteration to obtain approximated value functions, which involves dynamic programming over the MDP structure. Second, we evaluate action quality in context with estimated advantages. We introduce two types of advantage estimators, IAE and GAE, which are suitable for different tasks. Third, we train an Advantage-Conditioned Transformer (ACT) to generate actions conditioned on the estimated advantages. Finally, during testing, ACT generates actions conditioned on a desired advantage. Our evaluation results validate that, by leveraging the power of dynamic programming, ACT demonstrates effective trajectory stitching and robust action generation in spite of the environmental stochasticity, outperforming baseline methods across various benchmarks. Additionally, we conduct an in-depth analysis of ACT’s various design choices through ablation studies. Our code is available at https://github.com/LAMDA-RL/ACT.
arxiv情報
| 著者 | Chen-Xiao Gao,Chenyang Wu,Mingjun Cao,Rui Kong,Zongzhang Zhang,Yang Yu |
| 発行日 | 2024-02-01 13:11:56+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google