Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL

要約

最近の研究では、条件付きポリシーを使用してオフライン強化学習 (RL) に取り組むと有望な結果が得られることが示されています。
Decision Transformer (DT) は、条件付きポリシー アプローチとトランスフォーマー アーキテクチャを組み合わせたもので、いくつかのベンチマークに対して競争力のあるパフォーマンスを示します。
ただし、DT には、オフライン RL が次善の軌道から最適なポリシーを学習するための重要な能力の 1 つであるステッチング能力がありません。
この問題は、オフライン データセットに最適ではない軌道しか含まれていない場合に特に重要になります。
一方、動的プログラミング (Q ラーニングなど) に基づく従来の RL アプローチには同じ制限がありません。
ただし、特にポリシー外の学習設定で関数近似に依存する場合、不安定な学習動作に悩まされます。
この論文では、動的計画法 (Q ラーニング) の利点を活用して DT の欠点に対処する Q ラーニング デシジョン トランスフォーマー (QDT) を提案します。
動的プログラミングの結果を利用して、トレーニング データ内の return-to-go のラベルを再設定し、再ラベルされたデータで DT をトレーニングします。
私たちのアプローチは、これら 2 つのアプローチの利点を効率的に活用し、互いの欠点を補ってより優れたパフォーマンスを実現します。
これらを単純な玩具環境とより複雑な D4RL ベンチマークの両方で実験的に示し、競争力のあるパフォーマンスの向上を示しています。

要約(オリジナル)

Recent works have shown that tackling offline reinforcement learning (RL) with a conditional policy produces promising results. The Decision Transformer (DT) combines the conditional policy approach and a transformer architecture, showing competitive performance against several benchmarks. However, DT lacks stitching ability — one of the critical abilities for offline RL to learn the optimal policy from sub-optimal trajectories. This issue becomes particularly significant when the offline dataset only contains sub-optimal trajectories. On the other hand, the conventional RL approaches based on Dynamic Programming (such as Q-learning) do not have the same limitation; however, they suffer from unstable learning behaviours, especially when they rely on function approximation in an off-policy learning setting. In this paper, we propose the Q-learning Decision Transformer (QDT) to address the shortcomings of DT by leveraging the benefits of Dynamic Programming (Q-learning). It utilises the Dynamic Programming results to relabel the return-to-go in the training data to then train the DT with the relabelled data. Our approach efficiently exploits the benefits of these two approaches and compensates for each other’s shortcomings to achieve better performance. We empirically show these in both simple toy environments and the more complex D4RL benchmark, showing competitive performance gains.

arxiv情報

著者 Taku Yamagata,Ahmed Khalil,Raul Santos-Rodriguez
発行日 2023-05-25 16:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク