要約
このペーパーでは、既存の Decision Transformer (DT) とそのバリアントを大幅に進歩させた Elastic Decision Transformer (EDT) について紹介します。
DT は最適な軌道を生成することを目的としていますが、経験的な証拠によると、軌道のつなぎ合わせ、つまり、一連の準最適な軌道の最良の部分から最適または最適に近い軌道を生成するプロセスに苦労していることが示唆されています。
提案された EDT は、DT で維持される履歴の長さを調整することで、テスト時のアクション推論中の軌道のつなぎ合わせを容易にすることで差別化されています。
さらに、EDT は、以前の軌道が最適な場合はより長い履歴を保持し、最適ではない場合はより短い履歴を保持することで軌道を最適化し、より最適な軌道で「つなぎ合わせる」ことができます。
広範な実験により、DT ベースのアプローチと Q Learning ベースのアプローチの間のパフォーマンスのギャップを埋める EDT の能力が実証されました。
特に、EDT は、D4RL 移動ベンチマークおよび Atari ゲームのマルチタスク領域で Q ラーニング ベースの手法よりも優れたパフォーマンスを発揮します。
ビデオはhttps://kristery.github.io/edt/でご覧いただけます。
要約(オリジナル)
This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to ‘stitch’ with a more optimal trajectory. Extensive experimentation demonstrates EDT’s ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/
arxiv情報
著者 | Yueh-Hua Wu,Xiaolong Wang,Masashi Hamaya |
発行日 | 2023-07-05 17:58:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google