要約
Decision Transformers は、自己回帰的な方法で軌道を完成させる、オフライン強化学習 (RL) の新しく魅力的なパラダイムとして最近登場しました。
初期の欠点を克服するために改良が加えられてきましたが、意思決定変換器のオンライン微調整は驚くほど研究されていません。
広く採用されている最先端の Online Decision Transformer (ODT) は、報酬の低いオフライン データで事前トレーニングすると依然として問題が発生します。
この論文では、意思決定変換器のオンライン微調整を理論的に分析し、期待されるリターンからかけ離れた一般的に使用される Return-To-Go (RTG) がオンライン微調整プロセスを妨げることを示します。
ただし、この問題は、値関数と標準 RL アルゴリズムの利点によってうまく対処できます。
私たちの分析で示唆されているように、私たちの実験では、特に ODT が低報酬のオフライン データで事前トレーニングされている場合、ODT の微調整プロセスに TD3 勾配を追加するだけで、ODT のオンライン微調整パフォーマンスが効果的に向上することがわかりました。
これらの発見は、意思決定変換器をさらに改善するための新しい方向性を提供します。
要約(オリジナル)
Decision Transformers have recently emerged as a new and compelling paradigm for offline Reinforcement Learning (RL), completing a trajectory in an autoregressive way. While improvements have been made to overcome initial shortcomings, online finetuning of decision transformers has been surprisingly under-explored. The widely adopted state-of-the-art Online Decision Transformer (ODT) still struggles when pretrained with low-reward offline data. In this paper, we theoretically analyze the online-finetuning of the decision transformer, showing that the commonly used Return-To-Go (RTG) that’s far from the expected return hampers the online fine-tuning process. This problem, however, is well-addressed by the value function and advantage of standard RL algorithms. As suggested by our analysis, in our experiments, we hence find that simply adding TD3 gradients to the finetuning process of ODT effectively improves the online finetuning performance of ODT, especially if ODT is pretrained with low-reward offline data. These findings provide new directions to further improve decision transformers.
arxiv情報
著者 | Kai Yan,Alexander G. Schwing,Yu-Xiong Wang |
発行日 | 2024-10-31 16:38:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google