QT-TDM: Planning with Transformer Dynamics Model and Autoregressive Q-Learning

要約

自然言語処理とコンピューター ビジョンにおける Transformer アーキテクチャの成功に触発されて、私たちは強化学習 (RL)、特に Transformer Dynamics Model (TDM) を使用した環境ダイナミクスのモデリングにおける Transformer の使用を調査します。
モデル予測制御 (MPC) を使用して、リアルタイム計画シナリオにおける継続制御のための TDM の機能を評価します。
トランスフォーマーは長期予測に優れていますが、そのトークン化メカニズムと自己回帰の性質により、特に環境の次元が増加するにつれて、長期にわたる計画のコストが高くなります。
この問題を軽減するために、短期計画には TDM を使用し、別の Q トランス (QT) モデルを使用して自己回帰離散 Q 関数を学習して、短期計画を超えた長期収益を推定します。
私たちが提案する手法である QT-TDM は、ダイナミクス モデルとしての Transformer の堅牢な予測機能とモデルフリーの Q-Transformer の有効性を統合し、リアルタイム プランニングに伴う計算負荷を軽減します。
さまざまな状態ベースの連続制御タスクの実験では、QT-TDM が既存の Transformer ベースの RL モデルと比較してパフォーマンスとサンプル効率の点で優れており、高速で計算効率の高い推論を実現していることが示されています。

要約(オリジナル)

Inspired by the success of the Transformer architecture in natural language processing and computer vision, we investigate the use of Transformers in Reinforcement Learning (RL), specifically in modeling the environment’s dynamics using Transformer Dynamics Models (TDMs). We evaluate the capabilities of TDMs for continuous control in real-time planning scenarios with Model Predictive Control (MPC). While Transformers excel in long-horizon prediction, their tokenization mechanism and autoregressive nature lead to costly planning over long horizons, especially as the environment’s dimensionality increases. To alleviate this issue, we use a TDM for short-term planning, and learn an autoregressive discrete Q-function using a separate Q-Transformer (QT) model to estimate a long-term return beyond the short-horizon planning. Our proposed method, QT-TDM, integrates the robust predictive capabilities of Transformers as dynamics models with the efficacy of a model-free Q-Transformer to mitigate the computational burden associated with real-time planning. Experiments in diverse state-based continuous control tasks show that QT-TDM is superior in performance and sample efficiency compared to existing Transformer-based RL models while achieving fast and computationally efficient inference.

arxiv情報

著者 Mostafa Kotb,Cornelius Weber,Muhammad Burhan Hafez,Stefan Wermter
発行日 2024-07-26 16:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク