要約
デシジョン・トランスフォーマー(DT)は、オフライン強化学習(RL)タスクにおいて、事前に収集されたデータセットと、長いシーケンスをモデル化するトランスフォーマーの能力を活用した、有望なアルゴリズムクラスとして浮上してきた。最近の研究では、訓練タスクの軌跡の一部をDTのプロンプトとして使用することで、未見のタスクに対する性能が向上することが実証されており、プロンプトDT法が生まれている。しかし、特定の環境からデータを収集することは、多くのシナリオにおいてコストがかかり、かつ安全でない可能性があり、Transformerベースのモデルがデータを大量に消費する性質により、最適な性能が得られず、数ショットのプロンプト能力に限界がある。さらに、事前学習で使用されるデータセットが限られているため、プロンプトDTタイプの手法では、プロンプトだけで様々なRLタスクを区別することは困難である。これらの課題を解決するために、我々は言語モデル初期化プロンプト決定トランスフォーマー(LPDT)を導入する。これは、メタRLタスクのために事前に訓練された言語モデルを活用し、低ランク適応(LoRA)を用いてモデルを微調整する。さらに、プロンプトの特徴表現に基づいてタスクを効果的に区別するために、プロンプトの正則化を組み込んでいます。我々のアプローチは、事前に訓練された言語モデルとRLタスクをシームレスに統合する。広範な経験的研究により、事前に訓練された言語モデルで初期化することで、ベースライン手法と比較して、未経験タスクにおけるPrompt-DTの性能が大幅に向上することが実証されている。
要約(オリジナル)
Decision Transformer (DT) has emerged as a promising class of algorithms in offline reinforcement learning (RL) tasks, leveraging pre-collected datasets and Transformer’s capability to model long sequences. Recent works have demonstrated that using parts of trajectories from training tasks as prompts in DT enhances its performance on unseen tasks, giving rise to Prompt-DT methods. However, collecting data from specific environments can be both costly and unsafe in many scenarios, leading to suboptimal performance and limited few-shot prompt abilities due to the data-hungry nature of Transformer-based models. Additionally, the limited datasets used in pre-training make it challenging for Prompt-DT type of methods to distinguish between various RL tasks through prompts alone. To address these challenges, we introduce the Language model-initialized Prompt Decision Transformer (LPDT), which leverages pre-trained language models for meta-RL tasks and fine-tunes the model using Low-rank Adaptation (LoRA). We further incorporate prompt regularization to effectively differentiate between tasks based on prompt feature representations. Our approach integrates pre-trained language model and RL tasks seamlessly. Extensive empirical studies demonstrate that initializing with a pre-trained language model significantly enhances the performance of Prompt-DT on unseen tasks compared to baseline methods.
arxiv情報
著者 | Yu Yang,Pan Xu |
発行日 | 2024-08-02 17:25:34+00:00 |
arxivサイト | arxiv_id(pdf) |