要約
オフライン強化学習 (RL) は、事前に収集されたデータセットを使用して最適に近いポリシーを見つけることを目的としています。
現実のシナリオでは、データ収集にはコストがかかり、リスクが伴う可能性があります。
したがって、ドメイン内のデータが制限されている場合、オフライン RL は特に困難になります。
大規模言語モデル (LLM) とその数ショット学習能力の最近の進歩を考慮して、この論文では $\textbf{Mo}$tion 制御 ($\textbf{LaMo}$) 用の $\textbf{La}$nguage モデルを紹介します。
オフライン RL に事前トレーニングされた言語モデル (LM) を効果的に使用するための、Decision Transformers に基づく一般的なフレームワーク。
私たちのフレームワークは 4 つの重要なコンポーネントに焦点を当てています: (1) 順次事前トレーニングされた LM による意思決定トランスフォーマーの初期化、(2) フルウェイト微調整とは対照的に LoRA 微調整手法を採用し、LM からの事前トレーニングされた知識を組み合わせる
(3) 線形射影の代わりに非線形 MLP 変換を使用して埋め込みを生成し、(4) 補助言語の予測損失を統合します。
LM を安定させ、言語に関する本来の能力を維持するための微調整。
経験的結果は、$\textbf{LaMo}$ が報酬が少ないタスクで優れたパフォーマンスを達成し、報酬が密なタスクで値ベースのオフライン RL 手法と意思決定変換器の間のギャップを埋めることを示しています。
特に、私たちの方法は、データサンプルが限られているシナリオで優れたパフォーマンスを示します。
要約(オリジナル)
Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces $\textbf{La}$nguage Models for $\textbf{Mo}$tion Control ($\textbf{LaMo}$), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate $\textbf{LaMo}$ achieves excellent performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples.
arxiv情報
著者 | Ruizhe Shi,Yuyao Liu,Yanjie Ze,Simon S. Du,Huazhe Xu |
発行日 | 2024-12-17 15:59:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google