要約
人間は以前の経験を活用し、少数のデモンストレーションから新しいタスクを学ぶことができます。
より良いアルゴリズム設計を通じて迅速な適応を達成することを目的とするオフラインメタ強化学習とは対照的に、我々は、数ショットの学習能力に対するアーキテクチャの誘導バイアスの影響を調査します。
プロンプトベースのDecisionTransformer(Prompt-DT)を提案します。これは、Transformerアーキテクチャのシーケンシャルモデリング機能とプロンプトフレームワークを活用して、オフラインRLで数ショットの適応を実現します。
数ショットのデモンストレーションのセグメントを含む軌道プロンプトを設計し、ポリシー生成をガイドするタスク固有の情報をエンコードします。
5つのMuJoCoコントロールベンチマークでの実験では、Prompt-DTは、目に見えないターゲットタスクを特別に微調整することなく、強力な数ショットの学習者であることが示されています。
Prompt-DTは、そのバリアントと強力なメタオフラインRLベースラインを大幅に上回り、わずかなタイムステップのみを含む軌道プロンプトを備えています。
Prompt-DTは、長さの変更を促すためにも堅牢であり、配布外(OOD)環境に一般化できます。
要約(オリジナル)
Humans can leverage prior experience and learn novel tasks from a handful of demonstrations. In contrast to offline meta-reinforcement learning, which aims to achieve quick adaptation through better algorithm design, we investigate the effect of architecture inductive bias on the few-shot learning capability. We propose a Prompt-based Decision Transformer (Prompt-DT), which leverages the sequential modeling ability of the Transformer architecture and the prompt framework to achieve few-shot adaptation in offline RL. We design the trajectory prompt, which contains segments of the few-shot demonstrations, and encodes task-specific information to guide policy generation. Our experiments in five MuJoCo control benchmarks show that Prompt-DT is a strong few-shot learner without any extra finetuning on unseen target tasks. Prompt-DT outperforms its variants and strong meta offline RL baselines by a large margin with a trajectory prompt containing only a few timesteps. Prompt-DT is also robust to prompt length changes and can generalize to out-of-distribution (OOD) environments.
arxiv情報
著者 | Mengdi Xu,Yikang Shen,Shun Zhang,Yuchen Lu,Ding Zhao,Joshua B. Tenenbaum,Chuang Gan |
発行日 | 2022-06-27 17:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google