要約
タイトル: 効率的なオンライン方針適応のためのハイパーデシジョントランスフォーマー
要約:
– デシジョントランスフォーマー(DT)は、オフライン強化学習の設定で優れた性能を示しているが、未知の新しいタスクに素早く適応することは依然として課題である。
– この課題に対処するために、新しいフレームワークであるハイパーデシジョントランスフォーマー(HDT)を提案する。HDTは、データとパラメータの両方の効率的な方法で、一握りのデモンストレーションから新しいタスクに一般化できる。
– この目標を達成するために、ベースのDTに適応モジュールを追加し、そのパラメータをハイパーネットワークで初期化することを提案する。未知のタスクに遭遇した場合、ハイパーネットワークは一握りのデモンストレーションを入力として受け取り、適応モジュールを初期化する。この初期化により、HDTは適応モジュールだけを微調整することで効率的に新しいタスクに適応することができる。
– HDTの汎化能力を物体操作タスクで検証した。単一のエキスパートのデモンストレーションとDTパラメータの0.5%の微調整のみで、HDTは、全体のDTモデルを微調整するよりも、未知のタスクに迅速に適応する。
– 最後に、エキスパートの行動が利用できないより難しい環境で、HDTは、タスク成功率の点で最先端のベースラインを大きく上回ることを示した。
要約(オリジナル)
Decision Transformers (DT) have demonstrated strong performances in offline reinforcement learning settings, but quickly adapting to unseen novel tasks remains challenging. To address this challenge, we propose a new framework, called Hyper-Decision Transformer (HDT), that can generalize to novel tasks from a handful of demonstrations in a data- and parameter-efficient manner. To achieve such a goal, we propose to augment the base DT with an adaptation module, whose parameters are initialized by a hyper-network. When encountering unseen tasks, the hyper-network takes a handful of demonstrations as inputs and initializes the adaptation module accordingly. This initialization enables HDT to efficiently adapt to novel tasks by only fine-tuning the adaptation module. We validate HDT’s generalization capability on object manipulation tasks. We find that with a single expert demonstration and fine-tuning only 0.5% of DT parameters, HDT adapts faster to unseen tasks than fine-tuning the whole DT model. Finally, we explore a more challenging setting where expert actions are not available, and we show that HDT outperforms state-of-the-art baselines in terms of task success rates by a large margin.
arxiv情報
著者 | Mengdi Xu,Yuchen Lu,Yikang Shen,Shun Zhang,Ding Zhao,Chuang Gan |
発行日 | 2023-04-17 17:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI