要約
Transformerは、さまざまなダウンストリームタスクで一般的なビジョンと言語表現の学習で大きな成功を収めています。
視覚的制御では、トレーニングサンプルサイズを減らすために、異なる制御タスク間で転送できる転送可能な状態表現を学習することが重要です。
ただし、Transformerをサンプル効率の高いビジュアル制御に移植することは、依然として困難で未解決の問題です。
この目的のために、従来技術にはない多くの魅力的な利点を備えた、新しいコントロールトランスフォーマー(CtrlFormer)を提案します。
まず、CtrlFormerは、さまざまな制御タスク間でビジュアルトークンとポリシートークン間の自己注意メカニズムを共同で学習します。このメカニズムでは、壊滅的な忘却なしにマルチタスク表現を学習および転送できます。
次に、CtrlFormerをトレーニングするための対照的な強化学習パラダイムを慎重に設計し、制御の問題で重要な高いサンプル効率を実現できるようにします。
たとえば、DMControlベンチマークでは、100kサンプルを使用した転送学習後に「Cartpole」タスクでゼロスコアを生成することで失敗した最近の高度な方法とは異なり、CtrlFormerは、維持しながらわずか100kサンプルで最先端のスコアを達成できます。
以前のタスクのパフォーマンス。
コードとモデルは、プロジェクトのホームページで公開されています。
要約(オリジナル)
Transformer has achieved great successes in learning vision and language representation, which is general across various downstream tasks. In visual control, learning transferable state representation that can transfer between different control tasks is important to reduce the training sample size. However, porting Transformer to sample-efficient visual control remains a challenging and unsolved problem. To this end, we propose a novel Control Transformer (CtrlFormer), possessing many appealing benefits that prior arts do not have. Firstly, CtrlFormer jointly learns self-attention mechanisms between visual tokens and policy tokens among different control tasks, where multitask representation can be learned and transferred without catastrophic forgetting. Secondly, we carefully design a contrastive reinforcement learning paradigm to train CtrlFormer, enabling it to achieve high sample efficiency, which is important in control problems. For example, in the DMControl benchmark, unlike recent advanced methods that failed by producing a zero score in the ‘Cartpole’ task after transfer learning with 100k samples, CtrlFormer can achieve a state-of-the-art score with only 100k samples while maintaining the performance of previous tasks. The code and models are released in our project homepage.
arxiv情報
著者 | Yao Mu,Shoufa Chen,Mingyu Ding,Jianyu Chen,Runjian Chen,Ping Luo |
発行日 | 2022-06-17 16:32:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google