要約
タイトル:Masked Trajectory Models for Prediction, Representation, and Control
要約:
-シーケンシャルな意思決定のための汎用的な抽象化であるMasked Trajectory Models(MTM)を紹介します。
-MTMは、状態アクションシーケンスなどの軌跡を取り、同じ軌跡のランダムなサブセットに依存する軌跡を再構築することを目的としています。
-高度にランダム化されたマスキングパターンでトレーニングすることにより、MTMは、推論時に適切なマスクを選択することで、異なる役割や能力を持つ汎用的なネットワークを学習します。
-例えば、同じMTMネットワークは、前方動力学モデル、逆動力学モデル、あるいはオフラインRLエージェントとして使用できます。
-複数のコントロールタスクでの詳細な実験により、同じMTMネットワーク-つまり、同じ重み-が前述の能力に特化したネットワークに対して匹敵するか、それ以上に優れたパフォーマンスを発揮することがわかりました。
-MTMによって学習した状態表現は、従来のRLアルゴリズムの学習速度を大幅に加速させることができることがわかりました。
-最後に、オフラインRLベンチマークでは、明示的なRLコンポーネントを持たない汎用の自己教示学習手法であるMTMが、専門化されたオフラインRLアルゴリズムと競合できることがわかりました。 Codeはhttps://github.com/facebookresearch/mtmで入手可能です。
要約(オリジナル)
We introduce Masked Trajectory Models (MTM) as a generic abstraction for sequential decision making. MTM takes a trajectory, such as a state-action sequence, and aims to reconstruct the trajectory conditioned on random subsets of the same trajectory. By training with a highly randomized masking pattern, MTM learns versatile networks that can take on different roles or capabilities, by simply choosing appropriate masks at inference time. For example, the same MTM network can be used as a forward dynamics model, inverse dynamics model, or even an offline RL agent. Through extensive experiments in several continuous control tasks, we show that the same MTM network — i.e. same weights — can match or outperform specialized networks trained for the aforementioned capabilities. Additionally, we find that state representations learned by MTM can significantly accelerate the learning speed of traditional RL algorithms. Finally, in offline RL benchmarks, we find that MTM is competitive with specialized offline RL algorithms, despite MTM being a generic self-supervised learning method without any explicit RL components. Code is available at https://github.com/facebookresearch/mtm
arxiv情報
| 著者 | Philipp Wu,Arjun Majumdar,Kevin Stone,Yixin Lin,Igor Mordatch,Pieter Abbeel,Aravind Rajeswaran |
| 発行日 | 2023-05-04 16:12:19+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI