要約
近年、自然言語処理や画像認識などの分野では、大規模なデータセットを使用して、下流のタスクに効果的に転送できる表現を事前トレーニングするというパラダイムが普及しています。
この研究では、事前トレーニングと微調整データの両方が未知の環境と対話する専門家によって収集された軌跡である模倣学習において、そのようなパラダイムがどのように実行されるべきかを評価します。
つまり、事前トレーニング コーパスがマルチタスク デモンストレーションで構成され、各デモンストレーションのタスクが観測されていない潜在コンテキスト変数によって設定される設定を検討します。
目標は、事前トレーニング コーパスを使用して、限られたデモンストレーションのデータセットを微調整するために新しいコンテキストに転送できる高次元 (視覚など) 観察空間の低次元表現を学習することです。
さまざまな事前トレーニングの目的が考えられますが、その中で、逆ダイナミクス モデリング、つまりデモンストレーションで前後に現れる観察を考慮してアクションを予測することが、この設定に適していると主張します。
我々は、シミュレートされたさまざまな視覚運動操作問題の評価を通じて、この主張の経験的証拠を提供します。
これまでの研究では、逆ダイナミクス モデリングの利点に関するさまざまな理論的説明が試みられてきましたが、これらの議論は、私たちの設定でよく観察される経験的な利点を説明するには不十分であることが判明したため、単純だが一般的な環境モデルを使用して新しい分析を導き出しました。
要約(オリジナル)
In recent years, domains such as natural language processing and image recognition have popularized the paradigm of using large datasets to pretrain representations that can be effectively transferred to downstream tasks. In this work we evaluate how such a paradigm should be done in imitation learning, where both pretraining and finetuning data are trajectories collected by experts interacting with an unknown environment. Namely, we consider a setting where the pretraining corpus consists of multitask demonstrations and the task for each demonstration is set by an unobserved latent context variable. The goal is to use the pretraining corpus to learn a low dimensional representation of the high dimensional (e.g., visual) observation space which can be transferred to a novel context for finetuning on a limited dataset of demonstrations. Among a variety of possible pretraining objectives, we argue that inverse dynamics modeling — i.e., predicting an action given the observations appearing before and after it in the demonstration — is well-suited to this setting. We provide empirical evidence of this claim through evaluations on a variety of simulated visuomotor manipulation problems. While previous work has attempted various theoretical explanations regarding the benefit of inverse dynamics modeling, we find that these arguments are insufficient to explain the empirical advantages often observed in our settings, and so we derive a novel analysis using a simple but general environment model.
arxiv情報
著者 | David Brandfonbrener,Ofir Nachum,Joan Bruna |
発行日 | 2023-10-25 17:59:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google