Task-conditioned adaptation of visual features in multi-task policy learning

要約

多種多様なタスクにうまく対処することは、自律型エージェントの核となる能力であり、基本的な意思決定戦略を柔軟に適応させる必要がある。人間の視覚システムは、トップダウン信号を使って、現在のタスクによって決定される注意を集中させる。同様に、我々は、マルチタスク政策学習の文脈で、特定の下流タスクに条件付けられた事前訓練された大規模視覚モデルを適応させる。我々は、あらかじめ訓練された重みを微調整する必要がなく、行動クローニングを用いて訓練された単一の方針と組み合わされ、複数のタスクに対応可能なタスク条件付きアダプタを導入する。タスクが既知であれば、推論時に選択することができ、また、代わりに、実演例の集合から推論することもできる。この目的のために、我々は新しい最適化ベースの推定器を提案する。CortexBenchベンチマークの様々なタスクでこの手法を評価し、既存の研究と比較して、単一のポリシーで対処できることを示す。特に、視覚的特徴を適応させることが重要な設計上の選択であること、また、本方法が、数回のデモがあれば、未見のタスクにも一般化することを示す。

要約(オリジナル)

Successfully addressing a wide variety of tasks is a core ability of autonomous agents, requiring flexibly adapting the underlying decision-making strategies and, as we argue in this work, also adapting the perception modules. An analogical argument would be the human visual system, which uses top-down signals to focus attention determined by the current task. Similarly, we adapt pre-trained large vision models conditioned on specific downstream tasks in the context of multi-task policy learning. We introduce task-conditioned adapters that do not require finetuning any pre-trained weights, combined with a single policy trained with behavior cloning and capable of addressing multiple tasks. We condition the visual adapters on task embeddings, which can be selected at inference if the task is known, or alternatively inferred from a set of example demonstrations. To this end, we propose a new optimization-based estimator. We evaluate the method on a wide variety of tasks from the CortexBench benchmark and show that, compared to existing work, it can be addressed with a single policy. In particular, we demonstrate that adapting visual features is a key design choice and that the method generalizes to unseen tasks given a few demonstrations.

arxiv情報

著者 Pierre Marza,Laetitia Matignon,Olivier Simonin,Christian Wolf
発行日 2024-05-06 09:50:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク