Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

要約

我々は、連続的な意思決定タスクにおける少数ショットのポリシー学習効率を向上させるように設計されたマルチタスク特徴表現学習アプローチである Premier-TACO を紹介します。
Premier-TACO は、マルチタスク オフライン データセットのサブセットを利用して、一般的な特徴表現を事前トレーニングします。この表現は、重要な環境ダイナミクスをキャプチャし、最小限の専門家によるデモンストレーションを使用して微調整されます。
これは、新しい負の例サンプリング戦略を組み込むことにより、視覚制御タスクにおける最先端の結果で知られる時間的アクション対比学習 (TACO) 目標を前進させます。
この戦略は、TACO の計算効率を大幅に向上させ、大規模なマルチタスクのオフライン事前トレーニングを実現するために重要です。
Deepmind Control Suite、MetaWorld、LIBERO を含むさまざまな一連の連続制御ベンチマークにおける広範な実証評価により、視覚表現の事前トレーニングにおける Premier-TACO の有効性が実証され、新規タスクの数ショット模倣学習が大幅に強化されます。
私たちのコード、事前トレーニング データ、および事前トレーニングされたモデルのチェックポイントは、https://github.com/PremierTACO/premier-taco でリリースされます。
私たちのプロジェクトの Web ページは https://premiertaco.github.io にあります。

要約(オリジナル)

We present Premier-TACO, a multitask feature representation learning approach designed to improve few-shot policy learning efficiency in sequential decision-making tasks. Premier-TACO leverages a subset of multitask offline datasets for pretraining a general feature representation, which captures critical environmental dynamics and is fine-tuned using minimal expert demonstrations. It advances the temporal action contrastive learning (TACO) objective, known for state-of-the-art results in visual control tasks, by incorporating a novel negative example sampling strategy. This strategy is crucial in significantly boosting TACO’s computational efficiency, making large-scale multitask offline pretraining feasible. Our extensive empirical evaluation in a diverse set of continuous control benchmarks including Deepmind Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO’s effectiveness in pretraining visual representations, significantly enhancing few-shot imitation learning of novel tasks. Our code, pretraining data, as well as pretrained model checkpoints will be released at https://github.com/PremierTACO/premier-taco. Our project webpage is at https://premiertaco.github.io.

arxiv情報

著者 Ruijie Zheng,Yongyuan Liang,Xiyao Wang,Shuang Ma,Hal Daumé III,Huazhe Xu,John Langford,Praveen Palanisamy,Kalyan Shankar Basu,Furong Huang
発行日 2024-02-13 21:19:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク