TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models

要約

大規模な事前トレーニング済みモデルの可能性は、ロボット工学などの制御ドメインではほとんど活用されていません。
これは主に、データの不足と、このようなアプリケーション向けに大規模なモデルをトレーニングまたは微調整することに関連する計算上の課題が原因です。
これまでの研究では、主に、意思決定のための大規模モデルの効果的な事前トレーニングまたは単一タスクの適応のいずれかに重点が置かれていました。
しかし、現実世界の問題では、データ効率が高く、新しい制御タスクに継続的に適応する必要があります。
これらの制約を認識して、新しい制御タスクに効率的に適応するためのフレームワークである TAIL (Task-Specific Adaptors for Imitation Learning) を導入します。
言語ドメインにおけるパラメータ効率の高い微調整の最近の進歩に触発され、大規模な事前トレーニング済みモデルを適応させるための TAIL での効率的な微調整手法 (ボトルネック アダプター、P チューニング、低ランク適応 (LoRA) など) を探索します。
デモ データが限られている新しいタスクに最適です。
一般的なパラメータ効率の高い微調整手法と適応ベースラインを比較した、大規模な言語条件付き操作タスクにおける広範な実験では、LoRA を使用した TAIL が完全な微調整のトレーニング可能なパラメータのわずか 1% で最高の適応後のパフォーマンスを達成できることが示唆されています。
致命的な忘却を回避し、継続的な学習環境における適応の可塑性を維持しながら、調整を行います。

要約(オリジナル)

The full potential of large pretrained models remains largely untapped in control domains like robotics. This is mainly because of the scarcity of data and the computational challenges associated with training or fine-tuning these large models for such applications. Prior work mainly emphasizes either effective pretraining of large models for decision-making or single-task adaptation. But real-world problems will require data-efficient, continual adaptation for new control tasks. Recognizing these constraints, we introduce TAIL (Task-specific Adapters for Imitation Learning), a framework for efficient adaptation to new control tasks. Inspired by recent advancements in parameter-efficient fine-tuning in language domains, we explore efficient fine-tuning techniques — e.g., Bottleneck Adapters, P-Tuning, and Low-Rank Adaptation (LoRA) — in TAIL to adapt large pretrained models for new tasks with limited demonstration data. Our extensive experiments in large-scale language-conditioned manipulation tasks comparing prevalent parameter-efficient fine-tuning techniques and adaptation baselines suggest that TAIL with LoRA can achieve the best post-adaptation performance with only 1\% of the trainable parameters of full fine-tuning, while avoiding catastrophic forgetting and preserving adaptation plasticity in continual learning settings.

arxiv情報

著者 Zuxin Liu,Jesse Zhang,Kavosh Asadi,Yao Liu,Ding Zhao,Shoham Sabach,Rasool Fakoor
発行日 2024-03-08 06:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク