Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning

要約

ジェネラリストのエージェントは、生涯を通じて継続的に学習し、適応し、壊滅的な忘却を最小限に抑えながら、効率的な前進移転を達成しなければなりません。
支配的な前の前の前から財政パラダイム内での以前の研究では、シングルタスク適応のためのパラメーター効率の高い微調整を調査し、少数のパラメーターを使用して凍結した前提型モデルを効果的に操縦しました。
ただし、生涯学習のコンテキストでは、これらの方法は、テスト時間タスク識別子の非現実的な仮定に依存し、孤立したアダプター間の知識共有を制限します。
これらの制限に対処するために、生涯ロボット学習のためのプログレッシブパラメーター効率の高いエキスパートライブラリ(DMPEL)の動的な混合を提案します。
DMPELは、低ランクの専門家ライブラリを徐々に学習し、軽量のルーターを採用して専門家をエンドツーエンドのポリシーに動的に結合し、生涯にわたる適応中の柔軟な行動を促進します。
さらに、微調整されたパラメーターのモジュラー構造を活用することにより、係数リプレイを導入して、以前に遭遇したタスクのために凍結した専門家を正確に取得し、それにより壊滅的な忘却を軽減するためにルーターを導きます。
この方法は、ポリシー全体にデモリプレイを適用するよりも、ストレージが大幅にストレージであり、計算効率が良くなります。
生涯にわたる操作ベンチマークリベロに関する広範な実験は、私たちのフレームワークが、最小限のトレーニング可能なパラメーターとストレージを利用しながら、継続的な適応全体で成功率の最先端の生涯学習方法よりも優れていることを示しています。

要約(オリジナル)

A generalist agent must continuously learn and adapt throughout its lifetime, achieving efficient forward transfer while minimizing catastrophic forgetting. Previous work within the dominant pretrain-then-finetune paradigm has explored parameter-efficient fine-tuning for single-task adaptation, effectively steering a frozen pretrained model with a small number of parameters. However, in the context of lifelong learning, these methods rely on the impractical assumption of a test-time task identifier and restrict knowledge sharing among isolated adapters. To address these limitations, we propose Dynamic Mixture of Progressive Parameter-Efficient Expert Library (DMPEL) for lifelong robot learning. DMPEL progressively learn a low-rank expert library and employs a lightweight router to dynamically combine experts into an end-to-end policy, facilitating flexible behavior during lifelong adaptation. Moreover, by leveraging the modular structure of the fine-tuned parameters, we introduce coefficient replay to guide the router in accurately retrieving frozen experts for previously encountered tasks, thereby mitigating catastrophic forgetting. This method is significantly more storage- and computationally-efficient than applying demonstration replay to the entire policy. Extensive experiments on the lifelong manipulation benchmark LIBERO demonstrate that our framework outperforms state-of-the-art lifelong learning methods in success rates across continual adaptation, while utilizing minimal trainable parameters and storage.

arxiv情報

著者 Yuheng Lei,Sitong Mao,Shunbo Zhou,Hongyuan Zhang,Xuelong Li,Ping Luo
発行日 2025-06-06 11:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク