要約
事前に訓練されたジェネラリストの政策は、斬新でドメイン内のタスクへの迅速な適応の約束のために、ロボット学習に急速に関連性を獲得しています。
この適応は、多くの場合、関心のある特定のタスクのために新しいデモンストレーションを収集し、行動のクローニングなどの模倣学習アルゴリズムを適用することに依存しています。
ただし、いくつかのタスクを学習する必要があるとすぐに、どのタスクを実証する必要があるか、どのくらいの頻度で決定する必要がありますか?
このマルチタスクの問題を調査し、エージェントが実証されるタスクを適応的に選択するインタラクティブなフレームワークを調査します。
AMF(Active Multi-Task微調整)を提案します。これは、エキスパートポリシーに関する最大の情報ゲインをもたらすデモンストレーションを収集することにより、限られたデモ予算の下でマルチタスクポリシーパフォーマンスを最大化するアルゴリズムです。
規則性の仮定の下でAMFのパフォーマンス保証を導き出し、複雑で高次元の環境での神経政策を効率的に微調整するための経験的有効性を実証します。
要約(オリジナル)
Pre-trained generalist policies are rapidly gaining relevance in robot learning due to their promise of fast adaptation to novel, in-domain tasks. This adaptation often relies on collecting new demonstrations for a specific task of interest and applying imitation learning algorithms, such as behavioral cloning. However, as soon as several tasks need to be learned, we must decide which tasks should be demonstrated and how often? We study this multi-task problem and explore an interactive framework in which the agent adaptively selects the tasks to be demonstrated. We propose AMF (Active Multi-task Fine-tuning), an algorithm to maximize multi-task policy performance under a limited demonstration budget by collecting demonstrations yielding the largest information gain on the expert policy. We derive performance guarantees for AMF under regularity assumptions and demonstrate its empirical effectiveness to efficiently fine-tune neural policies in complex and high-dimensional environments.
arxiv情報
著者 | Marco Bagatella,Jonas Hübotter,Georg Martius,Andreas Krause |
発行日 | 2025-05-31 10:53:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google