要約
事前トレーニングされたジェネラリスト ポリシーは、新しいドメイン内タスクへの迅速な適応が期待できるため、ロボット学習における関連性が急速に高まっています。
この適応は、多くの場合、関心のある特定のタスクに対する新しいデモンストレーションを収集し、行動のクローニングなどの模倣学習アルゴリズムを適用することに依存します。
ただし、いくつかのタスクを学習する必要がある場合は、どのタスクをどのくらいの頻度でデモンストレーションするかを決定する必要があります。
私たちはこのマルチタスクの問題を研究し、エージェントがデモンストレーションするタスクを適応的に選択する対話型フレームワークを探索します。
我々は、専門家政策に関する最大の情報利得をもたらすデモンストレーションを収集することによって、限られたデモンストレーション予算の下でマルチタスク政策のパフォーマンスを最大化するアルゴリズムであるAMF(Active Multi-task Fine-tuning)を提案します。
私たちは、規則性の仮定の下で AMF のパフォーマンス保証を導き出し、複雑で高次元の環境でニューラル ポリシーを効率的に微調整するための AMF の経験的有効性を実証します。
要約(オリジナル)
Pre-trained generalist policies are rapidly gaining relevance in robot learning due to their promise of fast adaptation to novel, in-domain tasks. This adaptation often relies on collecting new demonstrations for a specific task of interest and applying imitation learning algorithms, such as behavioral cloning. However, as soon as several tasks need to be learned, we must decide which tasks should be demonstrated and how often? We study this multi-task problem and explore an interactive framework in which the agent adaptively selects the tasks to be demonstrated. We propose AMF (Active Multi-task Fine-tuning), an algorithm to maximize multi-task policy performance under a limited demonstration budget by collecting demonstrations yielding the largest information gain on the expert policy. We derive performance guarantees for AMF under regularity assumptions and demonstrate its empirical effectiveness to efficiently fine-tune neural policies in complex and high-dimensional environments.
arxiv情報
著者 | Marco Bagatella,Jonas Hübotter,Georg Martius,Andreas Krause |
発行日 | 2024-10-07 13:26:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google