要約
オフラインの行動クローニングを介して訓練された拡散ポリシーは、最近ロボットモーション生成で牽引力を獲得しました。
効果的ですが、これらのポリシーは通常、多数のトレーニング可能なパラメーターを必要とします。
このモデルサイズは強力な表現を提供しますが、トレーニング中に高い計算コストも発生します。
理想的には、必要に応じてトレーニング可能な部分を動的に調整し、表現力と計算効率のバランスをとることが有益です。
たとえば、オーバーパラメーター化により、拡散ポリシーはオフラインの行動クローンを介して複雑なロボット行動をキャプチャすることができますが、計算需要の増加により、オンラインインタラクティブな模倣学習は、トレーニング時間が長いため非現実的になります。
この課題に対処するために、Driftと呼ばれるフレームワークを提示します。これは、拡散ポリシートレーニング中に動的なランク調整を可能にするために特異値分解を使用します。
このフレームワークの利点は、オフラインブートストラップフェーズとオンラインインタラクティブフェーズの間でシームレスにスライドできる模倣学習アルゴリズムであるDrift-Daggerで実装および実証します。
提案されたフレームワークをよりよく理解するために広範な実験を実行し、ドリフトダガーがサンプルの効率を改善し、モデルのパフォーマンスに最小限の影響を与えるより速いトレーニングを達成することを実証します。
要約(オリジナル)
Diffusion policies trained via offline behavioral cloning have recently gained traction in robotic motion generation. While effective, these policies typically require a large number of trainable parameters. This model size affords powerful representations but also incurs high computational cost during training. Ideally, it would be beneficial to dynamically adjust the trainable portion as needed, balancing representational power with computational efficiency. For example, while overparameterization enables diffusion policies to capture complex robotic behaviors via offline behavioral cloning, the increased computational demand makes online interactive imitation learning impractical due to longer training time. To address this challenge, we present a framework, called DRIFT, that uses the Singular Value Decomposition to enable dynamic rank adjustment during diffusion policy training. We implement and demonstrate the benefits of this framework in DRIFT-DAgger, an imitation learning algorithm that can seamlessly slide between an offline bootstrapping phase and an online interactive phase. We perform extensive experiments to better understand the proposed framework, and demonstrate that DRIFT-DAgger achieves improved sample efficiency and faster training with minimal impact on model performance.
arxiv情報
著者 | Xiatao Sun,Shuo Yang,Yinxing Chen,Francis Fan,Yiyan Liang,Daniel Rakita |
発行日 | 2025-02-07 03:02:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google