Scalable and Efficient Continual Learning from Demonstration via a Hypernetwork-generated Stable Dynamics Model

要約

デモンストレーションからの学習 (LfD) は、ロボットをトレーニングする効率的な方法を提供します。
学習された動作は収束し安定している必要がありますが、現実世界で真に効果を発揮するには、LfD 対応ロボットが複数の動作スキルを記憶できる必要もあります。
既存の安定した LfD アプローチには、マルチスキルを保持する機能が欠けています。
継続的 LfD に関する最近の研究では、ハイパーネットワークで生成されたニューラル常微分方程式ソルバー (NODE) が複数の LfD タスクを順番に学習できることが示されていますが、このアプローチには安定性の保証がありません。
我々は、ハイパーネットワークが 2 つのネットワーク (軌道学習ダイナミクス モデルと軌道安定化リアプノフ関数) を生成する、安定した連続 LfD のアプローチを提案します。
安定性の導入により、収束軌道が生成されますが、さらに重要なことに、特にサイズ効率の高いチャンク化されたハイパーネットワークにおいて、継続的な学習パフォーマンスも大幅に向上します。
私たちのアプローチでは、単一のハイパーネットワークがロボットのエンドエフェクターの位置と方向の安定した軌道を同時に学習し、過去のデモンストレーションで再トレーニングすることなく、一連の実世界の LfD タスクに対して継続的に学習します。
また、ランダムにサンプリングされた単一の正則化項を使用した確率的ハイパーネットワーク正則化も提案します。これにより、現実世界のタスクのパフォーマンスを損なうことなく、N タスクの累積トレーニング時間コストが O$(N^2)$ から O$(N)$ に削減されます。

私たちは、人気のある LASA データセット、スケーラビリティを評価するための LASA の高次元拡張 (最大 32 次元を含む)、および現実世界のパフォーマンスを評価するための新しい拡張ロボット タスク データセット (RoboTasks9) に対するアプローチを経験的に評価します。
軌道誤差メトリクス、安定性メトリクス、継続的学習メトリクスにおいて、私たちのアプローチは他のベースラインと比較して良好に機能します。
私たちのオープンソース コードとデータセットは https://github.com/sayantanauddy/clfd-snode で入手できます。

要約(オリジナル)

Learning from demonstration (LfD) provides an efficient way to train robots. The learned motions should be convergent and stable, but to be truly effective in the real world, LfD-capable robots should also be able to remember multiple motion skills. Existing stable-LfD approaches lack the capability of multi-skill retention. Although recent work on continual-LfD has shown that hypernetwork-generated neural ordinary differential equation solvers (NODE) can learn multiple LfD tasks sequentially, this approach lacks stability guarantees. We propose an approach for stable continual-LfD in which a hypernetwork generates two networks: a trajectory learning dynamics model, and a trajectory stabilizing Lyapunov function. The introduction of stability generates convergent trajectories, but more importantly it also greatly improves continual learning performance, especially in the size-efficient chunked hypernetworks. With our approach, a single hypernetwork learns stable trajectories of the robot’s end-effector position and orientation simultaneously, and does so continually for a sequence of real-world LfD tasks without retraining on past demonstrations. We also propose stochastic hypernetwork regularization with a single randomly sampled regularization term, which reduces the cumulative training time cost for N tasks from O$(N^2)$ to O$(N)$ without any loss in performance on real-world tasks. We empirically evaluate our approach on the popular LASA dataset, on high-dimensional extensions of LASA (including up to 32 dimensions) to assess scalability, and on a novel extended robotic task dataset (RoboTasks9) to assess real-world performance. In trajectory error metrics, stability metrics and continual learning metrics our approach performs favorably, compared to other baselines. Our open-source code and datasets are available at https://github.com/sayantanauddy/clfd-snode.

arxiv情報

著者 Sayantan Auddy,Jakob Hollenstein,Matteo Saveriano,Antonio Rodríguez-Sánchez,Justus Piater
発行日 2024-01-09 14:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク