Scalable and Efficient Continual Learning from Demonstration via Hypernetwork-generated Stable Dynamics Model

要約

デモンストレーションからの学習 (LfD) は、ロボットをトレーニングする効率的な方法を提供します。
学習された動作は収束し安定している必要がありますが、現実世界で真に効果を発揮するには、LfD 対応ロボットが複数の動作スキルを記憶できる必要もあります。
マルチスキルの保持は、既存の安定した LfD アプローチに欠けている機能です。
一方、継続的 LfD に関する最近の研究では、ハイパーネットワークで生成されたニューラル常微分方程式ソルバーが複数の LfD タスクを順番に学習できることが示されていますが、このアプローチには安定性の保証がありません。
我々は、ハイパーネットワークが 2 つのネットワーク (軌道学習ダイナミクス モデルと軌道安定化リアプノフ関数) を生成する、安定した連続 LfD のアプローチを提案します。
安定性の導入により、安定した軌道が生成されるだけでなく、特にサイズ効率の高いチャンク型ハイパーネットワークにおいて、継続的な学習パフォーマンスが大幅に向上します。
私たちのアプローチを使用すると、過去のデモンストレーションで再トレーニングすることなく、単一のモデルを継続的にトレーニングして、複数の実世界のタスクに対して同時にロボットのエンドエフェクターの位置と方向の軌道を予測できます。
また、ハイパーネットワークでランダムにサンプリングされた単一の正則化項を使用した確率的正則化も提案します。これにより、$N$ タスクの累積トレーニング時間コストが $\mathcal{O}(N^2)$ から $\mathcal{O}(N) に削減されます。
実際のタスクのパフォーマンスを損なうことなく、$ を実現します。
私たちは、人気のある LASA データセット、スケーラビリティを評価するための LASA の高次元拡張 (最大 32 次元を含む)、および現実世界のパフォーマンスを評価するための新しい拡張ロボット タスク データセット (RoboTasks9) に対するアプローチを経験的に評価します。
軌道誤差メトリクス、安定性メトリクス、継続的学習メトリクスにおいて、私たちのアプローチは他のベースラインと比較して良好に機能します。
コードとデータセットは送信後に共有されます。

要約(オリジナル)

Learning from demonstration (LfD) provides an efficient way to train robots. The learned motions should be convergent and stable, but to be truly effective in the real world, LfD-capable robots should also be able to remember multiple motion skills. Multi-skill retention is a capability missing from existing stable-LfD approaches. On the other hand, recent work on continual-LfD has shown that hypernetwork-generated neural ordinary differential equation solvers, can learn multiple LfD tasks sequentially, but this approach lacks stability guarantees. We propose an approach for stable continual-LfD in which a hypernetwork generates two networks: a trajectory learning dynamics model, and a trajectory stabilizing Lyapunov function. The introduction of stability not only generates stable trajectories but also greatly improves continual learning performance, especially in the size-efficient chunked hypernetworks. With our approach, we can continually train a single model to predict the position and orientation trajectories of the robot’s end-effector simultaneously for multiple real world tasks without retraining on past demonstrations. We also propose stochastic regularization with a single randomly sampled regularization term in hypernetworks, which reduces the cumulative training time cost for $N$ tasks from $\mathcal{O}(N^2)$ to $\mathcal{O}(N)$ without any loss in performance in real-world tasks. We empirically evaluate our approach on the popular LASA dataset, on high-dimensional extensions of LASA (including up to 32 dimensions) to assess scalability, and on a novel extended robotic task dataset (RoboTasks9) to assess real-world performance. In trajectory error metrics, stability metrics and continual learning metrics our approach performs favorably, compared to other baselines. Code and datasets will be shared after submission.

arxiv情報

著者 Sayantan Auddy,Jakob Hollenstein,Matteo Saveriano,Antonio Rodríguez-Sánchez,Justus Piater
発行日 2023-11-06 23:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク