Interactive incremental learning of generalizable skills with local trajectory modulation

要約

デモンストレーションからの学習(LfD)における一般化の問題は、特に動作プリミティブの文脈において、長年にわたりかなりの注目を集めており、多くのアプローチが登場しています。
最近、2 つの重要なアプローチが認識されるようになりました。
1 つは、実証された軌道を調整することでスキルを局所的に適応させるために経由点を活用する一方で、もう 1 つは、一般化のための確率の積を使用して、さまざまな座標系に対する動きをエンコードする、いわゆるタスクパラメータ化モデルに依存します。
前者は正確なローカルモジュレーションに適していますが、後者はワークスペースの広い領域を一般化することを目的としており、多くの場合複数のオブジェクトが関係します。
両方のアプローチを同時に活用して一般化の質に取り組むことは、ほとんど注目されていません。
この研究では、軌道分布のローカルおよびグローバルな変調を同時に活用する、対話型の模倣学習フレームワークを提案します。
カーネル化された動作プリミティブ (KMP) フレームワークに基づいて、人間による直接の修正フィードバックからスキルを調整するための新しいメカニズムを導入します。
私たちのアプローチは、特に経由ポイントの概念を活用して、段階的かつ対話的に 1) ローカルでモデルの精度を向上させ、2) 実行中に新しいオブジェクトをタスクに追加し、3) デモが提供されなかった領域にスキルを拡張します。
トルク制御された 7-DoF DLR SARA ロボットを使用して、ベアリング リングの荷重タスクに関する方法を評価します。

要約(オリジナル)

The problem of generalization in learning from demonstration (LfD) has received considerable attention over the years, particularly within the context of movement primitives, where a number of approaches have emerged. Recently, two important approaches have gained recognition. While one leverages via-points to adapt skills locally by modulating demonstrated trajectories, another relies on so-called task-parameterized models that encode movements with respect to different coordinate systems, using a product of probabilities for generalization. While the former are well-suited to precise, local modulations, the latter aim at generalizing over large regions of the workspace and often involve multiple objects. Addressing the quality of generalization by leveraging both approaches simultaneously has received little attention. In this work, we propose an interactive imitation learning framework that simultaneously leverages local and global modulations of trajectory distributions. Building on the kernelized movement primitives (KMP) framework, we introduce novel mechanisms for skill modulation from direct human corrective feedback. Our approach particularly exploits the concept of via-points to incrementally and interactively 1) improve the model accuracy locally, 2) add new objects to the task during execution and 3) extend the skill into regions where demonstrations were not provided. We evaluate our method on a bearing ring-loading task using a torque-controlled, 7-DoF, DLR SARA robot.

arxiv情報

著者 Markus Knauer,Alin Albu-Schäffer,Freek Stulp,João Silvério
発行日 2024-09-09 14:22:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク