A Probabilistic Model for Skill Acquisition with Switching Latent Feedback Controllers

要約

操作タスクは多くの場合、それぞれが個別のスキルを表すサブタスクで構成されます。
これらのスキルを習得することは、ロボットの自律性、効率性、適応性、環境内での作業能力を高めるため、ロボットにとって不可欠です。
デモンストレーションから学習することで、ロボットはゼロから始めることなく、新しいスキルを迅速に習得できます。通常、デモンストレーションではタスクを達成するためのスキルが順序付けされます。
デモンストレーションから学習するための行動クローニングのアプローチは、一般的に混合密度ネットワークの出力ヘッドに依存してロボットの動作を予測します。
この研究では、まず混合密度ネットワークを、潜在状態に条件付けられたフィードバック コントローラー (またはスキル) のライブラリとして再解釈します。
これは、1 層線形ネットワークが古典的なフィードバック コントローラーと機能的に同等であり、ネットワークの重みがコントローラーのゲインに対応しているという観察から生じています。
この洞察を使用して、これらの要素を組み合わせた確率的グラフィカル モデルを導き出し、スキル習得プロセスを潜在空間でのセグメント化として記述します。各スキル ポリシーはこの潜在空間でフィードバック制御法則として機能します。
私たちのアプローチは、タスクの成功率だけでなく、人間によるデモンストレーションでトレーニングした場合の観察ノイズに対する堅牢性も大幅に向上させます。
私たちの物理的なロボットの実験では、誘導されたロバスト性によってロボットへのモデルの展開が向上することがさらに示されました。

要約(オリジナル)

Manipulation tasks often consist of subtasks, each representing a distinct skill. Mastering these skills is essential for robots, as it enhances their autonomy, efficiency, adaptability, and ability to work in their environment. Learning from demonstrations allows robots to rapidly acquire new skills without starting from scratch, with demonstrations typically sequencing skills to achieve tasks. Behaviour cloning approaches to learning from demonstration commonly rely on mixture density network output heads to predict robot actions. In this work, we first reinterpret the mixture density network as a library of feedback controllers (or skills) conditioned on latent states. This arises from the observation that a one-layer linear network is functionally equivalent to a classical feedback controller, with network weights corresponding to controller gains. We use this insight to derive a probabilistic graphical model that combines these elements, describing the skill acquisition process as segmentation in a latent space, where each skill policy functions as a feedback control law in this latent space. Our approach significantly improves not only task success rate, but also robustness to observation noise when trained with human demonstrations. Our physical robot experiments further show that the induced robustness improves model deployment on robots.

arxiv情報

著者 Juyan Zhang,Dana Kulic,Michael Burke
発行日 2024-10-18 05:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク