要約
行動クローニング、またはより広義にはデモンストレーションからの学習 (LfD) は、複雑なシナリオにおけるロボット ポリシー学習の優先的な方向性です。
実装が簡単でデータ効率が高いにもかかわらず、動作クローン作成には独自の欠点があり、実際のロボットのセットアップでは有効性が制限されます。
この作業では、暗黙的なエネルギーベースの政策モデルを活用することで、実証アルゴリズムからの学習を改善するための一歩を踏み出しました。
結果は、選択された複雑なロボット ポリシー学習シナリオでは、特に潜在的に不連続で多峰性の関数を近似する場合、陰的モデルを使用して教師ありポリシー学習を処理する方が、一般的に使用されるニューラル ネットワーク ベースの陽的モデルよりも平均して優れたパフォーマンスを発揮することを示唆しています。
要約(オリジナル)
Behavioral cloning, or more broadly, learning from demonstrations (LfD) is a priomising direction for robot policy learning in complex scenarios. Albeit being straightforward to implement and data-efficient, behavioral cloning has its own drawbacks, limiting its efficacy in real robot setups. In this work, we take one step towards improving learning from demonstration algorithms by leveraging implicit energy-based policy models. Results suggest that in selected complex robot policy learning scenarios, treating supervised policy learning with an implicit model generally performs better, on average, than commonly used neural network-based explicit models, especially in the cases of approximating potentially discontinuous and multimodal functions.
arxiv情報
著者 | Hanwen Qi,Edward Sun,Harry Zhang |
発行日 | 2024-05-21 14:55:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google