Towards Improving Learning from Demonstration Algorithms via MCMC Methods

要約

行動クローニング、またはより広義にはデモンストレーションからの学習 (LfD) は、複雑なシナリオにおけるロボットポリシー学習の優先的な方向性です。
実装が簡単でデータ効率が高いにもかかわらず、動作クローン作成には独自の欠点があり、実際のロボットのセットアップでは有効性が制限されます。
この作業では、暗黙的なエネルギーベースの政策モデルを活用することで、実証アルゴリズムからの学習を改善するための一歩を踏み出しました。
結果は、選択された複雑なロボットポリシー学習シナリオでは、特に潜在的に不連続で多峰性の関数を近似する場合、陰的モデルを使用して教師ありポリシー学習を処理する方が、一般的に使用されるニューラルネットワークベースの陽的モデルよりも平均して優れたパフォーマンスを発揮することを示唆しています。

要約(オリジナル)

Behavioral cloning, or more broadly, learning from demonstrations (LfD) is a priomising direction for robot policy learning in complex scenarios. Albeit being straightforward to implement and data-efficient, behavioral cloning has its own drawbacks, limiting its efficacy in real robot setups. In this work, we take one step towards improving learning from demonstration algorithms by leveraging implicit energy-based policy models. Results suggest that in selected complex robot policy learning scenarios, treating supervised policy learning with an implicit model generally performs better, on average, than commonly used neural network-based explicit models, especially in the cases of approximating potentially discontinuous and multimodal functions.

arxiv情報

著者	Hanwen Qi,Edward Sun,Harry Zhang
発行日	2024-05-21 14:55:20+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Towards Improving Learning from Demonstration Algorithms via MCMC Methods

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー