Towards Improving Learning from Demonstration Algorithms via MCMC Methods

要約

行動クローニング、より広義にはデモンストレーションからの学習(LfD)は、複雑なシナリオにおけるロボットの方針学習の重要な方向性である。行動クローニングは、実装が簡単でデータ効率が良いとはいえ、実際のロボットセットアップでの有効性を制限する欠点がある。本研究では、暗黙的なエネルギーベースの政策モデルを活用することにより、実証アルゴリズムからの学習を改善するための一歩を踏み出す。その結果、選択された複雑なロボットの方針学習シナリオにおいて、教師あり方針学習を暗黙的モデルで扱うと、一般的に、一般的に使用されるニューラルネットワークベースの明示的モデルよりも、特に潜在的に不連続でマルチモーダルな関数を近似する場合において、平均的に良い結果が得られることが示唆された。

要約(オリジナル)

Behavioral cloning, or more broadly, learning from demonstrations (LfD) is a priomising direction for robot policy learning in complex scenarios. Albeit being straightforward to implement and data-efficient, behavioral cloning has its own drawbacks, limiting its efficacy in real robot setups. In this work, we take one step towards improving learning from demonstration algorithms by leveraging implicit energy-based policy models. Results suggest that in selected complex robot policy learning scenarios, treating supervised policy learning with an implicit model generally performs better, on average, than commonly used neural network-based explicit models, especially in the cases of approximating potentially discontinuous and multimodal functions.

arxiv情報

著者 Hanwen Qi,Edward Sun,Harry Zhang
発行日 2024-05-03 16:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク