要約
一部の模倣学習方法では、行動の複製と自己監視を組み合わせて、状態のペアからアクションを推測します。
ただし、ほとんどの場合、ドメインの制約など、問題の重要な側面を把握するために、一般化と人間の介入を増やすために多数の専門家の軌跡に依存しています。
この論文では、観察からの継続的模倣学習 (CILO) を提案します。これは、次の 2 つの重要な特徴によって模倣学習を強化する新しい方法です。(i) 探索。より多様な状態遷移が可能になり、必要な専門家の軌跡が少なくなり、トレーニングの反復が少なくなります。
(ii) パス署名。エージェントとエキスパートの軌跡のノンパラメトリック表現の作成を通じて、制約の自動エンコードが可能になります。
私たちは、5 つの環境で CILO をベースラインおよび 2 つの主要な模倣学習方法と比較しました。
これは、すべての環境ですべてのメソッドの中で最高の全体的なパフォーマンスを示し、そのうち 2 つではエキスパートを上回りました。
要約(オリジナル)
Some imitation learning methods combine behavioural cloning with self-supervision to infer actions from state pairs. However, most rely on a large number of expert trajectories to increase generalisation and human intervention to capture key aspects of the problem, such as domain constraints. In this paper, we propose Continuous Imitation Learning from Observation (CILO), a new method augmenting imitation learning with two important features: (i) exploration, allowing for more diverse state transitions, requiring less expert trajectories and resulting in fewer training iterations; and (ii) path signatures, allowing for automatic encoding of constraints, through the creation of non-parametric representations of agents and expert trajectories. We compared CILO with a baseline and two leading imitation learning methods in five environments. It had the best overall performance of all methods in all environments, outperforming the expert in two of them.
arxiv情報
著者 | Nathan Gavenski,Juarez Monteiro,Felipe Meneguzzi,Michael Luck,Odinaldo Rodrigues |
発行日 | 2024-07-22 15:32:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google