Online Adaptation for Enhancing Imitation Learning Policies

要約

模倣学習により、自律エージェントは報酬信号を必要とせずに人間の例から学習できます。
それでも、提供されたデータセットがタスクを正しくカプセル化していない場合、またはタスクが複雑すぎてモデル化できない場合、そのようなエージェントはエキスパート ポリシーを再現できません。
私たちは、オンライン適応を通じてこれらの障害から回復することを提案します。
私たちのアプローチは、事前にトレーニングされたポリシーに基づく行動提案と、専門家によって記録された関連する経験を組み合わせたものです。
この組み合わせにより、専門家に忠実に準拠した適応アクションが得られます。
私たちの実験では、適応したエージェントが純粋な模倣学習のエージェントよりも優れたパフォーマンスを発揮することが示されています。
特に、適応されたエージェントは、適応されていない基本ポリシーが壊滅的に失敗した場合でも、妥当なパフォーマンスを達成できます。

要約(オリジナル)

Imitation learning enables autonomous agents to learn from human examples, without the need for a reward signal. Still, if the provided dataset does not encapsulate the task correctly, or when the task is too complex to be modeled, such agents fail to reproduce the expert policy. We propose to recover from these failures through online adaptation. Our approach combines the action proposal coming from a pre-trained policy with relevant experience recorded by an expert. The combination results in an adapted action that closely follows the expert. Our experiments show that an adapted agent performs better than its pure imitation learning counterpart. Notably, adapted agents can achieve reasonable performance even when the base, non-adapted policy catastrophically fails.

arxiv情報

著者 Federico Malato,Ville Hautamaki
発行日 2024-06-07 13:09:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク