Self-Supervised Adversarial Imitation Learning

要約

タイトル:自己教示対抗的模倣学習

要約:

– 行動クローニングは、エキスパートのデモによってエージェントがどのように振る舞うかを学習する模倣学習の技術である。
– 最近のアプローチでは、完全に観測可能な未ラベルの状態スナップショットの自己監督を使用して、状態ペアをアクションにデコードすることが行われている。
– しかし、これらのテクニックによる反復学習スキームは、悪い局所最小値に陥る傾向があります。
– 以前の研究では、この問題を解決するためにゴール意識戦略が使用されていました。しかし、エージェントがゴールに到達したかどうかを確認するために手動介入が必要でした。
– この制限に対処するために、元のフレームワークに識別器を組み込むことで、2つの主な利点を提供します。
– まず、手動介入要件を廃止します。次に、エキスパートの軌跡の状態遷移に基づく関数近似をガイドすることによって学習を支援します。
– さらに、識別器は、ポリシーモデルに一般的に存在する学習問題を解決します。それは、エージェントが環境内で「何も行動しない」ことがあって、最終的に終了するまでです。

要約(オリジナル)

Behavioural cloning is an imitation learning technique that teaches an agent how to behave via expert demonstrations. Recent approaches use self-supervision of fully-observable unlabelled snapshots of the states to decode state pairs into actions. However, the iterative learning scheme employed by these techniques is prone to get trapped into bad local minima. Previous work uses goal-aware strategies to solve this issue. However, this requires manual intervention to verify whether an agent has reached its goal. We address this limitation by incorporating a discriminator into the original framework, offering two key advantages and directly solving a learning problem previous work had. First, it disposes of the manual intervention requirement. Second, it helps in learning by guiding function approximation based on the state transition of the expert’s trajectories. Third, the discriminator solves a learning issue commonly present in the policy model, which is to sometimes perform a `no action’ within the environment until the agent finally halts.

arxiv情報

著者 Juarez Monteiro,Nathan Gavenski,Felipe Meneguzzi,Rodrigo C. Barros
発行日 2023-04-21 12:12:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク