Fighting Failures with FIRE: Failure Identification to Reduce Expert Burden in Intervention-Based Learning

要約

教師あり模倣学習 (行動クローニングとも呼ばれます) は、ポリシー実行中に失敗を引き起こす分布ドリフトの影響を受けます。
この問題を軽減する 1 つのアプローチは、エージェントが「復帰不能点」に到達したという専門家の判断に基づいて、タスク実行中にエージェントのアクションを修正できるようにすることです。
次に、この新しい修正データを使用してエージェントのポリシーが再トレーニングされます。
このアプローチだけでも、高性能エージェントを学習できるようになりますが、かなりのコストがかかります。専門家は、ポリシーが指定された成功レベルに​​達するまで注意深く実行を観察する必要があり、その時点でさえ、ポリシーが常に成功するという保証はありません。
成功する。
これらの制限に対処するために、実行中のポリシーがいつ失敗するかを予測し、その実行を停止し、専門家に修正を要求できるシステムである FIRE (Failure Identification to Reduce Expert Burden in介入ベースの学習) を紹介します。
専門家データのみから学習する既存のアプローチとは異なり、私たちのアプローチは、敵対的学習に似て、専門家データと非専門家データの両方から学習します。
一連の困難な操作タスクに対して、私たちの方法が失敗につながる状態とアクションのペアを認識できることを実験的に示します。
これにより、介入ベースの学習システムへのシームレスな統合が可能になり、最先端の逆強化学習手法と比較してサンプル効率が桁違いに向上し、学習された同等量のデータと比べてパフォーマンスが劇的に向上したことがわかります。
行動クローンを使って。

要約(オリジナル)

Supervised imitation learning, also known as behavioral cloning, suffers from distribution drift leading to failures during policy execution. One approach to mitigate this issue is to allow an expert to correct the agent’s actions during task execution, based on the expert’s determination that the agent has reached a `point of no return.’ The agent’s policy is then retrained using this new corrective data. This approach alone can enable high-performance agents to be learned, but at a substantial cost: the expert must vigilantly observe execution until the policy reaches a specified level of success, and even at that point, there is no guarantee that the policy will always succeed. To address these limitations, we present FIRE (Failure Identification to Reduce Expert Burden in intervention-based learning), a system that can predict when a running policy will fail, halt its execution, and request a correction from the expert. Unlike existing approaches that learn only from expert data, our approach learns from both expert and non-expert data, akin to adversarial learning. We demonstrate experimentally for a series of challenging manipulation tasks that our method is able to recognize state-action pairs that lead to failures. This permits seamless integration into an intervention-based learning system, where we show an order-of-magnitude gain in sample efficiency compared with a state-of-the-art inverse reinforcement learning method and dramatically improved performance over an equivalent amount of data learned with behavioral cloning.

arxiv情報

著者 Trevor Ablett,Filip Marić,Jonathan Kelly
発行日 2023-12-08 06:04:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク