Aligning Human Intent from Imperfect Demonstrations with Confidence-based Inverse soft-Q Learning

要約

模倣学習は、ロボットが人間の操作スキルをデモンストレーションを通じて迅速に学習できるため、大きな注目を集めています。
しかし、現実の世界では、人間のデモは人間が意図しないランダムな動作を示すことがよくあります。
高品質の人間データセットを収集することは困難であり、費用もかかります。
したがって、ロボットには、不完全なデモンストレーションから人間の意図に沿った行動方針を学習する能力が必要です。
これまでの研究では、信頼度スコアを使用して不完全なデモンストレーションから有用な情報を抽出していましたが、これは、グラウンド トゥルースの報酬や人間による積極的な監督へのアクセスに依存していました。
この論文では、上記の努力をせずにデータのきめ細かい信頼スコアを取得する遷移ベースの方法を提案します。これにより、ベースライン アルゴリズムの成功率を平均 40.3$\%$ 高めることができます。
私たちは、図 1 に示すように、ポリシー学習を導くための一般化された信頼ベースの模倣学習フレームワークを開発しました。このフレームワークは、信頼ベースの逆ソフト Q 学習 (CIQL) と呼ばれます。
これに基づいて、ノイズを処理する 2 つの方法を分析し、フィルタリングよりもペナルティの方が人間の意図に沿ったものであることがわかりました。

要約(オリジナル)

Imitation learning attracts much attention for its ability to allow robots to quickly learn human manipulation skills through demonstrations. However, in the real world, human demonstrations often exhibit random behavior that is not intended by humans. Collecting high-quality human datasets is both challenging and expensive. Consequently, robots need to have the ability to learn behavioral policies that align with human intent from imperfect demonstrations. Previous work uses confidence scores to extract useful information from imperfect demonstrations, which relies on access to ground truth rewards or active human supervision. In this paper, we propose a transition-based method to obtain fine-grained confidence scores for data without the above efforts, which can increase the success rate of the baseline algorithm by 40.3$\%$ on average. We develop a generalized confidence-based imitation learning framework for guiding policy learning, called Confidence-based Inverse soft-Q Learning (CIQL), as shown in Fig.1. Based on this, we analyze two ways of processing noise and find that penalization is more aligned with human intent than filtering.

arxiv情報

著者 Xizhou Bu,Wenjuan Li,Zhengxiong Liu,Zhiqiang Ma,Panfeng Huang
発行日 2024-06-19 10:30:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク