Aligning Human Intent from Imperfect Demonstrations

要約

標準的な模倣学習では、通常、デモンストレーションが最適なポリシー分布から得られることを前提としています。
ただし、現実の世界では、あらゆる人間のデモンストレーションがほぼランダムな動作を示す可能性があるため、高品質の人間データセットを収集するコストは非常に高価になる可能性があります。
そのためには、ロボットが不完全なデモンストレーションから学習し、人間の意図に沿った行動方針を獲得できる必要があります。
これまでの研究では、信頼度スコアを使用して不完全なデモンストレーションから有用な情報を抽出していましたが、これは、グラウンド トゥルースの報酬や人間の積極的な監督へのアクセスに依存していました。
この論文では、上記の努力をせずにデータのきめ細かい信頼スコアを取得するためのダイナミクスベースの方法を提案します。
私たちは、オブジェクト関数を変更することでさまざまなポリシー学習方法を採用できる、信頼ベースの逆ソフト Q 学習 (CIQL) と呼ばれる一般化された信頼ベースの模倣学習フレームワークを開発します。
実験結果は、私たちの信頼性評価方法により、元のアルゴリズムの成功率が $40.3\%$ 増加する可能性があることを示しています。これは、ノイズをフィルタリングするだけの方法よりも $13.5\%$ 高いです。

要約(オリジナル)

Standard imitation learning usually assumes that demonstrations are drawn from an optimal policy distribution. However, in the real world, where every human demonstration may exhibit nearly random behavior, the cost of collecting high-quality human datasets can be quite costly. This requires robots to be able to learn from imperfect demonstrations and thus acquire behavioral policy that align human intent. Prior work uses confidence scores to extract useful information from imperfect demonstrations, which relies on access to ground truth rewards or active human supervision. In this paper, we propose a dynamics-based method to obtain fine-grained confidence scores for data without the above efforts. We develop a generalized confidence-based imitation learning framework called Confidence-based Inverse soft-Q Learning (CIQL), which can employ different policy learning methods by changing object functions. Experimental results show that our confidence evaluation method can increase the success rate of the original algorithm by $40.3\%$, which is $13.5\%$ higher than the method of just filtering noise.

arxiv情報

著者 Xizhou Bu,Zhiqiang Ma,Zhengxiong Liu,Wenjuan Li,Panfeng Huang
発行日 2024-02-22 08:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク