Batch Active Learning of Reward Functions from Human Preferences

要約

ロボット学習では、データの生成とラベル付けに費用がかかることがよくあります。
好みに基づく学習は、ユーザーに好みの質問をすることで信頼性の高いラベル付けを可能にする概念です。
アクティブ クエリ手法は、並列化と計算時間を犠牲にしてより有益なデータを生成するために、優先順位に基づく学習で一般的に使用されます。
この論文では、クエリ生成時間を短縮し、並列性を維持しながら、できるだけ少ないデータ サンプルを使用して報酬関数の効率的な学習を可能にする一連の新しいアルゴリズムであるバッチ アクティブ プリファレンス ベースの学習方法を開発します。
アクティブなバッチ生成のための決定点プロセス (DPP) に基づく方法と、いくつかのヒューリスティック ベースの代替案を紹介します。
最後に、シミュレーションにおけるさまざまなロボット タスクの実験結果を紹介します。
この結果は、バッチ アクティブ ラーニング アルゴリズムでは、短時間で計算されるクエリが少数しか必要ないことを示しています。
人間のユーザーの好みを学習するための研究で、アルゴリズムの 1 つを紹介します。

要約(オリジナル)

Data generation and labeling are often expensive in robot learning. Preference-based learning is a concept that enables reliable labeling by querying users with preference questions. Active querying methods are commonly employed in preference-based learning to generate more informative data at the expense of parallelization and computation time. In this paper, we develop a set of novel algorithms, batch active preference-based learning methods, that enable efficient learning of reward functions using as few data samples as possible while still having short query generation times and also retaining parallelizability. We introduce a method based on determinantal point processes (DPP) for active batch generation and several heuristic-based alternatives. Finally, we present our experimental results for a variety of robotics tasks in simulation. Our results suggest that our batch active learning algorithm requires only a few queries that are computed in a short amount of time. We showcase one of our algorithms in a study to learn human users’ preferences.

arxiv情報

著者 Erdem Bıyık,Nima Anari,Dorsa Sadigh
発行日 2024-02-24 08:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML パーマリンク