Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input

要約

人間は社会的コンテキストを使用して、行動に対する好み、つまり報酬関数を指定します。
しかし、嗜好データから報酬モデルを推論するアルゴリズムは、この社会学習の観点を考慮していません。
私たちは、実際的な人間のコミュニケーションからインスピレーションを得て、より正確な報酬モデルの学習に役立つ、例が好まれる理由に関する詳細なデータを抽出する方法を研究します。
私たちは、(1) 特定の例のどの特徴が好ましいか、および (2) 例自体間の比較の両方を尋ねるために、バイナリ優先クエリを強化することを提案します。
ユーザーが報酬に関連する機能を指定する場合とそうでない場合の両方について、これらの機能レベルの好みから学習するためのアプローチを導き出します。
私たちは、視覚ベースと言語ベースの両方の領域で線形バンディット設定に関するアプローチを評価します。
結果は、例のみのラベルと比較して少ない比較で正確な報酬に迅速に収束するという私たちのアプローチの効率性を裏付けています。
最後に、キノコの採餌タスクに関する行動実験を行って、現実世界への適用可能性を検証します。
私たちの調査結果は、実用的な機能設定を組み込むことが、より効率的なユーザーに合わせた報酬学習にとって有望なアプローチであることを示唆しています。

要約(オリジナル)

Humans use social context to specify preferences over behaviors, i.e. their reward functions. Yet, algorithms for inferring reward models from preference data do not take this social learning view into account. Inspired by pragmatic human communication, we study how to extract fine-grained data regarding why an example is preferred that is useful for learning more accurate reward models. We propose to enrich binary preference queries to ask both (1) which features of a given example are preferable in addition to (2) comparisons between examples themselves. We derive an approach for learning from these feature-level preferences, both for cases where users specify which features are reward-relevant, and when users do not. We evaluate our approach on linear bandit settings in both vision- and language-based domains. Results support the efficiency of our approach in quickly converging to accurate rewards with fewer comparisons vs. example-only labels. Finally, we validate the real-world applicability with a behavioral experiment on a mushroom foraging task. Our findings suggest that incorporating pragmatic feature preferences is a promising approach for more efficient user-aligned reward learning.

arxiv情報

著者 Andi Peng,Yuying Sun,Tianmin Shu,David Abel
発行日 2024-05-23 16:36:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク