要約
人間の入力からの報酬学習における重要な課題は、望ましいエージェントの動作がしばしばコンテキストに基づいて変化することです。
従来の方法は通常、それぞれの新しいコンテキストを、独自の報酬関数を備えた別のタスクとして扱います。
たとえば、以前に無視されたストーブが熱くなりすぎて周りにはない場合、ロボットは、効率よりも安全性を優先するための根本的な好みが変わらないにもかかわらず、ゼロから新しい報酬を学ぶ必要があります。
コンテキストは、根本的な好み自体ではなく、$ \ textit {caliency} $ – または重要な機能の機能に影響を与えることを観察します。
たとえば、ストーブの熱はロボットの近接性の重要性に影響しますが、人間の安全性の好みは同じままです。
既存のマルチタスクおよびメタIRLメソッドは、コンテキスト依存の表現を学習します$ \ textit {暗黙的に} $ – 好みと機能の重要性を区別せずに、実質的なデータ要件を表現します。
代わりに、$ \ textIT {明示的に} $モデリングコンテキスト依存性の特徴の顕著性とは別にモデリングをモデル化し、新しいコンテキストに適応するモジュラー報酬表現を作成します。
これを達成するために、$ \ textit {Calibrated Feature} $を紹介します – 機能の顕著性に対するコンテキスト効果をキャプチャする表現 – そして、効率的な学習の優先性から顕著性を分離する特殊なペアの比較クエリを提示します。
シミュレートされたユーザーを使用した実験により、この方法によりサンプル効率が大幅に向上することが示されており、同等の報酬の精度を達成するためにベースラインよりも優先順位クエリが10倍少なく、低データレジームで最大15%優れたパフォーマンス(5〜10クエリ)が必要です。
対面ユーザー調査(n = 12)は、参加者が私たちの方法を使用して独自の個人的なコンテキスト設定を効果的に教えることができ、より適応性のあるパーソナライズされた報酬学習を可能にすることができることを示しています。
要約(オリジナル)
A key challenge in reward learning from human input is that desired agent behavior often changes based on context. Traditional methods typically treat each new context as a separate task with its own reward function. For example, if a previously ignored stove becomes too hot to be around, the robot must learn a new reward from scratch, even though the underlying preference for prioritizing safety over efficiency remains unchanged. We observe that context influences not the underlying preference itself, but rather the $\textit{saliency}$–or importance–of reward features. For instance, stove heat affects the importance of the robot’s proximity, yet the human’s safety preference stays the same. Existing multi-task and meta IRL methods learn context-dependent representations $\textit{implicitly}$–without distinguishing between preferences and feature importance–resulting in substantial data requirements. Instead, we propose $\textit{explicitly}$ modeling context-invariant preferences separately from context-dependent feature saliency, creating modular reward representations that adapt to new contexts. To achieve this, we introduce $\textit{calibrated features}$–representations that capture contextual effects on feature saliency–and present specialized paired comparison queries that isolate saliency from preference for efficient learning. Experiments with simulated users show our method significantly improves sample efficiency, requiring 10x fewer preference queries than baselines to achieve equivalent reward accuracy, with up to 15% better performance in low-data regimes (5-10 queries). An in-person user study (N=12) demonstrates that participants can effectively teach their unique personal contextual preferences using our method, enabling more adaptable and personalized reward learning.
arxiv情報
著者 | Alexandra Forsey-Smerek,Julie Shah,Andreea Bobu |
発行日 | 2025-06-17 22:48:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google