要約
付属の動作を生成するための重要な課題の1つは、指定されたユーザーの目標だけでなく、暗黙的または不特定のユーザー要件を考慮することです。
このような暗黙の要件の存在は、タスクモデルのユーザーの理解がエージェントのモデルの推定とは異なる可能性がある設定で特に一般的です。
このシナリオでは、ユーザーは、エージェントの動作が避けられない、または保証されることを誤って期待する場合があります。
このペーパーでは、マルコフ決定プロセス(MDP)としてキャプチャされたタスクのコンテキストで不特定のユーザーサブゴールの可能性をキャプチャし、必要に応じてそれをクエリすることにより、異なるモデルの存在下でのこのような期待の不一致に対処します。
私たちの方法は、ボトルネック状態を識別し、潜在的な暗黙のサブゴールの候補として使用します。
次に、基礎となる目標を達成するために保証されているポリシーを特定するために必要な最小数のクエリを生成するクエリ戦略を導入します。
私たちの経験的評価は、さまざまなタスクにわたって未知の目標を推測して達成する際のアプローチの有効性を示しています。
要約(オリジナル)
One of the significant challenges to generating value-aligned behavior is to not only account for the specified user objectives but also any implicit or unspecified user requirements. The existence of such implicit requirements could be particularly common in settings where the user’s understanding of the task model may differ from the agent’s estimate of the model. Under this scenario, the user may incorrectly expect some agent behavior to be inevitable or guaranteed. This paper addresses such expectation mismatch in the presence of differing models by capturing the possibility of unspecified user subgoal in the context of a task captured as a Markov Decision Process (MDP) and querying for it as required. Our method identifies bottleneck states and uses them as candidates for potential implicit subgoals. We then introduce a querying strategy that will generate the minimal number of queries required to identify a policy guaranteed to achieve the underlying goal. Our empirical evaluations demonstrate the effectiveness of our approach in inferring and achieving unstated goals across various tasks.
arxiv情報
著者 | Silvia Tulli,Stylianos Loukas Vasileiou,Mohamed Chetouani,Sarath Sreedharan |
発行日 | 2025-01-29 15:20:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google