要約
ポリシーは、分散シフト、つまりポリシーが新しい環境にデプロイされたときに発生する状態と報酬の変化が原因で失敗することがよくあります。
データ拡張では、エージェントの観察におけるタスクに無関係な変化に対してモデルを不変にすることで、堅牢性を高めることができます。
ただし、設計者は、特にエンド ユーザーがタスクの実行方法について異なる好みを持っている場合、どの概念が無関係であるかを先験的に知りません。
私たちは、ユーザーからのフィードバックを直接活用して、パーソナライズされたタスクに関係のない概念を特定する対話型フレームワークを提案します。
私たちの重要なアイデアは、ユーザーがタスクに関連する可能性のある概念と無関係な概念をすぐに識別できるようにする、反事実的なデモンストレーションを生成することです。
次に、タスクに関係のない概念の知識を使用してデータ拡張を実行し、個人化されたユーザーの目的に適合したポリシーを取得します。
実際の人間のユーザーを使用して、離散的および連続的な制御タスクに関するフレームワークを検証する実験を紹介します。
私たちの方法により、(1) ユーザーはエージェントの障害をよりよく理解できるようになり、(2) 微調整に必要なデモンストレーションの数が減り、(3) エージェントを個々のユーザーのタスクの好みに合わせることができます。
要約(オリジナル)
Policies often fail due to distribution shift — changes in the state and reward that occur when a policy is deployed in new environments. Data augmentation can increase robustness by making the model invariant to task-irrelevant changes in the agent’s observation. However, designers don’t know which concepts are irrelevant a priori, especially when different end users have different preferences about how the task is performed. We propose an interactive framework to leverage feedback directly from the user to identify personalized task-irrelevant concepts. Our key idea is to generate counterfactual demonstrations that allow users to quickly identify possible task-relevant and irrelevant concepts. The knowledge of task-irrelevant concepts is then used to perform data augmentation and thus obtain a policy adapted to personalized user objectives. We present experiments validating our framework on discrete and continuous control tasks with real human users. Our method (1) enables users to better understand agent failure, (2) reduces the number of demonstrations required for fine-tuning, and (3) aligns the agent to individual user task preferences.
arxiv情報
著者 | Andi Peng,Aviv Netanyahu,Mark Ho,Tianmin Shu,Andreea Bobu,Julie Shah,Pulkit Agrawal |
発行日 | 2023-07-12 17:55:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google