Learning Human Preferences Over Robot Behavior as Soft Planning Constraints

要約

嗜好学習は、ロボットの動作を特定のユーザーのニーズや欲求に適応させるために、ヒューマン ロボット インタラクション (HRI) において長年研究されてきました。
通常、人間の好みはスカラー関数としてモデル化されます。
しかし、そのような定式化は、ロボットが特定のタスクに対してどのように動作すべきかという重要な考慮事項と、望ましい(しかし必須ではない)ロボットの動作とを混同します。
この研究では、計画フレームワークを活用して、そのような必要なロボットの動作と望ましいロボットの動作を区別します。
具体的には、さまざまなタイプの人間の好みがソフトプランニング制約としてエンコードされる、HRI での好み学習のための新しい問題定式化を提案します。
次に、ユーザーにクエリを実行してロボットが好みを推測できるようにするデータ駆動型の方法を検討します。これは、Habitat 2.0 シミュレーターの再配置タスクでインスタンス化されます。
提案されたアプローチは、潜在的なロボットの動作間でシミュレートされたユーザーの選択において、さまざまなレベルのノイズの下でも 3 つのタイプの好みを推定するのに有望であることを示します。
私たちの貢献は、将来の適応可能な計画ベースのロボットの行動への扉を開きます。

要約(オリジナル)

Preference learning has long been studied in Human-Robot Interaction (HRI) in order to adapt robot behavior to specific user needs and desires. Typically, human preferences are modeled as a scalar function; however, such a formulation confounds critical considerations on how the robot should behave for a given task, with desired — but not required — robot behavior. In this work, we distinguish between such required and desired robot behavior by leveraging a planning framework. Specifically, we propose a novel problem formulation for preference learning in HRI where various types of human preferences are encoded as soft planning constraints. Then, we explore a data-driven method to enable a robot to infer preferences by querying users, which we instantiate in rearrangement tasks in the Habitat 2.0 simulator. We show that the proposed approach is promising at inferring three types of preferences even under varying levels of noise in simulated user choices between potential robot behaviors. Our contributions open up doors to adaptable planning-based robot behavior in the future.

arxiv情報

著者 Austin Narcomey,Nathan Tsoi,Ruta Desai,Marynel Vázquez
発行日 2024-03-28 19:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク