要約
人間とロボットのチーム作業における信頼に対する人間の好みへの適応の影響を示します。
チームは、ロボットが人間に行動を推奨する役割を果たすタスクを実行します。
人間とロボットの行動は、最適化しようとする何らかの報酬関数に基づいていると想定されます。
私たちは、ベイジアン逆強化学習を使用して、ロボットが人間の対話中にリアルタイムで人間の好みを学習して適応できるようにする、新しい人間の信頼行動モデルを使用します。
ロボットが人間と対話するための 3 つの戦略を紹介します。ロボットが人間の報酬関数がロボットの報酬関数と同じであると仮定する非学習者戦略、人間のパフォーマンスに対する報酬関数を学習する非適応学習者戦略です。
適応学習戦略は、パフォーマンス推定のために人間の報酬関数を学習し、この学習された報酬関数も最適化します。
結果は、人間の報酬関数に適応することでロボットに対する信頼が最も高くなることが示されました。
要約(オリジナル)
We present the effect of adapting to human preferences on trust in a human-robot teaming task. The team performs a task in which the robot acts as an action recommender to the human. It is assumed that the behavior of the human and the robot is based on some reward function they try to optimize. We use a new human trust-behavior model that enables the robot to learn and adapt to the human’s preferences in real-time during their interaction using Bayesian Inverse Reinforcement Learning. We present three strategies for the robot to interact with a human: a non-learner strategy, in which the robot assumes that the human’s reward function is the same as the robot’s, a non-adaptive learner strategy that learns the human’s reward function for performance estimation, but still optimizes its own reward function, and an adaptive-learner strategy that learns the human’s reward function for performance estimation and also optimizes this learned reward function. Results show that adapting to the human’s reward function results in the highest trust in the robot.
arxiv情報
著者 | Shreyas Bhat,Joseph B. Lyons,Cong Shi,X. Jessie Yang |
発行日 | 2023-09-11 00:18:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google