Evaluating the Impact of Personalized Value Alignment in Human-Robot Interaction: Insights into Trust and Team Performance Outcomes

要約

この論文では、ロボットの報酬関数と人間の価値観をリアルタイムで個別に調整することが、信頼とチームのパフォーマンスに及ぼす影響を検証します。
3 つの異なるロボット インタラクション戦略を提示し、比較します。ロボットが人間の報酬関数が自分自身を反映していると仮定する非学習者戦略、ロボットが信頼推定と人間の行動モデリングのために人間の報酬関数を学習する非適応学習者戦略です。
、しかしそれでも独自の報酬関数を最適化し、ロボットが人間の報酬関数を学習してそれを独自のものとして採用する適応学習戦略。
合計 54 人の参加者による 2 つの人体実験が実施されました。
どちらの実験でも、人間とロボットのチームが町内の潜在的な脅威を探索します。
チームは検索サイトを順番に調べて脅威を探します。
人間とロボットの間の相互作用を信頼を意識したマルコフ決定プロセス (信頼を意識した MDP) としてモデル化し、ベイジアン逆強化学習 (IRL) を使用して人間がロボットと対話する際の報酬の重みを推定します。
実験 1 では、人間の価値観/目標について事前に情報を与えた状態で学習アルゴリズムを開始します。
実験 2 では、情報のない事前分布を使用して学習アルゴリズムを開始します。
結果は、適切な事前情報に基づいて開始した場合、個人に合わせた価値観の調整が信頼やチームのパフォーマンスに利益をもたらさないように見えることを示しています。
一方、十分な情報に基づいた事前情報が入手できない場合、人間の価値観に合わせることで、同じ目標のチームパフォーマンスを維持しながら、高い信頼とより高い知覚パフォーマンスが得られます。

要約(オリジナル)

This paper examines the effect of real-time, personalized alignment of a robot’s reward function to the human’s values on trust and team performance. We present and compare three distinct robot interaction strategies: a non-learner strategy where the robot presumes the human’s reward function mirrors its own, a non-adaptive-learner strategy in which the robot learns the human’s reward function for trust estimation and human behavior modeling, but still optimizes its own reward function, and an adaptive-learner strategy in which the robot learns the human’s reward function and adopts it as its own. Two human-subject experiments with a total number of 54 participants were conducted. In both experiments, the human-robot team searches for potential threats in a town. The team sequentially goes through search sites to look for threats. We model the interaction between the human and the robot as a trust-aware Markov Decision Process (trust-aware MDP) and use Bayesian Inverse Reinforcement Learning (IRL) to estimate the reward weights of the human as they interact with the robot. In Experiment 1, we start our learning algorithm with an informed prior of the human’s values/goals. In Experiment 2, we start the learning algorithm with an uninformed prior. Results indicate that when starting with a good informed prior, personalized value alignment does not seem to benefit trust or team performance. On the other hand, when an informed prior is unavailable, alignment to the human’s values leads to high trust and higher perceived performance while maintaining the same objective team performance.

arxiv情報

著者 Shreyas Bhat,Joseph B. Lyons,Cong Shi,X. Jessie Yang
発行日 2023-11-27 18:14:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク