Reward Shaping for Building Trustworthy Robots in Sequential Human-Robot Interaction

要約

信頼が効果的な HRI にとって重要な要素であることが示されているため、信頼を意識したヒューマン ロボット インタラクション (HRI) に対する研究の注目が高まっています。
信頼を意識した HRI の研究では、タスクの報酬を最大化すると人間の信頼が低下することが多い一方で、人間の信頼を最大化するとタスクのパフォーマンスが損なわれるというジレンマが発見されました。
この研究では、HRI プロセスを 2 人用のマルコフ ゲームとして定式化し、報酬形成手法を利用してパフォーマンスの損失を制限しながら人間の信頼を向上させることで、このジレンマに対処します。
具体的には、シェーピング報酬がポテンシャルベースである場合、パフォーマンスの損失はマルコフ ゲームの最終状態で評価されるポテンシャル関数によって制限される可能性があることを示します。
提案されたフレームワークを経験ベースの信頼モデルに適用すると、効率的に解決して現実世界のアプリケーションに展開できる線形プログラムが得られます。
人間とロボットのチームが捜索救助任務を実行するシミュレーション シナリオで、提案されたフレームワークを評価します。
結果は、提案されたフレームワークがロボットの最適なポリシーを変更することに成功し、最小限のタスクパフォ​​ーマンスコストで人間の信頼を高めることができることを示しています。

要約(オリジナル)

Trust-aware human-robot interaction (HRI) has received increasing research attention, as trust has been shown to be a crucial factor for effective HRI. Research in trust-aware HRI discovered a dilemma — maximizing task rewards often leads to decreased human trust, while maximizing human trust would compromise task performance. In this work, we address this dilemma by formulating the HRI process as a two-player Markov game and utilizing the reward-shaping technique to improve human trust while limiting performance loss. Specifically, we show that when the shaping reward is potential-based, the performance loss can be bounded by the potential functions evaluated at the final states of the Markov game. We apply the proposed framework to the experience-based trust model, resulting in a linear program that can be efficiently solved and deployed in real-world applications. We evaluate the proposed framework in a simulation scenario where a human-robot team performs a search-and-rescue mission. The results demonstrate that the proposed framework successfully modifies the robot’s optimal policy, enabling it to increase human trust at a minimal task performance cost.

arxiv情報

著者 Yaohui Guo,X. Jessie Yang,Cong Shi
発行日 2023-08-02 04:57:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク