Increasing Transparency of Reinforcement Learning using Shielding for Human Preferences and Explanations

要約

人間中心のいくつかのアプリケーションにおける強化学習 (RL) の採用により、動作環境の観察に基づいた自律的な意思決定能力と適応性がロボットに提供されます。
ただし、そのようなシナリオでは、学習プロセスによってロボットの動作が不明確になり、人間にとって予測不可能になる可能性があり、その結果、スムーズで効果的なヒューマン・ロボット・インタラクション (HRI) が妨げられる可能性があります。
結果として、ユーザーにとって不明確なアクションをロボットが実行することを避けることが重要になります。
この研究では、RL (学習中にロボットが実行する動作に関する) に人間の好みを含めることで、ロボットの動作の透明性が向上するかどうかを調査します。
この目的のために、人間の好みを組み込み、学習エージェントの決定を監視するシールド メカニズムが RL アルゴリズムに組み込まれています。
私たちは、さまざまな設定における可読性、予測可能性、期待可能性の観点からロボットの透明性を評価するために、26 人の参加者が参加する被験者内研究を実施しました。
結果は、学習中に人間の好みを考慮することで説明のみを提供する場合の可読性が向上し、人間の好みとロボットの決定の背後にある理論的根拠を解明する説明を組み合わせることで透明性がさらに高まることを示しています。
また、透明性の向上がロボットの安全性、快適性、信頼性の向上につながることも結果から確認されています。
これらの発見は、学習中の透明性の重要性を示し、人間が関与するロボット アプリケーションのパラダイムを示唆しています。

要約(オリジナル)

The adoption of Reinforcement Learning (RL) in several human-centred applications provides robots with autonomous decision-making capabilities and adaptability based on the observations of the operating environment. In such scenarios, however, the learning process can make robots’ behaviours unclear and unpredictable to humans, thus preventing a smooth and effective Human-Robot Interaction (HRI). As a consequence, it becomes crucial to avoid robots performing actions that are unclear to the user. In this work, we investigate whether including human preferences in RL (concerning the actions the robot performs during learning) improves the transparency of a robot’s behaviours. For this purpose, a shielding mechanism is included in the RL algorithm to include human preferences and to monitor the learning agent’s decisions. We carried out a within-subjects study involving 26 participants to evaluate the robot’s transparency in terms of Legibility, Predictability, and Expectability in different settings. Results indicate that considering human preferences during learning improves Legibility with respect to providing only Explanations, and combining human preferences with explanations elucidating the rationale behind the robot’s decisions further amplifies transparency. Results also confirm that an increase in transparency leads to an increase in the safety, comfort, and reliability of the robot. These findings show the importance of transparency during learning and suggest a paradigm for robotic applications with human in the loop.

arxiv情報

著者 Georgios Angelopoulos,Luigi Mangiacapra,Alessandra Rossi,Claudia Di Napoli,Silvia Rossi
発行日 2023-11-28 14:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク