Imagining In-distribution States: How Predictable Robot Behavior Can Enable User Control Over Learned Policies

要約

ユーザーがロボットの機能を活用し、その機能を理解して斬新で創造的なタスクを実行できるようにすることが重要です。
強化学習 (RL) でロボットが訓練されているとすると、ユーザーは、その自律性を活用し、ロボットと連携するためにロボットがどのように動作するかを熟知していることを望むかもしれません。
1 つの手法は、ユーザーが遠隔操作を通じてロボットのアクション スペースの一部を制御し、RL ポリシーが残りのアクション スペースを同時に制御できるようにするものです。
このタイプの共有コントロールをパーティション コントロール (PC) として形式化します。
ただし、これは、すぐに使える RL ポリシーを使用すると不可能な場合があります。
たとえば、ユーザーの制御により、ポリシーの観点からロボットが障害状態になり、予期せぬ動作が発生し、ユーザーの目的のタスクの成功が妨げられる場合があります。
この研究では、この問題を形式化し、ユーザーがロボットの動作に対する期待を活用して新しいタスクを達成できるようにする初期アルゴリズムである Imaginary Out-of-Distribution Actions (IODA) を提示します。
実際のロボットを使用したユーザー調査に IODA を導入したところ、IODA がタスクのパフォーマンスの向上と、ロボットの動作とユーザーの期待間の高度な一致の両方につながることがわかりました。
また、PC では、タスクのパフォーマンスとユーザーの期待に応えるロボットの能力との間に強力かつ有意な相関関係があることも示し、IODA のようなアプローチの必要性を強調しています。
コードは https://github.com/AABL-Lab/ioda_roman_2024 で入手できます。

要約(オリジナル)

It is crucial that users are empowered to take advantage of the functionality of a robot and use their understanding of that functionality to perform novel and creative tasks. Given a robot trained with Reinforcement Learning (RL), a user may wish to leverage that autonomy along with their familiarity of how they expect the robot to behave to collaborate with the robot. One technique is for the user to take control of some of the robot’s action space through teleoperation, allowing the RL policy to simultaneously control the rest. We formalize this type of shared control as Partitioned Control (PC). However, this may not be possible using an out-of-the-box RL policy. For example, a user’s control may bring the robot into a failure state from the policy’s perspective, causing it to act unexpectedly and hindering the success of the user’s desired task. In this work, we formalize this problem and present Imaginary Out-of-Distribution Actions, IODA, an initial algorithm which empowers users to leverage their expectations of a robot’s behavior to accomplish new tasks. We deploy IODA in a user study with a real robot and find that IODA leads to both better task performance and a higher degree of alignment between robot behavior and user expectation. We also show that in PC, there is a strong and significant correlation between task performance and the robot’s ability to meet user expectations, highlighting the need for approaches like IODA. Code is available at https://github.com/AABL-Lab/ioda_roman_2024

arxiv情報

著者 Isaac Sheidlower,Emma Bethel,Douglas Lilly,Reuben M. Aronson,Elaine Schaertl Short
発行日 2024-06-19 17:08:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO パーマリンク