Shared Control with Black Box Agents using Oracle Queries


私たちは、クエリに対する 2 つのタイプの潜在的な応答、つまりオラクルを検討します。1 つは、その行動が近視眼的に間違っている可能性がある場合でも、学習者がとるべき最善の行動を提供できるもので、もう 1 つは、システムのその部分に限定された限定された知識を持つものです。

この追加の情報チャネルを考慮して、この研究ではさらに、いつクエリを実行するかを選択するための 3 つのヒューリスティック (強化学習ベース、ユーティリティ ベース、およびエントロピー ベース) を提示します。
2 つの環境での実証結果は、より適切な制御ポリシーを学習するためのクエリの利点と、提案されたヒューリスティック間のトレードオフを示しています。


Shared control problems involve a robot learning to collaborate with a human. When learning a shared control policy, short communication between the agents can often significantly reduce running times and improve the system’s accuracy. We extend the shared control problem to include the ability to directly query a cooperating agent. We consider two types of potential responses to a query, namely oracles: one that can provide the learner with the best action they should take, even when that action might be myopically wrong, and one with a bounded knowledge limited to its part of the system. Given this additional information channel, this work further presents three heuristics for choosing when to query: reinforcement learning-based, utility-based, and entropy-based. These heuristics aim to reduce a system’s overall learning cost. Empirical results on two environments show the benefits of querying to learn a better control policy and the tradeoffs between the proposed heuristics.


著者 Inbal Avraham,Reuth Mirsky
発行日 2024-10-25 15:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.RO パーマリンク