Shared Control with Black Box Agents using Oracle Queries

要約

共有制御の問題には、ロボットが人間と協力することを学習することが含まれます。
共有制御ポリシーを学習する場合、エージェント間の短い通信により、実行時間が大幅に短縮され、システムの精度が向上することがよくあります。
共有制御の問題を拡張して、協力するエージェントに直接クエリを実行する機能を組み込みます。
私たちは、クエリに対する 2 つのタイプの潜在的な応答、つまりオラクルを検討します。1 つは、その行動が近視眼的に間違っている可能性がある場合でも、学習者がとるべき最善の行動を提供できるもので、もう 1 つは、システムのその部分に限定された限定された知識を持つものです。

この追加の情報チャネルを考慮して、この研究ではさらに、いつクエリを実行するかを選択するための 3 つのヒューリスティック (強化学習ベース、ユーティリティ ベース、およびエントロピー ベース) を提示します。
これらのヒューリスティックは、システム全体の学習コストを削減することを目的としています。
2 つの環境での実証結果は、より適切な制御ポリシーを学習するためのクエリの利点と、提案されたヒューリスティック間のトレードオフを示しています。

要約(オリジナル)

Shared control problems involve a robot learning to collaborate with a human. When learning a shared control policy, short communication between the agents can often significantly reduce running times and improve the system’s accuracy. We extend the shared control problem to include the ability to directly query a cooperating agent. We consider two types of potential responses to a query, namely oracles: one that can provide the learner with the best action they should take, even when that action might be myopically wrong, and one with a bounded knowledge limited to its part of the system. Given this additional information channel, this work further presents three heuristics for choosing when to query: reinforcement learning-based, utility-based, and entropy-based. These heuristics aim to reduce a system’s overall learning cost. Empirical results on two environments show the benefits of querying to learn a better control policy and the tradeoffs between the proposed heuristics.

arxiv情報

著者 Inbal Avraham,Reuth Mirsky
発行日 2024-10-25 15:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク