要約
共有コントロールの問題には、人間と協力することを学ぶロボットが含まれます。
共有制御ポリシーを学習する場合、エージェント間の短い通信は、実行時間を大幅に短縮し、システムの精度を改善することがよくあります。
共有制御の問題を拡張して、協力エージェントを直接照会する機能を含めます。
クエリに対する2種類の潜在的な応答、すなわちオラクルを検討します。1つは、そのアクションが近視で間違っている可能性がある場合でも、学習者に最良のアクションを提供することができるものと、システムの一部に限定された知識を持つものを持っているものを考慮します。
。
この追加情報チャネルを考慮して、この作業は、補足する時期を選択するための3つのヒューリスティックをさらに提示します:補強学習ベース、ユーティリティベース、およびエントロピーベース。
これらのヒューリスティックは、システムの全体的な学習コストを削減することを目的としています。
2つの環境での経験的結果は、より良い制御ポリシーを学ぶためのクエリの利点と、提案されたヒューリスティック間のトレードオフを示しています。
要約(オリジナル)
Shared control problems involve a robot learning to collaborate with a human. When learning a shared control policy, short communication between the agents can often significantly reduce running times and improve the system’s accuracy. We extend the shared control problem to include the ability to directly query a cooperating agent. We consider two types of potential responses to a query, namely oracles: one that can provide the learner with the best action they should take, even when that action might be myopically wrong, and one with a bounded knowledge limited to its part of the system. Given this additional information channel, this work further presents three heuristics for choosing when to query: reinforcement learning-based, utility-based, and entropy-based. These heuristics aim to reduce a system’s overall learning cost. Empirical results on two environments show the benefits of querying to learn a better control policy and the tradeoffs between the proposed heuristics.
arxiv情報
著者 | Inbal Avraham,Reuth Mirsky |
発行日 | 2025-02-21 14:19:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google