要約
ヒューマン イン ザ ループ パラダイムでは、ロボット エージェントはタスクを解決する際にほぼ自律的に行動できますが、必要に応じて外部の専門家に助けを求めることができます。
ただし、そのような支援をいつ要求するかを知ることは重要です。要求が少なすぎるとロボットがミスを犯す可能性がありますが、要求が多すぎると専門家に過負荷がかかる可能性があります。
この論文では、この問題に対する強化学習ベースのアプローチを提示します。このアプローチでは、半自律型エージェントは、タスクの最終的な成功の信頼性が低い場合に外部の支援を求めます。
信頼水準は、現在の状態からのリターンの分散を推定することによって計算されます。
ベルマンのような再帰を使用して、トレーニング中にこの推定値を繰り返し改善できることを示します。
完全に観測可能な状態情報と部分的に観測可能な状態情報の両方を持つ離散ナビゲーション問題について、トレーニング時にエキスパートにアクセスできないにもかかわらず、実行時にエキスパート呼び出しの限られた予算を効果的に使用することを示します。
要約(オリジナル)
In a Human-in-the-Loop paradigm, a robotic agent is able to act mostly autonomously in solving a task, but can request help from an external expert when needed. However, knowing when to request such assistance is critical: too few requests can lead to the robot making mistakes, but too many requests can overload the expert. In this paper, we present a Reinforcement Learning based approach to this problem, where a semi-autonomous agent asks for external assistance when it has low confidence in the eventual success of the task. The confidence level is computed by estimating the variance of the return from the current state. We show that this estimate can be iteratively improved during training using a Bellman-like recursion. On discrete navigation problems with both fully- and partially-observable state information, we show that our method makes effective use of a limited budget of expert calls at run-time, despite having no access to the expert at training time.
arxiv情報
著者 | Siddharth Singi,Zhanpeng He,Alvin Pan,Sandip Patel,Gunnar A. Sigurdsson,Robinson Piramuthu,Shuran Song,Matei Ciocarlie |
発行日 | 2023-03-14 16:16:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google