StROL: Stabilized and Robust Online Learning from Humans

要約

ロボットは多くの場合、現在の対話中に人間の報酬関数をオンラインで学習する必要があります。
このリアルタイム学習には、高速ではあるが近似的な学習ルールが必要です。人間の動作にノイズが多かったり最適ではない場合、現在の近似ではロボットの学習が不安定になる可能性があります。
したがって、この論文では、人間の報酬パラメータを推論する際の勾配降下学習ルールのロバスト性と収束特性を強化することを目指します。
ロボットの学習アルゴリズムを、人間の真の (しかし未知の) 好みが平衡点となる、人間の好みパラメータにわたる動的システムとしてモデル化します。
これにより、リアプノフ安定性解析を実行して、ロボットの学習ダイナミクスが収束する条件を導き出すことができます。
私たちが提案するアルゴリズム (StROL) は、これらの条件を使用して、ロバストな設計による学習ルールを学習します。元の学習ダイナミクスを考慮すると、StROL は、より大きな人間の入力セットの下で人間の真のパラメーターに収束する、修正された学習ルールを出力します。
実際には、これらの自律的に生成された学習ルールは、人間が騒がしく、偏見があり、最適ではない場合でも、人間が伝えようとしていることを正しく推測できます。
シミュレーションとユーザー調査を通じて、StROL はオンライン報酬学習の最先端のアプローチよりも正確な推定値をもたらし、後悔が少ないことがわかりました。
こちらのビデオとコードをご覧ください: https://github.com/VT-Collab/StROL_RAL

要約(オリジナル)

Robots often need to learn the human’s reward function online, during the current interaction. This real-time learning requires fast but approximate learning rules: when the human’s behavior is noisy or suboptimal, current approximations can result in unstable robot learning. Accordingly, in this paper we seek to enhance the robustness and convergence properties of gradient descent learning rules when inferring the human’s reward parameters. We model the robot’s learning algorithm as a dynamical system over the human preference parameters, where the human’s true (but unknown) preferences are the equilibrium point. This enables us to perform Lyapunov stability analysis to derive the conditions under which the robot’s learning dynamics converge. Our proposed algorithm (StROL) uses these conditions to learn robust-by-design learning rules: given the original learning dynamics, StROL outputs a modified learning rule that now converges to the human’s true parameters under a larger set of human inputs. In practice, these autonomously generated learning rules can correctly infer what the human is trying to convey, even when the human is noisy, biased, and suboptimal. Across simulations and a user study we find that StROL results in a more accurate estimate and less regret than state-of-the-art approaches for online reward learning. See videos and code here: https://github.com/VT-Collab/StROL_RAL

arxiv情報

著者 Shaunak A. Mehta,Forrest Meng,Andrea Bajcsy,Dylan P. Losey
発行日 2024-01-04 18:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク