要約
人間の環境における好みに合わせたロボットのナビゲーションは、通常、パーソナライゼーションのためのデモンストレーションやユーザーのフィードバックを活用した、学習ベースのアプローチを通じて実現されます。
ただし、個人の好みは変更される可能性があり、状況に依存する場合もあります。
しかし、静的報酬関数を使用した従来の強化学習 (RL) アプローチでは、こうしたさまざまなユーザーの好みに適応するには不十分なことがよくあります。
この論文では、多目的強化学習 (MORL) と実証ベースの学習を組み合わせたフレームワークを紹介します。
私たちのアプローチにより、再トレーニングすることなく、ユーザーの好みの変化に動的に適応できます。
シムからリアルへの転送やロボットからロボットへの転送などの厳密な評価を通じて、衝突回避と目標達成の点で高いナビゲーション パフォーマンスを達成しながら、ユーザーの好みを正確に反映するフレームワークの機能を実証します。
要約(オリジナル)
Preference-aligned robot navigation in human environments is typically achieved through learning-based approaches, utilizing demonstrations and user feedback for personalization. However, personal preferences are subject to change and might even be context-dependent. Yet traditional reinforcement learning (RL) approaches with a static reward function often fall short in adapting to these varying user preferences. This paper introduces a framework that combines multi-objective reinforcement learning (MORL) with demonstration-based learning. Our approach allows for dynamic adaptation to changing user preferences without retraining. Through rigorous evaluations, including sim-to-real and robot-to-robot transfers, we demonstrate our framework’s capability to reflect user preferences accurately while achieving high navigational performance in terms of collision avoidance and goal pursuance.
arxiv情報
著者 | Jorge de Heuvel,Tharun Sethuraman,Maren Bennewitz |
発行日 | 2024-04-12 14:37:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google