要約
人間の環境における好みに合わせたロボットのナビゲーションは、通常、パーソナライゼーションのためのユーザーのフィードバックやデモンストレーションを利用した、学習ベースのアプローチを通じて実現されます。
ただし、個人の好みは変更される可能性があり、状況に依存する場合もあります。
しかし、静的報酬関数を使用した従来の強化学習 (RL) アプローチでは、これらのさまざまなユーザーの好みに適応するには不十分なことが多く、トレーニングが完了するとデモンストレーションが必然的に反映されます。
この論文では、多目的強化学習 (MORL) と実証ベースの学習を組み合わせたフレームワークを紹介します。
私たちのアプローチにより、再トレーニングすることなく、ユーザーの好みの変化に動的に適応できます。
報酬で定義された好みの目標とデモンストレーション データの反映量の間を柔軟に調整します。
2 台のロボットでのシミュレーションからリアルへの移動を含む厳密な評価を通じて、衝突回避と目標達成の観点から高いナビゲーション パフォーマンスを達成しながら、ユーザーの好みを正確に反映するフレームワークの機能を実証しました。
要約(オリジナル)
Preference-aligned robot navigation in human environments is typically achieved through learning-based approaches, utilizing user feedback or demonstrations for personalization. However, personal preferences are subject to change and might even be context-dependent. Yet traditional reinforcement learning (RL) approaches with static reward functions often fall short in adapting to these varying user preferences, inevitably reflecting demonstrations once training is completed. This paper introduces a framework that combines multi-objective reinforcement learning (MORL) with demonstration-based learning. Our approach allows for dynamic adaptation to changing user preferences without retraining. It fluently modulates between reward-defined preference objectives and the amount of demonstration data reflection. Through rigorous evaluations, including a sim-to-real transfer on two robots, we demonstrate our framework’s capability to reflect user preferences accurately while achieving high navigational performance in terms of collision avoidance and goal pursuance.
arxiv情報
著者 | Jorge de Heuvel,Tharun Sethuraman,Maren Bennewitz |
発行日 | 2024-09-27 13:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google