Learning Adaptive Multi-Objective Robot Navigation Incorporating Demonstrations

要約

人間の環境における好みに合わせたロボットのナビゲーションは、通常、パーソナライゼーションのためのユーザーのフィードバックやデモンストレーションを利用した、学習ベースのアプローチを通じて実現されます。
ただし、個人の好みは変更される可能性があり、状況に依存する場合もあります。
しかし、静的報酬関数を使用した従来の強化学習 (RL) アプローチでは、これらのさまざまなユーザーの好みに適応するには不十分なことが多く、トレーニングが完了するとデモンストレーションが必然的に反映されます。
この論文では、多目的強化学習 (MORL) と実証ベースの学習を組み合わせたフレームワークを紹介します。
私たちのアプローチにより、再トレーニングすることなく、ユーザーの好みの変化に動的に適応できます。
報酬で定義された好みの目標とデモンストレーション データの反映量の間を柔軟に調整します。
2 台のロボットでのシミュレーションからリアルへの移動を含む厳密な評価を通じて、衝突回避と目標達成の観点から高いナビゲーション パフォーマンスを達成しながら、ユーザーの好みを正確に反映するフレームワークの機能を実証しました。

要約(オリジナル)

Preference-aligned robot navigation in human environments is typically achieved through learning-based approaches, utilizing user feedback or demonstrations for personalization. However, personal preferences are subject to change and might even be context-dependent. Yet traditional reinforcement learning (RL) approaches with static reward functions often fall short in adapting to these varying user preferences, inevitably reflecting demonstrations once training is completed. This paper introduces a framework that combines multi-objective reinforcement learning (MORL) with demonstration-based learning. Our approach allows for dynamic adaptation to changing user preferences without retraining. It fluently modulates between reward-defined preference objectives and the amount of demonstration data reflection. Through rigorous evaluations, including a sim-to-real transfer on two robots, we demonstrate our framework’s capability to reflect user preferences accurately while achieving high navigational performance in terms of collision avoidance and goal pursuance.

arxiv情報

著者 Jorge de Heuvel,Tharun Sethuraman,Maren Bennewitz
発行日 2024-09-27 13:24:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク