Wait, That Feels Familiar: Learning to Extrapolate Human Preferences for Preference Aligned Path Planning

要約

ラストワンマイル配送などの自律型モビリティタスクでは、ロボットの安全性とミッションの成功の両方を確保するために、ロボットが移動するべき地形に対してオペレーターが示す好みについて推論する必要があります。
しかし、新しい地形からの分布外データや照明の変化による外観の変化への対処は、視覚的地形適応ナビゲーションにおける根本的な問題のままです。
既存のソリューションでは、多大な労力を要する手作業でのデータの再収集とラベル付けが必要か、オペレーターの好みと一致しない可能性のあるハンドコーディングされた報酬関数を使用しています。
この研究では、ロボットが従うべき視覚的に新しい地形に対するオペレータの好みは、多くの場合、慣性、固有受容、および触覚の領域内の確立された地形参照から推定できると仮定しています。
この洞察を活用して、視覚的なナビゲーションのためのオペレーターの地形の好みを外挿するための新しいフレームワークである、地形を考慮したロボット ナビゲーションの優先度外挿、パターンを紹介します。
PATERN は、ロボットの観察からの慣性、固有受容、触覚の測定値を表現空間にマッピングすることを学習し、この空間で最近傍検索を実行して、新しい地形に対するオペレーターの好みを推定します。
屋外環境での物理的なロボットの実験を通じて、好みを推定し、新しい地形や困難な照明条件に一般化するパターンの能力を評価します。
ベースラインのアプローチと比較して、私たちの調査結果は、PATERN が好みに合わせた方法でナビゲートしながら、多様な地形やさまざまな照明条件に堅牢に一般化していることを示しています。

要約(オリジナル)

Autonomous mobility tasks such as lastmile delivery require reasoning about operator indicated preferences over terrains on which the robot should navigate to ensure both robot safety and mission success. However, coping with out of distribution data from novel terrains or appearance changes due to lighting variations remains a fundamental problem in visual terrain adaptive navigation. Existing solutions either require labor intensive manual data recollection and labeling or use handcoded reward functions that may not align with operator preferences. In this work, we posit that operator preferences for visually novel terrains, which the robot should adhere to, can often be extrapolated from established terrain references within the inertial, proprioceptive, and tactile domain. Leveraging this insight, we introduce Preference extrApolation for Terrain awarE Robot Navigation, PATERN, a novel framework for extrapolating operator terrain preferences for visual navigation. PATERN learns to map inertial, proprioceptive, tactile measurements from the robots observations to a representation space and performs nearest neighbor search in this space to estimate operator preferences over novel terrains. Through physical robot experiments in outdoor environments, we assess PATERNs capability to extrapolate preferences and generalize to novel terrains and challenging lighting conditions. Compared to baseline approaches, our findings indicate that PATERN robustly generalizes to diverse terrains and varied lighting conditions, while navigating in a preference aligned manner.

arxiv情報

著者 Haresh Karnan,Elvin Yang,Garrett Warnell,Joydeep Biswas,Peter Stone
発行日 2023-09-18 16:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク