要約
ロボットの広く一般化可能な視覚的ナビゲーションポリシーの開発は、主に大規模で多様なトレーニングデータの可用性によって制約される重要な課題です。
研究者によって収集されたキュレーションされたデータセットは高品質を提供しますが、限られたサイズはポリシーの一般化を制限します。
これを克服するために、品質が低いまたは欠落しているアクションラベルの可能性があるにもかかわらず、大量の群衆が供給したテレオ操作データやラベルのないYouTubeビデオを含む、豊富で受動的に収集されたデータソースの活用を探ります。
モデルベースの再発見(MBRA)を提案します。これは、学習した短距離のモデルベースのエキスパートモデルを利用して、これらのパッシブデータセットの高品質のアクションを再評価または生成するフレームワークです。
このリラベルのデータは、視覚的な目標またはGPSウェイポイントを条件付けられた長老ナビゲーションポリシーであるLogOnavに蒸留されます。
MBRA処理データを使用して訓練されたLogONAVは、最先端のパフォーマンスを実現し、以前は見えなかった屋内および屋外環境で300メートルを超える距離にわたって堅牢なナビゲーションを可能にすることを実証します。
3つの大陸の6つの都市でロボットの艦隊(四足動物を含む)で行われた当社の広範な現実世界の評価は、混雑した環境で歩行者の中でも効果的に一般化およびナビゲートするポリシーの能力を検証します。
要約(オリジナル)
Developing broadly generalizable visual navigation policies for robots is a significant challenge, primarily constrained by the availability of large-scale, diverse training data. While curated datasets collected by researchers offer high quality, their limited size restricts policy generalization. To overcome this, we explore leveraging abundant, passively collected data sources, including large volumes of crowd-sourced teleoperation data and unlabeled YouTube videos, despite their potential for lower quality or missing action labels. We propose Model-Based ReAnnotation (MBRA), a framework that utilizes a learned short-horizon, model-based expert model to relabel or generate high-quality actions for these passive datasets. This relabeled data is then distilled into LogoNav, a long-horizon navigation policy conditioned on visual goals or GPS waypoints. We demonstrate that LogoNav, trained using MBRA-processed data, achieves state-of-the-art performance, enabling robust navigation over distances exceeding 300 meters in previously unseen indoor and outdoor environments. Our extensive real-world evaluations, conducted across a fleet of robots (including quadrupeds) in six cities on three continents, validate the policy’s ability to generalize and navigate effectively even amidst pedestrians in crowded settings.
arxiv情報
著者 | Noriaki Hirose,Lydia Ignatova,Kyle Stachowicz,Catherine Glossop,Sergey Levine,Dhruv Shah |
発行日 | 2025-05-08 18:43:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google