CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

要約

動的な都市環境をナビゲートすることは、身体化されたエージェントにとって大きな課題であり、高度な空間推論と常識的規範の遵守が必要です。
進歩にもかかわらず、既存の視覚ナビゲーション方法は地図のない環境や路地外の環境では困難を極めており、ラストマイル配送ロボットのような自律型エージェントの導入が制限されています。
これらの障害を克服するために、Web から取得した何千時間もの自然の中での街歩きや運転のビデオをエージェントにトレーニングすることにより、人間のような都市ナビゲーションを実現するためのスケーラブルなデータ駆動型のアプローチを提案します。
これらのビデオからアクションの監視を抽出するシンプルでスケーラブルなデータ処理パイプラインを導入し、コストのかかるアノテーションなしで大規模な模倣学習を可能にします。
私たちのモデルは、さまざまな課題や重要なシナリオに対処するために、洗練されたナビゲーション ポリシーを学習します。
実験結果は、大規模で多様なデータセットでトレーニングすると、ナビゲーションのパフォーマンスが大幅に向上し、現在の方法を超えていることを示しています。
この研究は、豊富なオンライン ビデオ データを使用して、動的な都市環境における身体化されたエージェントのための堅牢なナビゲーション ポリシーを開発する可能性を示しています。
プロジェクトのホームページは https://ai4ce.github.io/CityWalker/ にあります。

要約(オリジナル)

Navigating dynamic urban environments presents significant challenges for embodied agents, requiring advanced spatial reasoning and adherence to common-sense norms. Despite progress, existing visual navigation methods struggle in map-free or off-street settings, limiting the deployment of autonomous agents like last-mile delivery robots. To overcome these obstacles, we propose a scalable, data-driven approach for human-like urban navigation by training agents on thousands of hours of in-the-wild city walking and driving videos sourced from the web. We introduce a simple and scalable data processing pipeline that extracts action supervision from these videos, enabling large-scale imitation learning without costly annotations. Our model learns sophisticated navigation policies to handle diverse challenges and critical scenarios. Experimental results show that training on large-scale, diverse datasets significantly enhances navigation performance, surpassing current methods. This work shows the potential of using abundant online video data to develop robust navigation policies for embodied agents in dynamic urban settings. Project homepage is at https://ai4ce.github.io/CityWalker/.

arxiv情報

著者 Xinhao Liu,Jintong Li,Yicheng Jiang,Niranjan Sujay,Zhicheng Yang,Juexiao Zhang,John Abanes,Jing Zhang,Chen Feng
発行日 2024-11-28 15:49:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク