CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

要約

動的な都市環境をナビゲートすることは、具体化されたエージェントに大きな課題をもたらし、高度な空間的推論と常識的な規範への順守が必要です。
進捗状況にもかかわらず、既存の視覚的ナビゲーション方法は、マップフリーまたはオフストリートの設定で苦労しており、ラストマイル配信ロボットのような自律エージェントの展開を制限しています。
これらの障害を克服するために、私たちは、Webから調達された数千時間の野生の都市のウォーキングと運転ビデオでの数千時間の都市でのトレーニングエージェントによって、人間のような都市ナビゲーションのためのスケーラブルなデータ駆動型アプローチを提案します。
これらのビデオからアクション監督を抽出するシンプルでスケーラブルなデータ処理パイプラインを導入し、コストのかかる注釈なしで大規模な模倣学習を可能にします。
私たちのモデルは、多様な課題と重要なシナリオを処理するために、洗練されたナビゲーションポリシーを学びます。
実験結果は、大規模で多様なデータセットでのトレーニングがナビゲーションのパフォーマンスを大幅に向上させ、現在の方法を上回ることを示しています。
この作業は、豊富なオンラインビデオデータを使用して、動的な都市環境で具体化されたエージェントの堅牢なナビゲーションポリシーを開発する可能性を示しています。
プロジェクトホームページはhttps://ai4ce.github.io/citywalker/にあります。

要約(オリジナル)

Navigating dynamic urban environments presents significant challenges for embodied agents, requiring advanced spatial reasoning and adherence to common-sense norms. Despite progress, existing visual navigation methods struggle in map-free or off-street settings, limiting the deployment of autonomous agents like last-mile delivery robots. To overcome these obstacles, we propose a scalable, data-driven approach for human-like urban navigation by training agents on thousands of hours of in-the-wild city walking and driving videos sourced from the web. We introduce a simple and scalable data processing pipeline that extracts action supervision from these videos, enabling large-scale imitation learning without costly annotations. Our model learns sophisticated navigation policies to handle diverse challenges and critical scenarios. Experimental results show that training on large-scale, diverse datasets significantly enhances navigation performance, surpassing current methods. This work shows the potential of using abundant online video data to develop robust navigation policies for embodied agents in dynamic urban settings. Project homepage is at https://ai4ce.github.io/CityWalker/.

arxiv情報

著者 Xinhao Liu,Jintong Li,Yicheng Jiang,Niranjan Sujay,Zhicheng Yang,Juexiao Zhang,John Abanes,Jing Zhang,Chen Feng
発行日 2025-04-22 01:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク