Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy

要約

都市環境で信頼性の高い自律ロボットナビゲーションを実現するには、ロボットは、シーンの意味的理解に基づいて、画像内で意味的に通過可能な地形を識別する能力を備えていなければなりません。
この推論能力はセマンティック トラバーサビリティに基づいており、テスト ドメインで微調整されたセマンティック セグメンテーション モデルを使用して実現されることがよくあります。
この微調整プロセスには、多くの場合、ターゲット ロボットによる手動のデータ収集と、人間のラベラーによる注釈が含まれますが、これは法外にコストがかかり、拡張性がありません。
この研究では、自己中心的なビデオと自動化された注釈プロセスを使用して、セマンティック トラバーサビリティ推定器をトレーニングするための効果的な方法論を紹介します。
自己中心的なビデオは、歩行者の胸に取り付けられたカメラから収集されます。
セマンティック トラバース可能性推定器をトレーニングするためのデータセットは、画像セグメンテーションにおける最近の基礎モデルとそのプロンプト技術を使用して、各ビデオ フレーム内のセマンティック トラバース可能な領域を抽出することによって自動的に生成されます。
さまざまな都市シナリオをカバーする、いくつかの国や都市で撮影されたビデオを用いた広範な実験により、提案されたアノテーション方法の高い拡張性と一般化可能性が実証されました。
さらに、自律ロボットナビゲーションのパフォーマンス分析と現実世界への展開は、トレーニングされたセマンティックトラバーサビリティ推定器が高精度で、多様なカメラ視点を処理でき、計算量が軽く、現実世界に適用できることを示しています。
概要ビデオは https://youtu.be/EUVoH-wA-lA でご覧いただけます。

要約(オリジナル)

For reliable autonomous robot navigation in urban settings, the robot must have the ability to identify semantically traversable terrains in the image based on the semantic understanding of the scene. This reasoning ability is based on semantic traversability, which is frequently achieved using semantic segmentation models fine-tuned on the testing domain. This fine-tuning process often involves manual data collection with the target robot and annotation by human labelers which is prohibitively expensive and unscalable. In this work, we present an effective methodology for training a semantic traversability estimator using egocentric videos and an automated annotation process. Egocentric videos are collected from a camera mounted on a pedestrian’s chest. The dataset for training the semantic traversability estimator is then automatically generated by extracting semantically traversable regions in each video frame using a recent foundation model in image segmentation and its prompting technique. Extensive experiments with videos taken across several countries and cities, covering diverse urban scenarios, demonstrate the high scalability and generalizability of the proposed annotation method. Furthermore, performance analysis and real-world deployment for autonomous robot navigation showcase that the trained semantic traversability estimator is highly accurate, able to handle diverse camera viewpoints, computationally light, and real-world applicable. The summary video is available at https://youtu.be/EUVoH-wA-lA.

arxiv情報

著者 Yunho Kim,Jeong Hyun Lee,Choongin Lee,Juhyeok Mun,Donghoon Youm,Jeongsoo Park,Jemin Hwangbo
発行日 2024-06-05 06:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク