MARVIS: Motion & Geometry Aware Real and Virtual Image Segmentation

要約

水面付近での自律航行、3D再構成、物体認識などのタスクは、海洋ロボットアプリケーションにおいて極めて重要である。しかし、ランダムな空気と水の界面からの光の反射や屈折、不規則な液体の流れなど、動的な外乱のために課題が生じ、知覚やナビゲーションシステムの潜在的な故障につながる可能性がある。従来のコンピュータビジョンアルゴリズムは、実画像領域と仮想画像領域の区別に苦労しており、タスクを著しく複雑にしている。仮想画像領域とは、通常、反射や屈折による光線の再配向によって形成される見かけ上の表現であり、実際の物理的な位置がなくても物体が存在するように錯覚させる。この研究では、領域不変情報、モーションエントロピー・カーネル、エピポーラ幾何学的整合性を組み合わせた合成画像を利用する、実画像領域と仮想画像領域のセグメンテーションのための新しいアプローチを提案する。我々のセグメンテーションネットワークは、ドメインが変わっても再トレーニングの必要がない。このことは、同じセグメンテーション・ネットワークを、シミュレーションと実世界という2つの異なるドメインに展開することで示される。水面の複雑さを模倣したリアルな合成画像を作成することで、我々のネットワーク(MARVIS)が実画像と仮想画像を効果的に識別するためのきめ細かい学習データを提供する。モーションとジオメトリを考慮した設計の選択と包括的な実験分析により、私たちは未知の実世界領域において最先端の実-仮想画像セグメンテーション性能を達成し、小さな計算フットプリントを確保しながら78%以上のIoUと86%以上のF1-Scoreを達成しました。MARVISは、シングルGPU(CPUコア)で43FPS(8FPS)以上の推論レートを提供します。我々のコードとデータセットは、https://github.com/jiayi-wu-umd/MARVIS。

要約(オリジナル)

Tasks such as autonomous navigation, 3D reconstruction, and object recognition near the water surfaces are crucial in marine robotics applications. However, challenges arise due to dynamic disturbances, e.g., light reflections and refraction from the random air-water interface, irregular liquid flow, and similar factors, which can lead to potential failures in perception and navigation systems. Traditional computer vision algorithms struggle to differentiate between real and virtual image regions, significantly complicating tasks. A virtual image region is an apparent representation formed by the redirection of light rays, typically through reflection or refraction, creating the illusion of an object’s presence without its actual physical location. This work proposes a novel approach for segmentation on real and virtual image regions, exploiting synthetic images combined with domain-invariant information, a Motion Entropy Kernel, and Epipolar Geometric Consistency. Our segmentation network does not need to be re-trained if the domain changes. We show this by deploying the same segmentation network in two different domains: simulation and the real world. By creating realistic synthetic images that mimic the complexities of the water surface, we provide fine-grained training data for our network (MARVIS) to discern between real and virtual images effectively. By motion & geometry-aware design choices and through comprehensive experimental analysis, we achieve state-of-the-art real-virtual image segmentation performance in unseen real world domain, achieving an IoU over 78% and a F1-Score over 86% while ensuring a small computational footprint. MARVIS offers over 43 FPS (8 FPS) inference rates on a single GPU (CPU core). Our code and dataset are available here https://github.com/jiayi-wu-umd/MARVIS.

arxiv情報

著者 Jiayi Wu,Xiaomin Lin,Shahriar Negahdaripour,Cornelia Fermüller,Yiannis Aloimonos
発行日 2024-10-03 14:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク