要約
オフロード環境では、構造化されていない地形、センシング条件の悪化、バイオーム間のドメインシフトにより、高速自律ナビゲーションに重大な認識上の課題が生じます。
大量のグラウンドトゥルースデータが必要な場合、これらの条件や生物群系にわたるセマンティック情報を学習することは困難になる可能性があります。
この研究では、事前にトレーニングされたビジョン トランスフォーマー (ViT) を活用し、小規模 (画像 500 枚未満) でまばらで粗くラベル付けされた (ピクセル 30% 未満) マルチバイオーム データセットを微調整して 2D セマンティックを予測するアプローチを提案します。
セグメンテーションクラス。
これらのクラスは、新しい範囲ベースのメトリックを介して時間の経過とともに融合され、3D セマンティック ボクセル マップに集約されます。
Yamaha (52.9 mIoU) および Rellis (55.5 mIoU) データセットでのゼロショットのバイオーム外 2D セマンティック セグメンテーションと、既存のデータを使用した少数ショットの粗いスパース ラベリングを実証して、ヤマハ (66.6 mIoU) と Rellis でのセグメンテーション パフォーマンスを向上させます。
(67.2mIoU)。
さらに、範囲ベースのセマンティック融合アプローチでボクセル マップを使用して、ポップアップ ハザード、オーバーハング、水域などの一般的なオフロードの危険を処理する実現可能性を示します。
要約(オリジナル)
Off-road environments pose significant perception challenges for high-speed autonomous navigation due to unstructured terrain, degraded sensing conditions, and domain-shifts among biomes. Learning semantic information across these conditions and biomes can be challenging when a large amount of ground truth data is required. In this work, we propose an approach that leverages a pre-trained Vision Transformer (ViT) with fine-tuning on a small (<500 images), sparse and coarsely labeled (<30% pixels) multi-biome dataset to predict 2D semantic segmentation classes. These classes are fused over time via a novel range-based metric and aggregated into a 3D semantic voxel map. We demonstrate zero-shot out-of-biome 2D semantic segmentation on the Yamaha (52.9 mIoU) and Rellis (55.5 mIoU) datasets along with few-shot coarse sparse labeling with existing data for improved segmentation performance on Yamaha (66.6 mIoU) and Rellis (67.2 mIoU). We further illustrate the feasibility of using a voxel map with a range-based semantic fusion approach to handle common off-road hazards like pop-up hazards, overhangs, and water features.
arxiv情報
著者 | Deegan Atha,Xianmei Lei,Shehryar Khattak,Anna Sabel,Elle Miller,Aurelio Noca,Grace Lim,Jeffrey Edlund,Curtis Padgett,Patrick Spieler |
発行日 | 2024-11-10 23:52:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google