TFNet: Exploiting Temporal Cues for Fast and Accurate LiDAR Semantic Segmentation

要約

LiDAR セマンティック セグメンテーションは、自動運転とロボットが周囲の環境を正確かつ確実に理解できるようにする上で重要な役割を果たします。
ポイントベース、距離画像ベース、極ベースなど、さまざまな種類の方法があります。
中でも、精度と速度のバランスの良さから、距離画像を利用した手法が広く使われています。
ただし、距離画像の水平および垂直角度解像度が限られているために引き起こされる「多対 1」問題として知られる重大な課題に直面しており、観測に基づくモデル推論中に 3D ポイントの約 20% が遮蔽されます。
本稿では、この問題に対処するために時間情報を利用する距離画像ベースの LiDAR セマンティック セグメンテーション手法である TFNet を紹介します。
具体的には、時間融合レイヤーを組み込んで、以前のスキャンから有用な情報を抽出し、それを現在のスキャンと統合します。
次に、誤った予測、特に「多対 1」の問題によって引き起こされる予測を修正するために、最大投票ベースの後処理手法を設計します。
3 つのモダリティの 2 つのベンチマークと 7 つのバックボーンに関する実験により、提案された方法の有効性と拡張性が実証されました。

要約(オリジナル)

LiDAR semantic segmentation plays a crucial role in enabling autonomous driving and robots to understand their surroundings accurately and robustly. There are different types of methods, such as point-based, range image-based, and polar-based. Among these, range image-based methods are widely used due to their balance between accuracy and speed. However, they face a significant challenge known as the “many-to-one” problem caused by the range image’s limited horizontal and vertical angular resolution, where around 20% of the 3D points are occluded during model inference based on our observation. In this paper, we present TFNet, a range image-based LiDAR semantic segmentation method that utilizes temporal information to address this issue. Specifically, we incorporate a temporal fusion layer to extract useful information from previous scans and integrate it with the current scan. We then design a max-voting-based post-processing technique to correct false predictions, particularly those caused by the “many-to-one” issue. Experiments on two benchmarks and seven backbones of three modalities demonstrate the effectiveness and scalability of our proposed method.

arxiv情報

著者 Rong Li,ShiJie Li,Xieyuanli Chen,Teli Ma,Wang Hao,Juergen Gall,Junwei Liang
発行日 2023-09-14 16:48:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク