MemorySeg: Online LiDAR Semantic Segmentation with a Latent Memory

要約

LiDAR点群のセマンティックセグメンテーションは近年広く研究されており、既存の手法のほとんどは、環境のシングルスキャンを使用してこのタスクに取り組むことに焦点を当てています。しかし、観測の時間的ストリームを活用することで、視認性の悪い(オクルージョンなど)シーン領域や、観測が疎な(長距離など)シーン領域に関する非常に豊富なコンテキスト情報を提供することができ、フレームごとの冗長な計算を削減するのに役立ちます。本論文では、オンライン方式で現在のフレームの予測を改善するために、過去のフレームからの情報を利用するという課題に取り組む。この課題を解決するために、我々はLiDAR点群の時間的シーケンスのセマンティックセグメンテーションのための新しいフレームワークを提案する。また、我々のフレームワークには、点群近傍の予測変動にペナルティを与える正則化機能も含まれている。先行研究では、セマンティックセグメンテーションのためにレンジビュー表現にメモリを組み込むことが試みられているが、これらの方法はオクルージョンを扱うことができず、シーンのレンジビュー表現は近くのエージェントが移動すると大きく変化する。我々の提案するフレームワークは、周囲の疎な3D潜在表現を構築することで、これらの制限を克服する。本手法をSemanticKITTI、nuScenes、PandaSetで評価する。実験により、提案フレームワークの有効性が最先端技術と比較して実証された。

要約(オリジナル)

Semantic segmentation of LiDAR point clouds has been widely studied in recent years, with most existing methods focusing on tackling this task using a single scan of the environment. However, leveraging the temporal stream of observations can provide very rich contextual information on regions of the scene with poor visibility (e.g., occlusions) or sparse observations (e.g., at long range), and can help reduce redundant computation frame after frame. In this paper, we tackle the challenge of exploiting the information from the past frames to improve the predictions of the current frame in an online fashion. To address this challenge, we propose a novel framework for semantic segmentation of a temporal sequence of LiDAR point clouds that utilizes a memory network to store, update and retrieve past information. Our framework also includes a regularizer that penalizes prediction variations in the neighborhood of the point cloud. Prior works have attempted to incorporate memory in range view representations for semantic segmentation, but these methods fail to handle occlusions and the range view representation of the scene changes drastically as agents nearby move. Our proposed framework overcomes these limitations by building a sparse 3D latent representation of the surroundings. We evaluate our method on SemanticKITTI, nuScenes, and PandaSet. Our experiments demonstrate the effectiveness of the proposed framework compared to the state-of-the-art.

arxiv情報

著者 Enxu Li,Sergio Casas,Raquel Urtasun
発行日 2023-11-02 19:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク