要約
点群シーケンスのセマンティック セグメンテーション結果を改良する軽量の後処理方法を提示します。
ほとんどの既存の方法は通常、フレームごとにセグメント化し、問題の固有のあいまいさに遭遇します。単一のフレームでの測定に基づいて、ラベルは人間でさえ予測するのが難しい場合があります。
この問題を解決するために、ネットワークを明示的にトレーニングして、既存のセグメンテーション方法によって予測されたこれらの結果を改善することを提案します。
P2Net と呼ばれるネットワークは、登録後に連続するフレームから一致点間の一貫性制約を学習します。
実際の屋外シーンで構成される SemanticKITTI データセットで、提案された後処理方法を定性的および定量的に評価します。
提案された方法の有効性は、後処理ネットワークによる改良の有無にかかわらず、2 つの代表的なネットワークによって予測された結果を比較することによって検証されます。
具体的には、定性的な視覚化により、予測が困難なポイントのラベルを P2Net で修正できるという重要なアイデアが検証されます。
定量的には、全体的な mIoU は、PointNet [1] で 10.5% から 11.7% に、PointNet++ で 10.8% から 15.9% に改善されています [2]。
要約(オリジナル)
We present a lightweight post-processing method to refine the semantic segmentation results of point cloud sequences. Most existing methods usually segment frame by frame and encounter the inherent ambiguity of the problem: based on a measurement in a single frame, labels are sometimes difficult to predict even for humans. To remedy this problem, we propose to explicitly train a network to refine these results predicted by an existing segmentation method. The network, which we call the P2Net, learns the consistency constraints between coincident points from consecutive frames after registration. We evaluate the proposed post-processing method both qualitatively and quantitatively on the SemanticKITTI dataset that consists of real outdoor scenes. The effectiveness of the proposed method is validated by comparing the results predicted by two representative networks with and without the refinement by the post-processing network. Specifically, qualitative visualization validates the key idea that labels of the points that are difficult to predict can be corrected with P2Net. Quantitatively, overall mIoU is improved from 10.5% to 11.7% for PointNet [1] and from 10.8% to 15.9% for PointNet++ [2].
arxiv情報
著者 | Yutaka Momma,Weimin Wang,Edgar Simo-Serra,Satoshi Iizuka,Ryosuke Nakamura,Hiroshi Ishikawa |
発行日 | 2022-12-01 15:13:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google