Semantic Scene Completion with Cleaner Self

要約

Semantic Sc​​ene Completion (SSC) は、単一ビューの深度および/または RGB 2D ピクセルの画像を 3D ボクセルに変換し、そのそれぞれのセマンティック ラベルが予測されます。
SSC は、よく知られた不適切な問題です。予測モデルは、通常、Truncated Signed Distance Function (TSDF) で表される可視面の背後にあるものを「想像」する必要があるためです。
深度カメラの感覚的な不完全さにより、深度値から推定されたノイズの多い TSDF に基づくほとんどの既存の方法は、1) 不完全な体積予測と 2) 混乱したセマンティック ラベルの影響を受けます。
この目的のために、私たちはグラウンド トゥルースの 3D ボクセルを使用して、TSDF-CAD と呼ばれる完全な可視サーフェスを生成し、「よりクリーンな」SSC モデルをトレーニングします。
モデルにはノイズがないため、目に見えないボクセルの「想像力」にもっと集中することが期待されます。
次に、ノイズの多いTSDF入力を使用して、中間の「よりクリーンな」知識を別のモデルに抽出することを提案します。
特に、3D占有機能と「よりクリーンな自己」の意味関係を使用して、「騒々しい自己」の対応者を監視し、上記の2つの誤った予測にそれぞれ対処します。
実験結果は、私たちの方法が、シーンの完成度と SSC を測定するために 3.1% IoU と 2.2% mIoU でノイズの多い対応物を改善し、人気のある NYU データセットで新しい最先端の精度を達成することを検証します。

要約(オリジナル)

Semantic Scene Completion (SSC) transforms an image of single-view depth and/or RGB 2D pixels into 3D voxels, each of whose semantic labels are predicted. SSC is a well-known ill-posed problem as the prediction model has to ‘imagine’ what is behind the visible surface, which is usually represented by Truncated Signed Distance Function (TSDF). Due to the sensory imperfection of the depth camera, most existing methods based on the noisy TSDF estimated from depth values suffer from 1) incomplete volumetric predictions and 2) confused semantic labels. To this end, we use the ground-truth 3D voxels to generate a perfect visible surface, called TSDF-CAD, and then train a ‘cleaner’ SSC model. As the model is noise-free, it is expected to focus more on the ‘imagination’ of unseen voxels. Then, we propose to distill the intermediate ‘cleaner’ knowledge into another model with noisy TSDF input. In particular, we use the 3D occupancy feature and the semantic relations of the ‘cleaner self’ to supervise the counterparts of the ‘noisy self’ to respectively address the above two incorrect predictions. Experimental results validate that our method improves the noisy counterparts with 3.1% IoU and 2.2% mIoU for measuring scene completion and SSC, and also achieves new state-of-the-art accuracy on the popular NYU dataset.

arxiv情報

著者 Fengyun Wang,Dong Zhang,Hanwang Zhang,Jinhui Tang,Qianru Sun
発行日 2023-03-17 13:50:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク