VIBUS: Data-efficient 3D Scene Parsing with VIewpoint Bottleneck and Uncertainty-Spectrum Modeling

要約

最近、深層学習アプローチによる 3D シーンの解析が話題になっています。
ただし、完全に監視されたモデルを使用した現在の方法では、手動で注釈を付けた点ごとの監視が必要であり、これは非常にユーザーフレンドリーでなく、取得に時間がかかります。
そのため、3D シーン解析モデルをスパース スーパーバイザーでトレーニングすることは、興味深い代替手段です。
このタスクをデータ効率の高い 3D シーン解析と呼び、VIBUS という名前の効果的な 2 段階のフレームワークを提案して、膨大なラベルのないポイントを利用して解決します。
最初の段階では、提案された Viewpoint Bottleneck 損失関数を使用して、ラベルのないポイントで自己教師あり表現学習を実行します。
損失関数は、さまざまな視点の下でシーンに課される情報ボトルネック目標から導出され、表現学習のプロセスを劣化とサンプリングから解放します。
第 2 段階では、不確実性スペクトル モデリングに基づいて、スパース ラベルから疑似ラベルが収集されます。
データ駆動型の不確実性測定と 3D メッシュ スペクトル測定 (法線方向と測地線距離から導出) を組み合わせることで、堅牢なローカル アフィニティ メトリックが得られます。
有限ガンマ/ベータ混合モデルを使用して、これらの測定値のカテゴリごとの分布を分解し、しきい値を自動的に選択します。
パブリック ベンチマーク ScanNet で VIBUS を評価し、検証セットとオンライン テスト サーバーの両方で最先端の結果を達成します。
アブレーション研究は、視点のボトルネックと不確実性スペクトルのモデリングの両方が大幅な改善をもたらすことを示しています。
コードとモデルは、https://github.com/AIR-DISCOVER/VIBUS で公開されています。

要約(オリジナル)

Recently, 3D scenes parsing with deep learning approaches has been a heating topic. However, current methods with fully-supervised models require manually annotated point-wise supervision which is extremely user-unfriendly and time-consuming to obtain. As such, training 3D scene parsing models with sparse supervision is an intriguing alternative. We term this task as data-efficient 3D scene parsing and propose an effective two-stage framework named VIBUS to resolve it by exploiting the enormous unlabeled points. In the first stage, we perform self-supervised representation learning on unlabeled points with the proposed Viewpoint Bottleneck loss function. The loss function is derived from an information bottleneck objective imposed on scenes under different viewpoints, making the process of representation learning free of degradation and sampling. In the second stage, pseudo labels are harvested from the sparse labels based on uncertainty-spectrum modeling. By combining data-driven uncertainty measures and 3D mesh spectrum measures (derived from normal directions and geodesic distances), a robust local affinity metric is obtained. Finite gamma/beta mixture models are used to decompose category-wise distributions of these measures, leading to automatic selection of thresholds. We evaluate VIBUS on the public benchmark ScanNet and achieve state-of-the-art results on both validation set and online test server. Ablation studies show that both Viewpoint Bottleneck and uncertainty-spectrum modeling bring significant improvements. Codes and models are publicly available at https://github.com/AIR-DISCOVER/VIBUS.

arxiv情報

著者 Beiwen Tian,Liyi Luo,Hao Zhao,Guyue Zhou
発行日 2022-10-20 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク