SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene Reconstruction

要約

3D シーン理解の分野では、オブジェクトとその関係に関する幾何学的な情報と意味論的な情報を組み合わせた新しいシーン表現として 3D シーン グラフが登場しました。
ただし、完全に教師ありの方法でセマンティック 3D シーン グラフを学習することは、オブジェクト レベルの注釈だけでなく関係ラベルも必要となるため、本質的に困難です。
事前トレーニングのアプローチはさまざまな分野で多くの手法のパフォーマンスを向上させるのに役立ちましたが、3D シーン グラフ予測の事前トレーニングはほとんど注目されていません。
さらに、この論文では、古典的な対照点群ベースの事前トレーニング アプローチが 3D シーン グラフの学習には効果がないことを発見しました。
この目的を達成するために、3D シーン グラフ予測のための新しい自己教師あり事前トレーニング方法である SGRec3D を紹介します。
口実タスクとしてグラフのボトルネックから 3D 入力シーンを再構築することを提案します。
SGRec3D の事前トレーニングにはオブジェクト関係ラベルが必要ないため、以前は 3D シーン グラフの学習には使用できなかった大規模な 3D シーン理解データセットを利用できるようになります。
私たちの実験では、最近の点群ベースの事前トレーニング アプローチとは対照的に、私たちが提案する事前トレーニングは 3D シーン グラフ予測を大幅に改善し、その結果 SOTA パフォーマンスが向上し、オブジェクト予測と
関係予測で +4%。
さらに、微調整中に 10% のラベル付きデータの小さなサブセットを使用するだけで、事前トレーニングなしで同じモデルを上回るパフォーマンスを得るのに十分であることを示します。

要約(オリジナル)

In the field of 3D scene understanding, 3D scene graphs have emerged as a new scene representation that combines geometric and semantic information about objects and their relationships. However, learning semantic 3D scene graphs in a fully supervised manner is inherently difficult as it requires not only object-level annotations but also relationship labels. While pre-training approaches have helped to boost the performance of many methods in various fields, pre-training for 3D scene graph prediction has received little attention. Furthermore, we find in this paper that classical contrastive point cloud-based pre-training approaches are ineffective for 3D scene graph learning. To this end, we present SGRec3D, a novel self-supervised pre-training method for 3D scene graph prediction. We propose to reconstruct the 3D input scene from a graph bottleneck as a pretext task. Pre-training SGRec3D does not require object relationship labels, making it possible to exploit large-scale 3D scene understanding datasets, which were off-limits for 3D scene graph learning before. Our experiments demonstrate that in contrast to recent point cloud-based pre-training approaches, our proposed pre-training improves the 3D scene graph prediction considerably, which results in SOTA performance, outperforming other 3D scene graph models by +10% on object prediction and +4% on relationship prediction. Additionally, we show that only using a small subset of 10% labeled data during fine-tuning is sufficient to outperform the same model without pre-training.

arxiv情報

著者 Sebastian Koch,Pedro Hermosilla,Narunas Vaskevicius,Mirco Colosi,Timo Ropinski
発行日 2023-09-27 14:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク