SGFormer: Semantic Graph Transformer for Point Cloud-based 3D Scene Graph Generation

要約

この論文では、点群ベースの 3D シーン グラフ生成のための SGFormer、Semantic Graph TransFormer と呼ばれる新しいモデルを提案します。
このタスクは、点群ベースのシーンを解析して意味論的な構造グラフを作成することを目的としており、複雑なグローバル構造をモデル化するという中核的な課題を抱えています。
グラフ畳み込みネットワーク (GCN) に基づく既存の方法は、過度の平滑化のジレンマに悩まされており、限られた隣接ノードからしか情報を伝播できません。
対照的に、SGFormer は、3D シーン グラフ生成タスクに合わせて調整された 2 種類の新しく設計されたレイヤーを使用して、グローバル情報の受け渡しを可能にする基本ビルディング ブロックとして Transformer レイヤーを使用します。
具体的には、同等の計算コストを維持しながら、グラフエッジのグローバル情報を最大限に活用するために、グラフ埋め込み層を導入します。
さらに、大規模言語モデル (つまり、ChatGPT) からの言語知識を活用して、オブジェクトの視覚的特徴を強化するセマンティック インジェクション レイヤーを提案します。
確立された 3DSSG データセットで SGFormer をベンチマークし、関係予測の R@50 で 40.94% の絶対的な改善と、複雑なシーンを含むサブセットで最先端のものと比較して 88.36% の向上を達成しました。
私たちの分析では、ロングテールとゼロショットのシナリオにおける SGFormer の優位性がさらに示されています。
私たちのソースコードは https://github.com/Andy20178/SGFormer で入手できます。

要約(オリジナル)

In this paper, we propose a novel model called SGFormer, Semantic Graph TransFormer for point cloud-based 3D scene graph generation. The task aims to parse a point cloud-based scene into a semantic structural graph, with the core challenge of modeling the complex global structure. Existing methods based on graph convolutional networks (GCNs) suffer from the over-smoothing dilemma and can only propagate information from limited neighboring nodes. In contrast, SGFormer uses Transformer layers as the base building block to allow global information passing, with two types of newly-designed layers tailored for the 3D scene graph generation task. Specifically, we introduce the graph embedding layer to best utilize the global information in graph edges while maintaining comparable computation costs. Furthermore, we propose the semantic injection layer to leverage linguistic knowledge from large-scale language model (i.e., ChatGPT), to enhance objects’ visual features. We benchmark our SGFormer on the established 3DSSG dataset and achieve a 40.94% absolute improvement in relationship prediction’s R@50 and an 88.36% boost on the subset with complex scenes over the state-of-the-art. Our analyses further show SGFormer’s superiority in the long-tail and zero-shot scenarios. Our source code is available at https://github.com/Andy20178/SGFormer.

arxiv情報

著者 Changsheng Lv,Mengshi Qi,Xia Li,Zhengyuan Yang,Huadong Ma
発行日 2023-12-20 14:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク