Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding

要約

タイトル:Swin3D:3D屋内シーン理解のためのPretrained Transformerバックボーン

要約:
– Pretrainedバックボーンが、2Dビジョンや自然言語処理タスクにおいて、タスク特化ネットワークに対して重要な利点を示しており、広く採用されている。
– 本論文では、{\SST}と呼ばれるPretrained 3Dバックボーンを提案し、従来の方法を上回る性能を発揮する。
– 我々のバックボーンネットワークは3D Swin transformerに基づいており、スパースなvoxel上で自己注意を効率的に実行し、一般化された相対位置の埋め込みを介して点信号の不規則性を捕捉するように細心の注意を払って設計されている。
– このバックボーンの設計に基づいて、Synthetic Structed3Dデータセットで大規模な{\SST}モデルのPretrainedを行い、いくつかのDownstream実世界屋内シーン理解タスクでPretrainedモデルをfine-tuningした。
– 結果は、SyntheticデータセットでPretrainedされたモデルが、実際の3DポイントデータセットにおけるDownstream segmentationやdetectionにおいても一般性を示し、また、下流タスクにおいて従来の手法を超えることを示しており、S3DIS Area5および6-fold semantic segmentationで+2.3 mIoU、+2.2 mIoU、ScanNet segmentation(val)で+2.1 mIoU、ScanNet detectionで+1.9 mAP@0.5、S3DIS detectionで+8.1 mAP@0.5の向上を実現している。
– 当社の方法は、Pretrained 3Dバックボーンのfine-tuningによる3D理解タスクにおける大きな可能性を示している。

要約(オリジナル)

Pretrained backbones with fine-tuning have been widely adopted in 2D vision and natural language processing tasks and demonstrated significant advantages to task-specific networks. In this paper, we present a pretrained 3D backbone, named {\SST}, which first outperforms all state-of-the-art methods in downstream 3D indoor scene understanding tasks. Our backbone network is based on a 3D Swin transformer and carefully designed to efficiently conduct self-attention on sparse voxels with linear memory complexity and capture the irregularity of point signals via generalized contextual relative positional embedding. Based on this backbone design, we pretrained a large {\SST} model on a synthetic Structed3D dataset that is 10 times larger than the ScanNet dataset and fine-tuned the pretrained model in various downstream real-world indoor scene understanding tasks. The results demonstrate that our model pretrained on the synthetic dataset not only exhibits good generality in both downstream segmentation and detection on real 3D point datasets, but also surpasses the state-of-the-art methods on downstream tasks after fine-tuning with +2.3 mIoU and +2.2 mIoU on S3DIS Area5 and 6-fold semantic segmentation, +2.1 mIoU on ScanNet segmentation (val), +1.9 mAP@0.5 on ScanNet detection, +8.1 mAP@0.5 on S3DIS detection. Our method demonstrates the great potential of pretrained 3D backbones with fine-tuning for 3D understanding tasks. The code and models are available at https://github.com/microsoft/Swin3D .

arxiv情報

著者 Yu-Qi Yang,Yu-Xiao Guo,Jian-Yu Xiong,Yang Liu,Hao Pan,Peng-Shuai Wang,Xin Tong,Baining Guo
発行日 2023-04-14 02:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク