Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud Understanding

要約

Transformersは自然言語処理やコンピュータビジョンでは目覚ましい成功を収めているが、3D点群に対する性能は比較的低い。これは主にTransformersの限界によるもので、膨大な学習データを必要とする。残念ながら、3D点群の領域では、大規模なデータセットの入手が困難であり、3DタスクのためのTransformerの学習の問題を悪化させている。すなわち、(i)Transformerのデータ依存性を低減するために、より帰納的なバイアスを導入すること、(ii)クロスモダリティ事前学習に依存すること、である。具体的には、まずプログレッシブポイントパッチ埋め込み(Progressive Point Patch Embedding)を紹介し、新しい点群変換器モデルPViTを紹介する。PViTはTransformerと同じバックボーンを共有するが、データに対する飢えが少ないことが示され、Transformerが最先端技術に匹敵する性能を達成することを可能にする。第二に、我々は「Pix4Point」と呼ばれるシンプルで効果的なパイプラインを構築し、画像領域で事前学習されたTransformerを活用することで、下流の点群理解を向上させる。これは、異なるドメインに特化したトークナイザーとデコーダーの助けを借りて、モダリティにとらわれないTransformerバックボーンによって達成される。広く利用可能な多数の画像で事前学習した結果、ScanObjectNN、ShapeNetPart、S3DISの3D点群分類、パーツ分割、セマンティック分割の各タスクで、PViTの大幅な向上が確認された。我々のコードとモデルは、https://github.com/guochengqian/Pix4Point で利用可能です。

要約(オリジナル)

While Transformers have achieved impressive success in natural language processing and computer vision, their performance on 3D point clouds is relatively poor. This is mainly due to the limitation of Transformers: a demanding need for extensive training data. Unfortunately, in the realm of 3D point clouds, the availability of large datasets is a challenge, exacerbating the issue of training Transformers for 3D tasks. In this work, we solve the data issue of point cloud Transformers from two perspectives: (i) introducing more inductive bias to reduce the dependency of Transformers on data, and (ii) relying on cross-modality pretraining. More specifically, we first present Progressive Point Patch Embedding and present a new point cloud Transformer model namely PViT. PViT shares the same backbone as Transformer but is shown to be less hungry for data, enabling Transformer to achieve performance comparable to the state-of-the-art. Second, we formulate a simple yet effective pipeline dubbed ‘Pix4Point’ that allows harnessing Transformers pretrained in the image domain to enhance downstream point cloud understanding. This is achieved through a modality-agnostic Transformer backbone with the help of a tokenizer and decoder specialized in the different domains. Pretrained on a large number of widely available images, significant gains of PViT are observed in the tasks of 3D point cloud classification, part segmentation, and semantic segmentation on ScanObjectNN, ShapeNetPart, and S3DIS, respectively. Our code and models are available at https://github.com/guochengqian/Pix4Point .

arxiv情報

著者 Guocheng Qian,Abdullah Hamdi,Xingdi Zhang,Bernard Ghanem
発行日 2024-02-02 12:21:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク