Pix4Point: Image Pretrained Transformers for 3D Point Cloud Understanding

要約

Pure Transformer モデルは、自然言語処理とコンピューター ビジョンで目覚ましい成功を収めています。
ただし、Transformers の制限の 1 つは、大規模なトレーニング データが必要なことです。
3D 点群の領域では、大規模なデータセットの可用性が課題であり、3D タスク用の Transformer のトレーニングの問題を悪化させます。
この作業では、点群の理解のために多数の画像からの知識を利用することの効果を経験的に研究および調査します。
\textit{Pix4Point} と呼ばれるパイプラインを定式化します。これにより、画像ドメインで事前トレーニング済みの Transformer を利用して、下流の点群タスクを改善できます。
これは、3D ドメインに特化したトークナイザーとデコーダー レイヤーの助けを借りて、モダリティに依存しない純粋な Transformer バックボーンによって実現されます。
画像で事前トレーニングされた Transformer を使用して、ScanObjectNN、ShapeNetPart、および S3DIS ベンチマークでの 3D ポイント クラウド分類、パーツ セグメンテーション、およびセマンティック セグメンテーションのタスクで、それぞれ Pix4Point の大幅なパフォーマンス向上を観察しました。
私たちのコードとモデルは、\url{https://github.com/guochengqian/Pix4Point} で入手できます。

要約(オリジナル)

Pure Transformer models have achieved impressive success in natural language processing and computer vision. However, one limitation with Transformers is their need for large training data. In the realm of 3D point clouds, the availability of large datasets is a challenge, which exacerbates the issue of training Transformers for 3D tasks. In this work, we empirically study and investigate the effect of utilizing knowledge from a large number of images for point cloud understanding. We formulate a pipeline dubbed \textit{Pix4Point} that allows harnessing pretrained Transformers in the image domain to improve downstream point cloud tasks. This is achieved by a modality-agnostic pure Transformer backbone with the help of tokenizer and decoder layers specialized in the 3D domain. Using image-pretrained Transformers, we observe significant performance gains of Pix4Point on the tasks of 3D point cloud classification, part segmentation, and semantic segmentation on ScanObjectNN, ShapeNetPart, and S3DIS benchmarks, respectively. Our code and models are available at: \url{https://github.com/guochengqian/Pix4Point}.

arxiv情報

著者 Guocheng Qian,Xingdi Zhang,Abdullah Hamdi,Bernard Ghanem
発行日 2022-08-25 17:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク