Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling

要約

我々は、BERTの概念を3次元点群に一般化するための、Transformer学習の新しいパラダイムであるPoint-BERTを発表する。BERTに触発され、我々は点群Transformerを事前学習するために、マスクドポイントモデリング(MPM)タスクを考案する。具体的には、まず点群をいくつかの局所点パッチに分割し、意味のある局所情報を含む離散点トークンを生成するために、離散変分オートエンコーダ(dVAE)を持つ点群トーケナイザを設計する。そして、入力点群のいくつかのパッチをランダムにマスクアウトし、バックボーンのTransformerに供給する。事前学習の目的は、トークン化器によって得られた点トークンの監視のもと、マスクされた位置で元の点トークンを回復することである。提案するBERT形式の事前学習法は、標準的な点群変換器の性能を大幅に向上させることが、広範な実験により実証されている。我々の提案する事前学習法を備えた純粋なTransformerアーキテクチャは、ModelNet40において93.8%の精度、ScanObjectNNの最も難しい設定において83.1%の精度を達成し、手作業で設計した点群モデルよりもはるかに少ない人数で、慎重に設計した点群モデルを上回ることを示しています。また、Point-BERTで学習した表現が新しいタスクやドメインにうまく移行することを示し、我々のモデルが数ショットの点群分類タスクの最先端を大きく前進させることを実証しています。コードと事前学習済みモデルは、https://github.com/lulutang0608/Point-BERT で入手可能です。

要約(オリジナル)

We present Point-BERT, a new paradigm for learning Transformers to generalize the concept of BERT to 3D point cloud. Inspired by BERT, we devise a Masked Point Modeling (MPM) task to pre-train point cloud Transformers. Specifically, we first divide a point cloud into several local point patches, and a point cloud Tokenizer with a discrete Variational AutoEncoder (dVAE) is designed to generate discrete point tokens containing meaningful local information. Then, we randomly mask out some patches of input point clouds and feed them into the backbone Transformers. The pre-training objective is to recover the original point tokens at the masked locations under the supervision of point tokens obtained by the Tokenizer. Extensive experiments demonstrate that the proposed BERT-style pre-training strategy significantly improves the performance of standard point cloud Transformers. Equipped with our pre-training strategy, we show that a pure Transformer architecture attains 93.8% accuracy on ModelNet40 and 83.1% accuracy on the hardest setting of ScanObjectNN, surpassing carefully designed point cloud models with much fewer hand-made designs. We also demonstrate that the representations learned by Point-BERT transfer well to new tasks and domains, where our models largely advance the state-of-the-art of few-shot point cloud classification task. The code and pre-trained models are available at https://github.com/lulutang0608/Point-BERT

arxiv情報

著者 Xumin Yu,Lulu Tang,Yongming Rao,Tiejun Huang,Jie Zhou,Jiwen Lu
発行日 2022-06-06 07:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク