Boosting Point-BERT by Multi-choice Tokens

要約

マスク言語モデリング (MLM) は、最も成功した自己教師付き事前トレーニング タスクの 1 つになりました。
その成功に触発された Point-BERT は、ポイント クラウドのパイオニアとして、大規模な注釈のないデータセットでポイント トランスフォーマーを事前トレーニングするためのマスク ポイント モデリング (MPM) を提案しました。
その優れたパフォーマンスにもかかわらず、言語と点群の固有の違いにより、点群のトークン化があいまいになる傾向があることがわかりました。
点群の場合、点群のトークン化のゴールド スタンダードは存在しません。
Point-BERT は個別の Variational AutoEncoder (dVAE) をトークナイザーとして使用しますが、意味的に類似したパッチに対して異なるトークン ID を生成し、意味的に異なるパッチに対して同じトークン ID を生成する場合があります。
上記の問題に取り組むために、マルチチョイス トークンを使用した事前トレーニング フレームワークである McP-BERT を提案します。
具体的には、Point-BERT のパッチ トークン ID に対する以前の単一選択制約を緩和し、監視として各パッチに複数選択トークン ID を提供します。
さらに、トランスフォーマーによって学習された高レベルのセマンティクスを利用して、監視信号をさらに洗練させます。
点群分類、少数ショット分類、およびパーツ セグメンテーション タスクに関する広範な実験により、この方法の優位性が実証されました。たとえば、事前トレーニング済みのトランスフォーマーは、ModelNet40 で 94.1% の精度を達成し、ScanObjectNN の最も厳しい設定で 84.28% の精度を達成し、新しい状態
– 少数ショット学習での最先端のパフォーマンス。
また、私たちの方法は、すべてのダウンストリーム タスクで Point-BERT のパフォーマンスを向上させるだけでなく、追加の計算オーバーヘッドをほとんど発生させないことも示しています。
コードは https://github.com/fukexue/McP-BERT で公開されます。

要約(オリジナル)

Masked language modeling (MLM) has become one of the most successful self-supervised pre-training task. Inspired by its success, Point-BERT, as a pioneer work in point cloud, proposed masked point modeling (MPM) to pre-train point transformer on large scale unanotated dataset. Despite its great performance, we find the inherent difference between language and point cloud tends to cause ambiguous tokenization for point cloud. For point cloud, there doesn’t exist a gold standard for point cloud tokenization. Point-BERT use a discrete Variational AutoEncoder (dVAE) as tokenizer, but it might generate different token ids for semantically-similar patches and generate the same token ids for semantically-dissimilar patches. To tackle above problem, we propose our McP-BERT, a pre-training framework with multi-choice tokens. Specifically, we ease the previous single-choice constraint on patch token ids in Point-BERT, and provide multi-choice token ids for each patch as supervision. Moreover, we utilitze the high-level semantics learned by transformer to further refine our supervision signals. Extensive experiments on point cloud classification, few-shot classification and part segmentation tasks demonstrate the superiority of our method, e.g., the pre-trained transformer achieves 94.1% accuracy on ModelNet40, 84.28% accuracy on the hardest setting of ScanObjectNN and new state-of-the-art performance on few-shot learning. We also demonstrate that our method not only improves the performance of Point-BERT on all downstream tasks, but also incurs almost no extra computational overhead. The code will be released in https://github.com/fukexue/McP-BERT.

arxiv情報

著者 Kexue Fu,Mingzhi Yuan,Manning Wang
発行日 2022-08-15 13:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク