要約
この論文は、注意メカニズム内で革新を追求することを目的としたものではありません。
代わりに、スケールの力を活用して、点群処理のコンテキスト内での精度と効率の間の既存のトレードオフを克服することに焦点を当てています。
3D 大規模表現学習の最近の進歩からインスピレーションを得て、私たちはモデルのパフォーマンスが複雑な設計よりもスケールによって影響を受けることを認識しています。
したがって、KNN による正確な近傍検索を点群の効率的な直列化近傍マッピングに置き換えるなど、スケーリング後の全体的なパフォーマンスに影響しない特定のメカニズムの精度よりも、単純さと効率を優先する Point Transformer V3 (PTv3) を紹介します。
特定のパターンで整理されています。
この原理により大幅なスケーリングが可能になり、効率を維持しながら受容野を 16 ポイントから 1024 ポイントに拡大します (前バージョンの PTv2 と比較して、処理速度が 3 倍、メモリ効率が 10 倍向上)。
PTv3 は、屋内と屋外の両方のシナリオにわたる 20 を超える下流タスクで最先端の結果を達成します。
PTv3 はマルチデータセットの共同トレーニングによってさらに強化され、これらの結果をより高いレベルに押し上げます。
要約(オリジナル)
This paper is not motivated to seek innovation within the attention mechanism. Instead, it focuses on overcoming the existing trade-offs between accuracy and efficiency within the context of point cloud processing, leveraging the power of scale. Drawing inspiration from recent advances in 3D large-scale representation learning, we recognize that model performance is more influenced by scale than by intricate design. Therefore, we present Point Transformer V3 (PTv3), which prioritizes simplicity and efficiency over the accuracy of certain mechanisms that are minor to the overall performance after scaling, such as replacing the precise neighbor search by KNN with an efficient serialized neighbor mapping of point clouds organized with specific patterns. This principle enables significant scaling, expanding the receptive field from 16 to 1024 points while remaining efficient (a 3x increase in processing speed and a 10x improvement in memory efficiency compared with its predecessor, PTv2). PTv3 attains state-of-the-art results on over 20 downstream tasks that span both indoor and outdoor scenarios. Further enhanced with multi-dataset joint training, PTv3 pushes these results to a higher level.
arxiv情報
著者 | Xiaoyang Wu,Li Jiang,Peng-Shuai Wang,Zhijian Liu,Xihui Liu,Yu Qiao,Wanli Ouyang,Tong He,Hengshuang Zhao |
発行日 | 2023-12-15 18:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google