Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding

要約

近年、ビューベースの 3D 形状認識手法の結果は飽和しており、パラメーターのサイズが膨大であるため、優れたパフォーマンスのモデルをメモリに制限されたデバイスに展開することができません。
この問題に対処するために、このフィールドの知識蒸留に基づく圧縮方法を導入します。これにより、モデルのパフォーマンスを可能な限り維持しながらパラメータの数を大幅に削減できます。
具体的には、小型モデルの機能を強化するために、Group Multi-view Vision Transformer (GMViT) と呼ばれる高性能の大型モデルを設計します。
GMViT では、ビューレベルの ViT が最初にビューレベルの機能間の関係を確立します。
さらに、より深い特徴を捉えるために、グループ化モジュールを使用して、ビューレベルの特徴をグループレベルの特徴に強化します。
最後に、グループ レベルの ViT は、グループ レベルの特徴を完全な整形式の 3D 形状記述子に集約します。
特に、どちらの ViT でも、革新的な位置埋め込みとしてカメラ座標の空間エンコーディングを導入しています。
さらに、GMViT に基づく 2 つの圧縮バージョン、すなわち GMViT-simple と GMViT-mini を提案します。
小規模モデルのトレーニング効果を高めるために、GMViT プロセス全体に知識蒸留手法を導入し、各 GMViT コンポーネントの主要な出力が蒸留ターゲットとして機能します。
広範な実験により、提案された方法の有効性が実証されています。
大規模モデル GMViT は、ベンチマーク データセット ModelNet、ShapeNetCore55、および MCB で優れた 3D 分類および検索結果を達成します。
より小さいモデルである GMViT-simple と GMViT-mini は、分類と検索のパフォーマンスを少なくとも 90% 維持しながら、パラメーター サイズをそれぞれ 8 倍と 17.6 倍削減し、形状認識速度を平均 1.5 倍向上させます。

要約(オリジナル)

In recent years, the results of view-based 3D shape recognition methods have saturated, and models with excellent performance cannot be deployed on memory-limited devices due to their huge size of parameters. To address this problem, we introduce a compression method based on knowledge distillation for this field, which largely reduces the number of parameters while preserving model performance as much as possible. Specifically, to enhance the capabilities of smaller models, we design a high-performing large model called Group Multi-view Vision Transformer (GMViT). In GMViT, the view-level ViT first establishes relationships between view-level features. Additionally, to capture deeper features, we employ the grouping module to enhance view-level features into group-level features. Finally, the group-level ViT aggregates group-level features into complete, well-formed 3D shape descriptors. Notably, in both ViTs, we introduce spatial encoding of camera coordinates as innovative position embeddings. Furthermore, we propose two compressed versions based on GMViT, namely GMViT-simple and GMViT-mini. To enhance the training effectiveness of the small models, we introduce a knowledge distillation method throughout the GMViT process, where the key outputs of each GMViT component serve as distillation targets. Extensive experiments demonstrate the efficacy of the proposed method. The large model GMViT achieves excellent 3D classification and retrieval results on the benchmark datasets ModelNet, ShapeNetCore55, and MCB. The smaller models, GMViT-simple and GMViT-mini, reduce the parameter size by 8 and 17.6 times, respectively, and improve shape recognition speed by 1.5 times on average, while preserving at least 90% of the classification and retrieval performance.

arxiv情報

著者 Lixiang Xu,Qingzhe Cui,Richang Hong,Wei Xu,Enhong Chen,Xin Yuan,Chenglong Li,Yuanyan Tang
発行日 2023-12-30 08:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68, cs.AI, cs.CV, I.2.10 パーマリンク