PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture

要約

近年、Transformer アーキテクチャに基づく点群解析手法は、特に 3D モデリング、仮想現実、自律システムなどのマルチメディア アプリケーションのコンテキストにおいて大幅な進歩を遂げました。
ただし、Transformer アーキテクチャには高い計算リソースの要求があるため、そのスケーラビリティ、リアルタイム処理機能、および計算リソースが限られているモバイル デバイスやその他のプラットフォームへの展開が妨げられます。
この制限は、オンデバイス インテリジェンスとマルチメディア処理を必要とするシナリオでの実際の適用にとって依然として大きな障害となっています。
この課題に対処するために、私たちは効率的な点群解析アーキテクチャ \textbf{Point} \textbf{M}LP-\textbf{T}ransformer (PointMT) を提案します。
この研究は、効果的な特徴集約のための線形複雑性ローカル アテンション メカニズムを導入することにより、セルフ アテンション メカニズムの二次複雑性に取り組んでいます。
さらに、Transformer がチャネルの違いを無視してトークンの違いに重点を置くことに対抗するために、各チャネルのアテンションの重み分布を適応的に調整するパラメータフリーのチャネル温度適応メカニズムを導入し、特徴集約の精度を高めます。
点群データセットのスケールが限られているために Transformer の収束速度が遅いことを改善するために、モデルの収束速度を大幅に向上させる MLP-Transformer ハイブリッド モジュールを提案します。
さらに、ポイント トークンの特徴表現能力を強化するために、分類ヘッドを改良し、ポイント トークンが予測に直接参加できるようにしました。
複数の評価ベンチマークに関する実験結果は、PointMT がパフォーマンスと精度の最適なバランスを維持しながら、最先端の手法に匹敵するパフォーマンスを達成していることを示しています。

要約(オリジナル)

In recent years, point cloud analysis methods based on the Transformer architecture have made significant progress, particularly in the context of multimedia applications such as 3D modeling, virtual reality, and autonomous systems. However, the high computational resource demands of the Transformer architecture hinder its scalability, real-time processing capabilities, and deployment on mobile devices and other platforms with limited computational resources. This limitation remains a significant obstacle to its practical application in scenarios requiring on-device intelligence and multimedia processing. To address this challenge, we propose an efficient point cloud analysis architecture, \textbf{Point} \textbf{M}LP-\textbf{T}ransformer (PointMT). This study tackles the quadratic complexity of the self-attention mechanism by introducing a linear complexity local attention mechanism for effective feature aggregation. Additionally, to counter the Transformer’s focus on token differences while neglecting channel differences, we introduce a parameter-free channel temperature adaptation mechanism that adaptively adjusts the attention weight distribution in each channel, enhancing the precision of feature aggregation. To improve the Transformer’s slow convergence speed due to the limited scale of point cloud datasets, we propose an MLP-Transformer hybrid module, which significantly enhances the model’s convergence speed. Furthermore, to boost the feature representation capability of point tokens, we refine the classification head, enabling point tokens to directly participate in prediction. Experimental results on multiple evaluation benchmarks demonstrate that PointMT achieves performance comparable to state-of-the-art methods while maintaining an optimal balance between performance and accuracy.

arxiv情報

著者 Qiang Zheng,Chao Zhang,Jian Sun
発行日 2024-09-16 16:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク