FlatFormer: Flattened Window Attention for Efficient Point Cloud Transformer

要約

タイトル: FlatFormer:効率的なポイントクラウドトランスフォーマーのためのフラットウィンドウアテンション

要約:
– Transformerは、CNNの代替手段として、テキストや画像など多くのモダリティで有効性が証明されています。
– 3Dポイントクラウドトランスフォーマーに関する既存の取り組みは、主にその正確性を最新技術水準に引き上げることに焦点を当てています。
– しかしながら、彼らのレイテンシーは疎な畳み込みベースのモデルに遅れており(3倍遅い)、自律走行などのリソース制約、レイテンシーセンシティブなアプリケーションでの使用を妨げています。
– この効率性の低さは、ポイントクラウドの疎で不規則な性質に起因しており、一方、トランスフォーマーは密集した正則的なワークロードに設計されています。
– この論文では、空間的近接性をトレードオフにすることで計算の正則性を改善するために、FlatFormerを提案します。
– まず、ウィンドウベースのソートを使用してポイントクラウドを平らにし、ウィンドウ形状が等しい代わりに等しいサイズのグループにポイントを分割します。
– これにより、高価な構造化およびパディングのオーバーヘッドを回避できます。
– 次に、グループ内で自己注意を適用してローカルな特徴を抽出し、さまざまな方向からの特徴を収集するための代替ソート軸を適用し、ウィンドウをシフトしてグループ間で特徴を交換します。
– FlatFormerは、SST(トランスフォーマーベースの)に比べて4.6倍のスピードアップとCenterPoint(疎な畳み込み)に比べて1.4倍のスピードアップを実現しながら、Waymo Open Datasetで最新技術水準の精度を提供します。
– これは、エッジGPUでリアルタイム性能を実現し、大規模ベンチマークで同等または優れた精度を実現する最初のポイントクラウドトランスフォーマーです。

要約(オリジナル)

Transformer, as an alternative to CNN, has been proven effective in many modalities (e.g., texts and images). For 3D point cloud transformers, existing efforts focus primarily on pushing their accuracy to the state-of-the-art level. However, their latency lags behind sparse convolution-based models (3x slower), hindering their usage in resource-constrained, latency-sensitive applications (such as autonomous driving). This inefficiency comes from point clouds’ sparse and irregular nature, whereas transformers are designed for dense, regular workloads. This paper presents FlatFormer to close this latency gap by trading spatial proximity for better computational regularity. We first flatten the point cloud with window-based sorting and partition points into groups of equal sizes rather than windows of equal shapes. This effectively avoids expensive structuring and padding overheads. We then apply self-attention within groups to extract local features, alternate sorting axis to gather features from different directions, and shift windows to exchange features across groups. FlatFormer delivers state-of-the-art accuracy on Waymo Open Dataset with 4.6x speedup over (transformer-based) SST and 1.4x speedup over (sparse convolutional) CenterPoint. This is the first point cloud transformer that achieves real-time performance on edge GPUs and is faster than sparse convolutional methods while achieving on-par or even superior accuracy on large-scale benchmarks.

arxiv情報

著者 Zhijian Liu,Xinyu Yang,Haotian Tang,Shang Yang,Song Han
発行日 2023-03-30 13:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク