Efficient LiDAR Point Cloud Geometry Compression Through Neighborhood Point Attention

要約

マルチスケール スパース テンソルの畳み込み表現は、高密度オブジェクト ポイント クラウドのジオメトリ コンポーネントの圧縮の占有確率を正確にモデル化する優れた効率性を実証しましたが、スパース LiDAR ポイント クラウド ジオメトリ (PCG) を表現する能力は大幅に制限されていました。
これは、1) 畳み込みの固定受容野では、極端に不均一に分散されたまばらな LiDAR ポイントをうまく特徴付けることができないためです。
2) 固定重みを使用した事前学習済みの畳み込みでは、入力に基づいて調整された情報を動的に取得するには不十分です。
したがって、この作業は、それらに取り組むための近隣ポイントアテンション(NPA)を提案します。ここでは、最初にk最近傍(kNN)を使用して適応ローカル近隣を構築します。
次に、自己注意メカニズムを活用して、この近隣内の情報を動的に集約します。
このような NPA は、幾何学的占有確率推定のためにクロススケールおよび同スケールの相関関係を最大限に活用するために NPAFormer として考案されています。
標準化された G-PCC を使用するアンカーと比較して、私たちの方法は、非可逆圧縮で 17% を超える BD レートの向上を実現し、SemanticKITTI および Ford データセットで一般的な LiDAR ポイント クラウドを使用して、可逆シナリオで 14% を超えるビットレートの削減を実現します。
Attention Optimized octree コーディング方法を使用する最先端の (SOTA) ソリューションと比較して、私たちのアプローチは、より優れた圧縮効率を示しながら、平均で約 640 倍のスピードアップで、はるかに少ないデコード ランタイムを必要とします。

要約(オリジナル)

Although convolutional representation of multiscale sparse tensor demonstrated its superior efficiency to accurately model the occupancy probability for the compression of geometry component of dense object point clouds, its capacity for representing sparse LiDAR point cloud geometry (PCG) was largely limited. This is because 1) fixed receptive field of the convolution cannot characterize extremely and unevenly distributed sparse LiDAR points very well; and 2) pretrained convolutions with fixed weights are insufficient to dynamically capture information conditioned on the input. This work therefore suggests the neighborhood point attention (NPA) to tackle them, where we first use k nearest neighbors (kNN) to construct adaptive local neighborhood; and then leverage the self-attention mechanism to dynamically aggregate information within this neighborhood. Such NPA is devised as a NPAFormer to best exploit cross-scale and same-scale correlations for geometric occupancy probability estimation. Compared with the anchor using standardized G-PCC, our method provides >17% BD-rate gains for lossy compression, and >14% bitrate reduction for lossless scenario using popular LiDAR point clouds in SemanticKITTI and Ford datasets. Compared with the state-of-the-art (SOTA) solution using attention optimized octree coding method, our approach requires much less decoding runtime with about 640 times speedup on average, while still presenting better compression efficiency.

arxiv情報

著者 Ruixiang Xue,Jianqiang Wang,Zhan Ma
発行日 2022-08-26 10:44:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク