SPAC: Sampling-based Progressive Attribute Compression for Dense Point Clouds

要約

高密度点群に対するエンドツーエンドの属性圧縮方法を提案します。
提案された方法は、周波数サンプリング モジュール、幾何学支援を備えた適応スケール特徴抽出モジュール、およびグローバル超事前エントロピー モデルを組み合わせています。
周波数サンプリング モジュールは、ハミング ウィンドウと高速フーリエ変換を使用して、点群の高周波成分を抽出します。
元の点群とサンプリングされた点群の差は、複数のサブ点群に分割されます。
これらのサブ点群はオクツリーを使用して分割され、特徴抽出のための構造化された入力が提供されます。
特徴抽出モジュールは適応畳み込み層を統合し、オフセット注意を使用してローカル特徴とグローバル特徴の両方をキャプチャします。
次に、ジオメトリ支援属性フィーチャ改良モジュールを使用して、抽出された属性フィーチャを改良します。
最後に、エントロピー符号化のためにグローバル超事前モデルが導入されます。
このモデルは、ハイパープリア パラメーターを最も深い (ベース) レイヤーから他のレイヤーに伝播し、エンコード効率をさらに高めます。
デコーダでは、ミラーリングされたネットワークを使用して、特徴を段階的に復元し、転置された畳み込み層を通じて色属性を再構築します。
提案された方法は、ベースレイヤ情報を低ビットレートでエンコードし、エンハンスメントレイヤ情報を段階的に追加して再構成精度を向上させます。
MPEG 共通テスト条件 (CTC) の下での最新の G-PCC テスト モデル (TMC13v23) と比較して、提案された方法は、MPEG カテゴリで Y コンポーネントについて 24.58% (YUV を合わせた場合は 21.23%) の平均 Bjontegaard デルタ ビットレート削減を達成しました。
MPEG カテゴリの高密度データセット上のソリッド データセットと Y コンポーネントの 22.48% (YUV を合わせた 17.19%)。
これは、MPEG CTC に基づくこれらのデータセットで G-PCC 標準を上回る学習ベースのコーデックの最初の例です。

要約(オリジナル)

We propose an end-to-end attribute compression method for dense point clouds. The proposed method combines a frequency sampling module, an adaptive scale feature extraction module with geometry assistance, and a global hyperprior entropy model. The frequency sampling module uses a Hamming window and the Fast Fourier Transform to extract high-frequency components of the point cloud. The difference between the original point cloud and the sampled point cloud is divided into multiple sub-point clouds. These sub-point clouds are then partitioned using an octree, providing a structured input for feature extraction. The feature extraction module integrates adaptive convolutional layers and uses offset-attention to capture both local and global features. Then, a geometry-assisted attribute feature refinement module is used to refine the extracted attribute features. Finally, a global hyperprior model is introduced for entropy encoding. This model propagates hyperprior parameters from the deepest (base) layer to the other layers, further enhancing the encoding efficiency. At the decoder, a mirrored network is used to progressively restore features and reconstruct the color attribute through transposed convolutional layers. The proposed method encodes base layer information at a low bitrate and progressively adds enhancement layer information to improve reconstruction accuracy. Compared to the latest G-PCC test model (TMC13v23) under the MPEG common test conditions (CTCs), the proposed method achieved an average Bjontegaard delta bitrate reduction of 24.58% for the Y component (21.23% for YUV combined) on the MPEG Category Solid dataset and 22.48% for the Y component (17.19% for YUV combined) on the MPEG Category Dense dataset. This is the first instance of a learning-based codec outperforming the G-PCC standard on these datasets under the MPEG CTCs.

arxiv情報

著者 Xiaolong Mao,Hui Yuan,Tian Guo,Shiqi Jiang,Raouf Hamzaoui,Sam Kwong
発行日 2024-09-16 13:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク