Inter-Frame Compression for Dynamic Point Cloud Geometry Coding

要約

効率的な点群圧縮は、仮想現実や複合現実、自律走行、文化遺産などのアプリケーションに不可欠である。本稿では、動的な点群ジオメトリ圧縮のための、ディープラーニングに基づくフレーム間符号化スキームを提案する。新しい特徴空間間予測ネットワークを採用することで、前のフレームを用いて現在のフレームの潜在表現を予測する、非可逆ジオメトリ圧縮スキームを提案する。提案するネットワークは、階層的マルチスケール3D特徴学習によるスパース畳み込みを利用し、前のフレームを用いて現在のフレームを符号化する。提案手法は、特徴領域における動き補償のための新しい予測ネットワークを導入し、前フレームの潜在表現を現フレームの座標にマッピングし、現フレームの特徴埋め込みを予測する。このフレームワークは、予測された特徴量の残差と実際の特徴量を、学習された確率的因数分解エントロピーモデルを用いて圧縮することで伝送する。受信側では、デコーダが特徴埋め込みを段階的に再スケーリングすることにより、現在のフレームを階層的に再構成する。提案するフレームワークを、Moving Picture Experts Group (MPEG)によって標準化された最先端のVideo-based Point Cloud Compression (V-PCC)とGeometry-based Point Cloud Compression (G-PCC)方式と比較する。提案方式は、G-PCCv20 Octreeに対して88%以上のBD-Rate(Bjontegaard Delta Rate)削減、G-PCCv20 Trisoupに対して56%以上のBD-Rate削減、V-PCCのイントラフレームエンコーディングモードに対して62%以上のBD-Rate削減、HEVCを使用したV-PCCのPフレームベースのフレーム間エンコーディングモードに対して52%以上のBD-Rate削減を達成した。これらの大幅な性能向上は、MPEGワーキンググループでクロスチェックされ、検証されています。

要約(オリジナル)

Efficient point cloud compression is essential for applications like virtual and mixed reality, autonomous driving, and cultural heritage. This paper proposes a deep learning-based inter-frame encoding scheme for dynamic point cloud geometry compression. We propose a lossy geometry compression scheme that predicts the latent representation of the current frame using the previous frame by employing a novel feature space inter-prediction network. The proposed network utilizes sparse convolutions with hierarchical multiscale 3D feature learning to encode the current frame using the previous frame. The proposed method introduces a novel predictor network for motion compensation in the feature domain to map the latent representation of the previous frame to the coordinates of the current frame to predict the current frame’s feature embedding. The framework transmits the residual of the predicted features and the actual features by compressing them using a learned probabilistic factorized entropy model. At the receiver, the decoder hierarchically reconstructs the current frame by progressively rescaling the feature embedding. The proposed framework is compared to the state-of-the-art Video-based Point Cloud Compression (V-PCC) and Geometry-based Point Cloud Compression (G-PCC) schemes standardized by the Moving Picture Experts Group (MPEG). The proposed method achieves more than 88% BD-Rate (Bjontegaard Delta Rate) reduction against G-PCCv20 Octree, more than 56% BD-Rate savings against G-PCCv20 Trisoup, more than 62% BD-Rate reduction against V-PCC intra-frame encoding mode, and more than 52% BD-Rate savings against V-PCC P-frame-based inter-frame encoding mode using HEVC. These significant performance gains are cross-checked and verified in the MPEG working group.

arxiv情報

著者 Anique Akhtar,Zhu Li,Geert Van der Auwera
発行日 2024-09-02 22:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM, eess.IV パーマリンク