Lossless Compression of Point Cloud Sequences Using Sequence Optimized CNN Models

要約

点群シーケンスのジオメトリをエンコードするための新しいパラダイムを提案します。ここで、エンコード分布を推定する畳み込みニューラルネットワーク(CNN)は、圧縮されるシーケンスのいくつかのフレームで最適化されます。
軽量のCNN構造を採用し、エンコードプロセスの一部としてトレーニングを実行し、CNNパラメーターをビットストリームの一部として送信します。
新しく提案されたエンコード方式は、各ポイントクラウドの八分木表現で動作し、各八分木解像度レイヤーを連続してエンコードします。
すべての八分木解像度レイヤーで、ボクセルグリッドはセクションごとにトラバースされ(各セクションは選択された座標軸に垂直)、各セクションで2行2列のボクセルのグループの占有率が1つに一度にエンコードされます。
算術符号化演算。
条件付きエンコーディング分布のコンテキストは、オクツリーの現在および低解像度のレイヤーでの隣接ボクセルの占有について入手可能な情報に基づいて、ボクセルの2行2列のグループごとに定義されます。
CNNは、4つのフェーズの1つのセクションから、すべてのボクセルグループの占有パターンの確率分布を推定します。
新しいフェーズごとに、コンテキストは前のフェーズでエンコードされた占有率で更新され、各フェーズは並列で確率を推定し、処理の並列処理とコンテキストの有益性の間の合理的なトレードオフを提供します。
CNNトレーニング時間は、残りのエンコードステップで費やされた時間に匹敵し、全体的なエンコード時間の競争につながります。
ビットレートとエンコード/デコード時間は、最近公開された圧縮スキームのものと比べて遜色ありません。

要約(オリジナル)

We propose a new paradigm for encoding the geometry of point cloud sequences, where the convolutional neural network (CNN) which estimates the encoding distributions is optimized on several frames of the sequence to be compressed. We adopt lightweight CNN structures, we perform training as part of the encoding process, and the CNN parameters are transmitted as part of the bitstream. The newly proposed encoding scheme operates on the octree representation for each point cloud, encoding consecutively each octree resolution layer. At every octree resolution layer, the voxel grid is traversed section-by-section (each section being perpendicular to a selected coordinate axis) and in each section the occupancies of groups of two-by-two voxels are encoded at once, in a single arithmetic coding operation. A context for the conditional encoding distribution is defined for each two-by-two group of voxels, based on the information available about the occupancy of neighbor voxels in the current and lower resolution layers of the octree. The CNN estimates the probability distributions of occupancy patterns of all voxel groups from one section in four phases. In each new phase the contexts are updated with the occupancies encoded in the previous phase, and each phase estimates the probabilities in parallel, providing a reasonable trade-off between the parallelism of processing and the informativeness of the contexts. The CNN training time is comparable to the time spent in the remaining encoding steps, leading to competitive overall encoding times. Bitrates and encoding-decoding times compare favorably with those of recently published compression schemes.

arxiv情報

著者 Emre Can Kaya,Ioan Tabus
発行日 2022-06-02 20:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク