Learned Nonlinear Predictor for Critically Sampled 3D Point Cloud Attribute Compression

要約

体積測定アプローチによる 3D 点群属性圧縮を研究します。点群ジオメトリがエンコーダとデコーダの両方で既知であると仮定すると、連続属性関数 $f: \mathbb{R}^3 \mapsto \mathbb{R のパラメータ $\theta$
}$ は $\hat{\theta}$ に量子化されてエンコードされるため、既知の 3D 点で離散サンプル $f_{\hat{\theta}}(\mathbf{x}_i)$ を復元できます $\mathbf{
デコーダでの x}_i \in \mathbb{R}^3$。
具体的には、関数部分空間 $\mathcal{F}^{(p)}_{l_0} \subseteq \cdots \subseteq \mathcal{F}^{(p)}_L$ のネストされたシーケンスを考慮します。ここで $\mathcal
{F}_l^{(p)}$ は次数 $p$ の B スプライン基底関数にまたがる関数ファミリーです。$f_l^*$ は $\mathcal{F}_l^ への $f$ の射影です。
{(p)}$ はローパス係数 $F_l^*$ としてエンコードされ、$g_l^*$ は直交部分空間 $\mathcal{G}_l^{(p)}$ の残差関数です ($\
mathcal{G}_l^{(p)} \oplus \mathcal{F}_l^{(p)} = \mathcal{F}_{l+1}^{(p)}$) としてエンコードされ、high-
係数 $G_l^*$ を渡します。
この論文では、[1] よりも符号化パフォーマンスを向上させるために、レベル $l$ の $f_l^*$ と $G_l^ の符号化を考慮して、レベル $l+1$ で $f_{l+1}^*$ を予測することを研究します。
*$ は $p=1$ の場合 (RAHT($1$))。
予測のために、MPEG-PCCにおけるRAHT(1)線形予測を理論的枠組みで定式化し、バイラテラルフィルタの多項式を使用する新しい非線形予測器を提案します。
エンコードに適したクリティカルにサンプリングされたハイパス係数 $G_l^*$ を効率的に計算する方程式を導き出します。
レート歪みラグランジアンを最小限に抑えることで、点群の大規模なトレーニング セット上で得られるフィードフォワード ネットワークのパラメーターを最適化します。
実験結果は、改良されたフレームワークが MPEG G-PCC 予測器よりもビット レート削減において $11$ ~ $12\%$ 優れていることを示しています。

要約(オリジナル)

We study 3D point cloud attribute compression via a volumetric approach: assuming point cloud geometry is known at both encoder and decoder, parameters $\theta$ of a continuous attribute function $f: \mathbb{R}^3 \mapsto \mathbb{R}$ are quantized to $\hat{\theta}$ and encoded, so that discrete samples $f_{\hat{\theta}}(\mathbf{x}_i)$ can be recovered at known 3D points $\mathbf{x}_i \in \mathbb{R}^3$ at the decoder. Specifically, we consider a nested sequences of function subspaces $\mathcal{F}^{(p)}_{l_0} \subseteq \cdots \subseteq \mathcal{F}^{(p)}_L$, where $\mathcal{F}_l^{(p)}$ is a family of functions spanned by B-spline basis functions of order $p$, $f_l^*$ is the projection of $f$ on $\mathcal{F}_l^{(p)}$ and encoded as low-pass coefficients $F_l^*$, and $g_l^*$ is the residual function in orthogonal subspace $\mathcal{G}_l^{(p)}$ (where $\mathcal{G}_l^{(p)} \oplus \mathcal{F}_l^{(p)} = \mathcal{F}_{l+1}^{(p)}$) and encoded as high-pass coefficients $G_l^*$. In this paper, to improve coding performance over [1], we study predicting $f_{l+1}^*$ at level $l+1$ given $f_l^*$ at level $l$ and encoding of $G_l^*$ for the $p=1$ case (RAHT($1$)). For the prediction, we formalize RAHT(1) linear prediction in MPEG-PCC in a theoretical framework, and propose a new nonlinear predictor using a polynomial of bilateral filter. We derive equations to efficiently compute the critically sampled high-pass coefficients $G_l^*$ amenable to encoding. We optimize parameters in our resulting feed-forward network on a large training set of point clouds by minimizing a rate-distortion Lagrangian. Experimental results show that our improved framework outperformed the MPEG G-PCC predictor by $11$ to $12\%$ in bit rate reduction.

arxiv情報

著者 Tam Thuc Do,Philip A. Chou,Gene Cheung
発行日 2023-11-22 17:26:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.IV, eess.SP パーマリンク