Learning Disentangled Representations for Perceptual Point Cloud Quality Assessment via Mutual Information Minimization

要約

無参照点群品質評価 (NR-PCQA) は、参照用の元の品質の点群に依存せずに、点群の人間の知覚品質を客観的に評価することを目的としています。
仮想現実 (VR) や拡張現実 (AR) などの没入型メディア アプリケーションの急速な進歩により、その重要性はますます高まっています。
しかし、現在の NR-PCQA モデルは、単一ネットワーク内で点群コンテンツと歪み表現を無差別に学習しようとし、品質情報に対するそれらの明確な貢献を見落としています。
この問題に対処するために、NR-PCQA 用の新しいもつれ解除表現学習フレームワークである DisPA を提案します。
このフレームワークは、点群コンテンツの表現と歪みの間の相互情報 (MI) を最小限に抑えるために、デュアル ブランチもつれ解除ネットワークをトレーニングします。
具体的には、表現を完全に解きほぐすために、2 つのブランチは異なる哲学を採用しています。コンテンツ認識型エンコーダーはマスクされた自動エンコーディング戦略によって事前トレーニングされており、これによりエンコーダーは歪んだ点群のレンダリングされたイメージからセマンティック情報をキャプチャできます。
歪み認識エンコーダはミニパッチ マップを入力として受け取ります。これにより、エンコーダは低レベルの歪みパターンに集中するようになります。
さらに、MI 推定器を利用して実際の MI の厳密な上限を推定し、それをさらに最小化して明示的な表現のもつれの解消を実現します。
広範な実験結果は、DisPA が複数の PCQA データセットで最先端の方法よりも優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

No-Reference Point Cloud Quality Assessment (NR-PCQA) aims to objectively assess the human perceptual quality of point clouds without relying on pristine-quality point clouds for reference. It is becoming increasingly significant with the rapid advancement of immersive media applications such as virtual reality (VR) and augmented reality (AR). However, current NR-PCQA models attempt to indiscriminately learn point cloud content and distortion representations within a single network, overlooking their distinct contributions to quality information. To address this issue, we propose DisPA, a novel disentangled representation learning framework for NR-PCQA. The framework trains a dual-branch disentanglement network to minimize mutual information (MI) between representations of point cloud content and distortion. Specifically, to fully disentangle representations, the two branches adopt different philosophies: the content-aware encoder is pretrained by a masked auto-encoding strategy, which can allow the encoder to capture semantic information from rendered images of distorted point clouds; the distortion-aware encoder takes a mini-patch map as input, which forces the encoder to focus on low-level distortion patterns. Furthermore, we utilize an MI estimator to estimate the tight upper bound of the actual MI and further minimize it to achieve explicit representation disentanglement. Extensive experimental results demonstrate that DisPA outperforms state-of-the-art methods on multiple PCQA datasets.

arxiv情報

著者 Ziyu Shan,Yujie Zhang,Yipeng Liu,Yiling Xu
発行日 2024-11-12 17:05:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク