Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification

要約

現在のマルチメディアの黄金時代では、人間の視覚化はもはや単一の主要なターゲットではなくなり、最終消費者は多くの場合、何らかの処理またはコンピューター ビジョン タスクを実行するマシンになります。
どちらの場合も、深層学習はマルチメディア表現データから特徴を抽出する上で基本的な役割を果たし、通常は潜在表現と呼ばれる圧縮表現を生成します。
幅広いマルチメディア アプリケーションにおけるディープ ラーニング ベースのソリューションの開発と採用の増加により、共通の圧縮マルチメディア表現が人間と機械の両方に使用されるという刺激的な新しいビジョンが開かれました。
このビジョンの主な利点は 2 つあります。i) コーディングによるアーティファクトの影響が軽減されるため、コンピュータ ビジョン タスクのパフォーマンスが向上します。
ii) 事前のデコードが必要ないため、計算の複雑さが軽減されます。
この論文では、利用可能な時空間コンピュータ ビジョン プロセッサとのアーキテクチャおよび重みの互換性によって駆動される圧縮ドメイン コンピュータ ビジョン ソリューションを設計するための最初の分類法を提案します。
提案された分類法の可能性は、開発中の JPEG Pleno 点群コーディング標準と PointGrid 分類器の適応を使用して新しい圧縮ドメイン プロセッサを設計することにより、点群分類の特定のケースに対して実証されます。
実験結果は、設計された圧縮ドメイン点群分類ソリューションが、コーディングアーティファクトを含む解凍されたデータに適用された場合、時空間ドメイン分類ベンチマークを大幅に上回り、元の非圧縮データに適用された場合のパフォーマンスを上回る可能性があることを示しています。

要約(オリジナル)

In the current golden age of multimedia, human visualization is no longer the single main target, with the final consumer often being a machine which performs some processing or computer vision tasks. In both cases, deep learning plays a undamental role in extracting features from the multimedia representation data, usually producing a compressed representation referred to as latent representation. The increasing development and adoption of deep learning-based solutions in a wide area of multimedia applications have opened an exciting new vision where a common compressed multimedia representation is used for both man and machine. The main benefits of this vision are two-fold: i) improved performance for the computer vision tasks, since the effects of coding artifacts are mitigated; and ii) reduced computational complexity, since prior decoding is not required. This paper proposes the first taxonomy for designing compressed domain computer vision solutions driven by the architecture and weights compatibility with an available spatio-temporal computer vision processor. The potential of the proposed taxonomy is demonstrated for the specific case of point cloud classification by designing novel compressed domain processors using the JPEG Pleno Point Cloud Coding standard under development and adaptations of the PointGrid classifier. Experimental results show that the designed compressed domain point cloud classification solutions can significantly outperform the spatial-temporal domain classification benchmarks when applied to the decompressed data, containing coding artifacts, and even surpass their performance when applied to the original uncompressed data.

arxiv情報

著者 Abdelrahman Seleem,André F. R. Guarda,Nuno M. M. Rodrigues,Fernando Pereira
発行日 2023-11-17 15:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク