GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting

要約

暗黙的ニューラル表現 (INR) は最近、画像表現と圧縮において大きな成功を収め、十分な GPU リソースが利用可能であることを前提として、高いビジュアル品質と 10 ~ 1000 FPS の高速レンダリング速度を提供します。
ただし、この要件により、メモリが限られたローエンド デバイスでの使用が妨げられることがよくあります。
これに応えて、我々は、GaussianImage という 2D ガウス スプラッティングによる画像表現と圧縮の画期的なパラダイムを提案します。
まず、画像を表すために 2D ガウスを導入します。各ガウスには、位置、共分散、色を含む 8 つのパラメーターがあります。
続いて、累積加算に基づく新しいレンダリング アルゴリズムを発表します。
驚くべきことに、GPU メモリ使用量が少なくとも 3$\times$ 低く、フィッティング時間が 5$\times$ 速いこの手法は、表現パフォーマンスにおいて INR (WIRE、I-NGP など) に匹敵するだけでなく、より高速なレンダリング速度も実現します。
パラメータのサイズに関係なく、1500 ~ 2000 FPS です。
さらに、既存のベクトル量子化技術を統合して画像コーデックを構築します。
実験結果は、当社のコーデックが COIN や COIN++ などの圧縮ベースの INR に匹敵するレート歪みパフォーマンスを達成しながら、約 2000 FPS のデコード速度を促進することを示しています。
さらに、予備的な概念実証では、部分ビットバック コーディングを使用した場合、当社のコーデックがパフォーマンスで COIN および COIN++ を上回ることが示されています。
コードは https://github.com/Xinjie-Q/GaussianImage で入手できます。

要約(オリジナル)

Implicit neural representations (INRs) recently achieved great success in image representation and compression, offering high visual quality and fast rendering speeds with 10-1000 FPS, assuming sufficient GPU resources are available. However, this requirement often hinders their use on low-end devices with limited memory. In response, we propose a groundbreaking paradigm of image representation and compression by 2D Gaussian Splatting, named GaussianImage. We first introduce 2D Gaussian to represent the image, where each Gaussian has 8 parameters including position, covariance and color. Subsequently, we unveil a novel rendering algorithm based on accumulated summation. Remarkably, our method with a minimum of 3$\times$ lower GPU memory usage and 5$\times$ faster fitting time not only rivals INRs (e.g., WIRE, I-NGP) in representation performance, but also delivers a faster rendering speed of 1500-2000 FPS regardless of parameter size. Furthermore, we integrate existing vector quantization technique to build an image codec. Experimental results demonstrate that our codec attains rate-distortion performance comparable to compression-based INRs such as COIN and COIN++, while facilitating decoding speeds of approximately 2000 FPS. Additionally, preliminary proof of concept shows that our codec surpasses COIN and COIN++ in performance when using partial bits-back coding. Code is available at https://github.com/Xinjie-Q/GaussianImage.

arxiv情報

著者 Xinjie Zhang,Xingtong Ge,Tongda Xu,Dailan He,Yan Wang,Hongwei Qin,Guo Lu,Jing Geng,Jun Zhang
発行日 2024-07-09 15:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV パーマリンク