要約
多層パーセプトロン (MLP) の連続表現機能を備えた暗黙的ニューラル表現 (INR) は、任意スケールの超解像 (ASR) にうまく採用されています。
ただし、MLP の線形層の限られた受容野により INR の表現能力が制限される一方、各ピクセルをレンダリングするために MLP に何度もクエリを実行するのは計算コストが高くなります。
最近、ガウス スプラッティング (GS) は、3D タスクにおける視覚的品質とレンダリング速度の両方において INR よりも優れていることが示されており、ASR タスクに GS を採用できるかどうかを検討する動機となっています。
ただし、GS を ASR に直接適用することは非常に困難です。元の GS は各単一シーンのオーバーフィッティングによる最適化ベースの手法であるのに対し、ASR では、さまざまな画像やスケーリング係数に一般化できる単一のモデルを学習することを目的としています。
私たちは 2 つの新しい技術を開発することでこれらの課題を克服しました。
まず、ASR 用の GS を一般化するために、入力低解像度画像の対応する画像条件付きガウス分布をフィードフォワード方式で予測するためのアーキテクチャを入念に設計します。
次に、効率的な微分可能な 2D GPU/CUDA ベースのスケールアウェア ラスタライゼーションを実装し、予測された連続ガウスから離散 RGB 値をサンプリングすることで超解像度画像をレンダリングします。
エンドツーエンドのトレーニングを通じて、当社の最適化されたネットワーク、つまり GSASR は、あらゆる画像および目に見えないスケーリング係数に対して ASR を実行できます。
広範な実験により、私たちが提案した方法の有効性が検証されています。
プロジェクト ページは \url{https://mt-cly.github.io/GSASR.github.io/} にあります。
要約(オリジナル)
Equipped with the continuous representation capability of Multi-Layer Perceptron (MLP), Implicit Neural Representation (INR) has been successfully employed for Arbitrary-scale Super-Resolution (ASR). However, the limited receptive field of the linear layers in MLP restricts the representation capability of INR, while it is computationally expensive to query the MLP numerous times to render each pixel. Recently, Gaussian Splatting (GS) has shown its advantages over INR in both visual quality and rendering speed in 3D tasks, which motivates us to explore whether GS can be employed for the ASR task. However, directly applying GS to ASR is exceptionally challenging because the original GS is an optimization-based method through overfitting each single scene, while in ASR we aim to learn a single model that can generalize to different images and scaling factors. We overcome these challenges by developing two novel techniques. Firstly, to generalize GS for ASR, we elaborately design an architecture to predict the corresponding image-conditioned Gaussians of the input low-resolution image in a feed-forward manner. Secondly, we implement an efficient differentiable 2D GPU/CUDA-based scale-aware rasterization to render super-resolved images by sampling discrete RGB values from the predicted contiguous Gaussians. Via end-to-end training, our optimized network, namely GSASR, can perform ASR for any image and unseen scaling factors. Extensive experiments validate the effectiveness of our proposed method. The project page can be found at \url{https://mt-cly.github.io/GSASR.github.io/}.
arxiv情報
著者 | Du Chen,Liyi Chen,Zhengqiang Zhang,Lei Zhang |
発行日 | 2025-01-14 14:09:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google