要約
最近の研究では、暗黙の神経表現(INR)-その(x, y)座標が与えられるとRGB値を生成するMLP-に基づくGANの目覚しい進歩が示されています。これらは画像を画素の2次元配列ではなく、基礎となる2次元信号の連続バージョンとして表現するもので、GANアプリケーション(ゼロショット超解像、画像アウトペインティングなど)に新たな地平を切り開くものである。しかし、既存の学習アプローチは、すべての(x, y)座標に対してMLP演算を行うため、画像解像度に比例した重い計算コストが必要である。そこで、本論文では、画像解像度によらず柔軟な計算量でINRベースGANを学習できる、スケーラブルで新規な手法である多段パッチベース学習を提案する。具体的には、本手法により、パッチによる生成と識別を行い、画像の局所的な詳細を学習し、新しい再構成損失によりグローバルな構造情報を学習することで、効率的なGANの学習が可能となる。我々はいくつかのベンチマークデータセットで実験を行い、我々のアプローチがFIDを妥当なレベルに維持しながらGPUメモリ内のベースラインモデルを強化することを実証する。
要約(オリジナル)
Recent studies have shown remarkable progress in GANs based on implicit neural representation (INR) – an MLP that produces an RGB value given its (x, y) coordinate. They represent an image as a continuous version of the underlying 2D signal instead of a 2D array of pixels, which opens new horizons for GAN applications (e.g., zero-shot super-resolution, image outpainting). However, training existing approaches require a heavy computational cost proportional to the image resolution, since they compute an MLP operation for every (x, y) coordinate. To alleviate this issue, we propose a multi-stage patch-based training, a novel and scalable approach that can train INR-based GANs with a flexible computational cost regardless of the image resolution. Specifically, our method allows to generate and discriminate by patch to learn the local details of the image and learn global structural information by a novel reconstruction loss to enable efficient GAN training. We conduct experiments on several benchmark datasets to demonstrate that our approach enhances baseline models in GPU memory while maintaining FIDs at a reasonable level.
arxiv情報
著者 | Namwoo Lee,Hyunsu Kim,Gayoung Lee,Sungjoo Yoo,Yunjey Choi |
発行日 | 2022-07-04 13:28:53+00:00 |
arxivサイト | arxiv_id(pdf) |