GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks

要約

人間の手や指に存在するような複雑な幾何学的特徴を画像生成モデルが再現できないという問題は、画像生成において 10 年近くにわたって継続している問題です。
モデルのサイズを増やし、トレーニング データセットを多様化することで進歩が見られましたが、この問題は依然として、ノイズ除去拡散モデルから敵対的生成ネットワーク (GAN) に至るすべてのモデルに蔓延しており、基盤となるアーキテクチャに根本的な欠点があることを示しています。
この論文では、相対 n 次元デカルト座標系を組み込んだ単一の入力チャネルを畳み込み層に提供することで畳み込み層の幾何学的機能を強化することで、この問題をどのように軽減できるかを示します。
これにより、拡散モデル、GAN、および変分オートエンコーダ (VAE) によって生成された画像の品質が大幅に向上することを示します。

要約(オリジナル)

The enduring inability of image generative models to recreate intricate geometric features, such as those present in human hands and fingers has been an ongoing problem in image generation for nearly a decade. While strides have been made by increasing model sizes and diversifying training datasets, this issue remains prevalent across all models, from denoising diffusion models to Generative Adversarial Networks (GAN), pointing to a fundamental shortcoming in the underlying architectures. In this paper, we demonstrate how this problem can be mitigated by augmenting convolution layers geometric capabilities through providing them with a single input channel incorporating the relative n-dimensional Cartesian coordinate system. We show this drastically improves quality of images generated by Diffusion Models, GANs, and Variational AutoEncoders (VAE).

arxiv情報

著者 Mehran Hosseini,Peyman Hosseini
発行日 2024-12-05 17:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 51, cs.AI, cs.CV, cs.LG, I.2.10 パーマリンク