– 画像から画像への変換(i2i)ネットワークは、物理的な現象(遮蔽、霧など)が存在するターゲット領域での相互作用効果に苦しんでいます。これは、翻訳品質、制御性、そして変動性を著しく低下させます。
– この論文では、ターゲットの画像の視覚的な特徴を分解する一般的なフレームワークを提案します。
– 主に、物理モデルのコレクションをベースに、物理モデルがターゲットの特徴の一部を生成し、残りを学習することで、物理モデルによって誘導される分解を行います。物理学的手法は明示的で解釈可能な出力を生成できるため、目標に最適に回帰された物理モデルは、制御可能な方法で未知のシナリオを生成することができます。
– さらに、物理モデルが直接アクセスできない場合には、生成ネットワークを使用して神経学的に誘導される分解を行うことができるため、フレームワークの柔軟性を示します。
– 全体として、我々は、全微分可能な物理モデルによって誘導される分解、(部分的に)微分不可能な物理モデルによって誘導される分解、またはニューラルネットワークによって誘導される分解の3つの分解戦略を導入しています。
– 結果は、分解戦略によって、画像翻訳の複数の挑戦的なシナリオでの質的・量的な性能が劇的に向上することを示しています。
Image-to-image translation (i2i) networks suffer from entanglement effects in presence of physics-related phenomena in target domain (such as occlusions, fog, etc), lowering altogether the translation quality, controllability and variability. In this paper, we propose a general framework to disentangle visual traits in target images. Primarily, we build upon collection of simple physics models, guiding the disentanglement with a physical model that renders some of the target traits, and learning the remaining ones. Because physics allows explicit and interpretable outputs, our physical models (optimally regressed on target) allows generating unseen scenarios in a controllable manner. Secondarily, we show the versatility of our framework to neural-guided disentanglement where a generative network is used in place of a physical model in case the latter is not directly accessible. Altogether, we introduce three strategies of disentanglement being guided from either a fully differentiable physics model, a (partially) non-differentiable physics model, or a neural network. The results show our disentanglement strategies dramatically increase performances qualitatively and quantitatively in several challenging scenarios for image translation.
著者 | Fabio Pizzati,Pietro Cerri,Raoul de Charette |
発行日 | 2023-04-27 09:33:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI