Physics-informed Guided Disentanglement in Generative Networks

要約

画像から画像への変換(i2i)ネットワークは、ターゲットドメイン内の物理関連の現象(オクルージョン、フォグなど)の存在下でエンタングルメント効果に悩まされ、変換品質、可制御性、および変動性を完全に低下させます。
この論文では、単純な物理モデルのコレクションに基づいて、ターゲット画像の視覚的特性を解きほぐし、ターゲット特性の一部をレンダリングする物理モデルでプロセスをガイドし、残りの特性を学習するための包括的な方法を示します。
明示的で解釈可能な出力を可能にするため、物理モデル(ターゲットで最適に回帰)により、制御可能な方法で目に見えないシナリオを生成できます。
また、フレームワークを拡張し、神経誘導による解きほぐしへの多様性を示します。
結果は、私たちの解きほぐし戦略が、画像翻訳のいくつかの挑戦的なシナリオで、定性的および定量的にパフォーマンスを劇的に向上させることを示しています。

要約(オリジナル)

Image-to-image translation (i2i) networks suffer from entanglement effects in presence of physics-related phenomena in target domain (such as occlusions, fog, etc), lowering altogether the translation quality, controllability and variability. In this paper, we build upon collection of simple physics models and present a comprehensive method for disentangling visual traits in target images, guiding the process with a physical model that renders some of the target traits, and learning the remaining ones. Because it allows explicit and interpretable outputs, our physical models (optimally regressed on target) allows generating unseen scenarios in a controllable manner. We also extend our framework, showing versatility to neural-guided disentanglement. The results show our disentanglement strategies dramatically increase performances qualitatively and quantitatively in several challenging scenarios for image translation.

arxiv情報

著者 Fabio Pizzati,Pietro Cerri,Raoul de Charette
発行日 2022-06-29 04:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク