Transforming Image Generation from Scene Graphs

要約

意味的な視覚的知識から画像を生成することは、クラスラベルやテキスト記述のような代替手段と比較して、複雑かつ微妙で曖昧さのない方法で合成プロセスを条件付けるのに有用な挑戦的な課題である。意味表現を条件とする生成手法は存在するが、オブジェクト間の制約の指定以外に、生成プロセスを制御する方法は提供されていない。例えば、手動で特定の項目を追加することにより、画像を繰り返し生成・修正することが可能であることは望ましい特性であるが、我々の知る限り、文献上では十分に研究されていない。本研究では、シーングラフを条件とした変換器ベースのアプローチを提案する。このアプローチは、最近の変換器ベースの手法とは逆に、画像を自動漸進的に合成するデコーダも採用し、合成プロセスをより効果的かつ制御可能にする。提案するアーキテクチャは、以下の3つのモジュールで構成される。1) 入力グラフの関係を符号化するグラフ畳み込みネットワーク、2) 出力画像を自動漸進的に合成するエンコーダ・デコーダ変換器、3) 変換器による各変換ステップの入出力として用いられる表現を生成するための自動エンコーダ、である。CIFAR10とMNISTの画像を用いて得られた結果から、我々のモデルはシーングラフで定義された意味的制約を満たすことができ、ユーザから提供された目的の部分レンダリングを考慮してシーン内の視覚オブジェクト間の関係をモデル化することができることが示された。

要約(オリジナル)

Generating images from semantic visual knowledge is a challenging task, that can be useful to condition the synthesis process in complex, subtle, and unambiguous ways, compared to alternatives such as class labels or text descriptions. Although generative methods conditioned by semantic representations exist, they do not provide a way to control the generation process aside from the specification of constraints between objects. As an example, the possibility to iteratively generate or modify images by manually adding specific items is a desired property that, to our knowledge, has not been fully investigated in the literature. In this work we propose a transformer-based approach conditioned by scene graphs that, conversely to recent transformer-based methods, also employs a decoder to autoregressively compose images, making the synthesis process more effective and controllable. The proposed architecture is composed by three modules: 1) a graph convolutional network, to encode the relationships of the input graph; 2) an encoder-decoder transformer, which autoregressively composes the output image; 3) an auto-encoder, employed to generate representations used as input/output of each generation step by the transformer. Results obtained on CIFAR10 and MNIST images show that our model is able to satisfy semantic constraints defined by a scene graph and to model relations between visual objects in the scene by taking into account a user-provided partial rendering of the desired target.

arxiv情報

著者 Renato Sortino,Simone Palazzo,Concetto Spampinato
発行日 2022-07-01 16:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク