要約
テキストから画像への合成の核心は、入力テキストと合成された画像の間のクロスモダリティの意味の一貫性を維持することの難しさから生じます。
テキストから画像へのマッピングを直接モデル化しようとする典型的な方法は、共通のオブジェクトまたはアクションを示すテキスト内のキーワードのみをキャプチャできますが、それらの空間分布パターンを学習できません。
この制限を回避する効果的な方法は、ガイダンスとして画像レイアウトを生成することであり、いくつかの方法で試みられています。
それにもかかわらず、これらの方法は、入力テキストとオブジェクトの場所が多様であるため、実際に効果的なレイアウトを生成できません。
この論文では、テキストからレイアウトへの生成とレイアウトから画像への合成の両方で効果的なモデリングを推し進めます。
具体的には、テキストからレイアウトへの生成をシーケンスからシーケンスへのモデリング タスクとして定式化し、Transformer 上にモデルを構築して、オブジェクト間のシーケンシャルな依存関係をモデル化することにより、オブジェクト間の空間的な関係を学習します。
レイアウトから画像への合成の段階では、入力テキストをレイアウトから画像への合成プロセスに正確に組み込むために、レイアウト内のオブジェクトごとにテキストと視覚のセマンティック アラインメントを学習することに重点を置いています。
生成されたレイアウトの品質を評価するために、特にレイアウト品質スコアと呼ばれる新しいメトリックを設計します。これは、レイアウト内の境界ボックスの絶対分布エラーとそれらの間の相互空間関係の両方を考慮します。
3 つのデータセットでの広範な実験により、レイアウトの予測と指定されたテキストからの画像の合成の両方で、最先端の方法よりも優れたパフォーマンスが得られることが実証されました。
要約(オリジナル)
The crux of text-to-image synthesis stems from the difficulty of preserving the cross-modality semantic consistency between the input text and the synthesized image. Typical methods, which seek to model the text-to-image mapping directly, could only capture keywords in the text that indicates common objects or actions but fail to learn their spatial distribution patterns. An effective way to circumvent this limitation is to generate an image layout as guidance, which is attempted by a few methods. Nevertheless, these methods fail to generate practically effective layouts due to the diversity of input text and object location. In this paper we push for effective modeling in both text-to-layout generation and layout-to-image synthesis. Specifically, we formulate the text-to-layout generation as a sequence-to-sequence modeling task, and build our model upon Transformer to learn the spatial relationships between objects by modeling the sequential dependencies between them. In the stage of layout-to-image synthesis, we focus on learning the textual-visual semantic alignment per object in the layout to precisely incorporate the input text into the layout-to-image synthesizing process. To evaluate the quality of generated layout, we design a new metric specifically, dubbed Layout Quality Score, which considers both the absolute distribution errors of bounding boxes in the layout and the mutual spatial relationships between them. Extensive experiments on three datasets demonstrate the superior performance of our method over state-of-the-art methods on both predicting the layout and synthesizing the image from the given text.
arxiv情報
著者 | Jiadong Liang,Wenjie Pei,Feng Lu |
発行日 | 2022-08-12 08:21:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google